論文の概要: Target-Aware Video Diffusion Models
- arxiv url: http://arxiv.org/abs/2503.18950v1
- Date: Mon, 24 Mar 2025 17:59:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:35:18.671263
- Title: Target-Aware Video Diffusion Models
- Title(参考訳): ターゲット対応ビデオ拡散モデル
- Authors: Taeksoo Kim, Hanbyul Joo,
- Abstract要約: 本稿では、アクターが特定のターゲットと対話する入力画像から映像を生成するターゲット対応ビデオ拡散モデルを提案する。
ターゲットに対するアクターの動きを誘導するために、しばしば密度の高い構造や動きの手がかりに依存する既存の制御可能な画像間拡散モデルとは異なり、我々のターゲット認識モデルはターゲットを示すための単純なマスクしか必要としない。
- 参考スコア(独自算出の注目度): 9.01174307678548
- License:
- Abstract: We present a target-aware video diffusion model that generates videos from an input image in which an actor interacts with a specified target while performing a desired action. The target is defined by a segmentation mask and the desired action is described via a text prompt. Unlike existing controllable image-to-video diffusion models that often rely on dense structural or motion cues to guide the actor's movements toward the target, our target-aware model requires only a simple mask to indicate the target, leveraging the generalization capabilities of pretrained models to produce plausible actions. This makes our method particularly effective for human-object interaction (HOI) scenarios, where providing precise action guidance is challenging, and further enables the use of video diffusion models for high-level action planning in applications such as robotics. We build our target-aware model by extending a baseline model to incorporate the target mask as an additional input. To enforce target awareness, we introduce a special token that encodes the target's spatial information within the text prompt. We then fine-tune the model with our curated dataset using a novel cross-attention loss that aligns the cross-attention maps associated with this token with the input target mask. To further improve performance, we selectively apply this loss to the most semantically relevant transformer blocks and attention regions. Experimental results show that our target-aware model outperforms existing solutions in generating videos where actors interact accurately with the specified targets. We further demonstrate its efficacy in two downstream applications: video content creation and zero-shot 3D HOI motion synthesis.
- Abstract(参考訳): 本稿では、アクターが所望のアクションを実行しながら特定のターゲットと対話する入力画像から映像を生成するターゲット対応ビデオ拡散モデルを提案する。
ターゲットはセグメンテーションマスクで定義され、所望のアクションはテキストプロンプトを介して記述される。
ターゲットに対するアクターの動きを誘導するために、しばしば高密度な構造的または運動的キューに依存する既存の制御可能な画像間拡散モデルとは異なり、我々のターゲット認識モデルは、ターゲットを示すための単純なマスクのみを必要とし、事前学習されたモデルの一般化能力を活用して、プラプティブルなアクションを生成する。
これにより,人間と物体の相互作用(HOI)のシナリオに特に有効であり,正確なアクションガイダンスの提供は困難であり,ロボット工学などのアプリケーションにおけるハイレベルなアクションプランニングのためのビデオ拡散モデルの利用も可能となる。
ターゲットマスクを付加入力として組み込むためにベースラインモデルを拡張してターゲット認識モデルを構築する。
ターゲット認識を強制するために,テキストプロンプト内にターゲットの空間情報をエンコードする特別なトークンを導入する。
次に、このトークンに関連付けられた横断的地図と入力対象マスクとを整列する、新しいクロスアテンション損失を用いて、そのモデルをキュレートされたデータセットで微調整する。
さらなる性能向上のために、この損失を最も意味論的に関係のあるトランスフォーマーブロックとアテンション領域に選択的に適用する。
実験の結果,アクターが特定のターゲットと正確に対話するビデオ生成において,ターゲット認識モデルは既存のソリューションよりも優れていた。
さらに、映像コンテンツ作成とゼロショット3DHOIモーション合成の2つのダウンストリームアプリケーションにおいて、その効果を実証する。
関連論文リスト
- Consistent Human Image and Video Generation with Spatially Conditioned Diffusion [82.4097906779699]
一貫性のある人中心画像とビデオ合成は、所定の参照画像との外観整合性を維持しつつ、新しいポーズを持つ画像を生成することを目的としている。
我々は,課題を空間条件付き塗装問題とみなし,対象画像をインペイントして参照との外観整合性を維持する。
このアプローチにより、参照機能により、統一された認知ネットワーク内でのポーズ準拠のターゲットの生成をガイドすることができる。
論文 参考訳(メタデータ) (2024-12-19T05:02:30Z) - Stanceformer: Target-Aware Transformer for Stance Detection [59.69858080492586]
スタンス検出は、テキストで表現されたスタンスを特定の主題やターゲットに向けて識別する。
以前の作業は、ターゲットを効果的に優先順位付けする能力に欠ける既存のトランスフォーマーモデルに依存していた。
本稿では,学習と推論の両方において,目標に対する注意を高めるターゲット対応トランスフォーマーモデルであるStanceformerを紹介する。
論文 参考訳(メタデータ) (2024-10-09T17:24:28Z) - MotionCom: Automatic and Motion-Aware Image Composition with LLM and Video Diffusion Prior [51.672193627686]
MotionComは、トレーニングなしのモーションアウェア拡散に基づく画像合成である。
ターゲットオブジェクトを動的にコヒーレントな結果で新しいシーンにシームレスに統合することを可能にする。
論文 参考訳(メタデータ) (2024-09-16T08:44:17Z) - TAFormer: A Unified Target-Aware Transformer for Video and Motion Joint Prediction in Aerial Scenes [14.924741503611749]
本研究では,ターゲット認識空中映像予測(Target-Aware Aerial Video Prediction)と呼ばれる新しいタスクを導入する。
本研究では,空間的静的な注意と時間的ダイナミックな注意にビデオダイナミクスの学習を分離し,シーンの外観と動きを効果的にモデル化する時空間的注意(STA)を紹介した。
ぼかし予測における目標の識別の難しさを軽減するため,ターゲット感性ガウス損失(TSGL)を導入し,目標の位置と内容の両方に対するモデルの感度を高める。
論文 参考訳(メタデータ) (2024-03-27T04:03:55Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - Masked Diffusion with Task-awareness for Procedure Planning in
Instructional Videos [16.93979476655776]
指導ビデオにおけるプロシージャ計画における重要な課題は、さまざまなアクションタイプからなる大きな決定空間をどのように扱うかである。
マスク付き拡散モデルとして,シンプルで効果的な拡張法を提案する。
我々は,事前学習された視覚言語モデルに人間の行動に焦点を当てるよう促すことで,テキストの埋め込みを生成する共同視覚テキスト埋め込みを学習する。
論文 参考訳(メタデータ) (2023-09-14T03:25:37Z) - Co-segmentation Inspired Attention Module for Video-based Computer
Vision Tasks [11.61956970623165]
本稿では,コセグメンテーション・モジュール・アクティベーション(COSAM)と呼ばれる汎用モジュールを提案する。
ビデオベースタスクにおけるCOSAMの適用例として,1)ビデオベースの人物再ID,2)ビデオキャプション,3)ビデオアクション分類の3つを挙げる。
論文 参考訳(メタデータ) (2021-11-14T15:35:37Z) - EAN: Event Adaptive Network for Enhanced Action Recognition [66.81780707955852]
本稿では,映像コンテンツの動的性質を調査するための統合された行動認識フレームワークを提案する。
まず、局所的な手がかりを抽出する際に、動的スケールの時空間カーネルを生成し、多様な事象を適応的に適合させる。
第2に、これらのキューを正確にグローバルなビデオ表現に集約するために、トランスフォーマーによって選択されたいくつかの前景オブジェクト間のインタラクションのみをマイニングすることを提案する。
論文 参考訳(メタデータ) (2021-07-22T15:57:18Z) - Knowing What, Where and When to Look: Efficient Video Action Modeling
with Attention [84.83632045374155]
注意ビデオモデリングは、制約のないビデオにおける行動認識に不可欠である。
What-Where-When (W3)ビデオアテンションモジュールは、ビデオアテンションの3つの面を一緒にモデル化する。
実験により,我々の注意モデルが既存の行動認識モデルに大きな改善をもたらすことが示された。
論文 参考訳(メタデータ) (2020-04-02T21:48:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。