論文の概要: C-Drag: Chain-of-Thought Driven Motion Controller for Video Generation
- arxiv url: http://arxiv.org/abs/2502.19868v1
- Date: Thu, 27 Feb 2025 08:21:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-28 14:57:32.274683
- Title: C-Drag: Chain-of-Thought Driven Motion Controller for Video Generation
- Title(参考訳): C-Drag:ビデオ生成のためのチェーン駆動型モーションコントローラ
- Authors: Yuhao Li, Mirana Claire Angel, Salman Khan, Yu Zhu, Jinqiu Sun, Yanning Zhang, Fahad Shahbaz Khan,
- Abstract要約: トラジェクティブに基づくモーションコントロールは、制御可能なビデオ生成のための直感的で効率的なアプローチとして登場した。
我々はC-Dragという制御可能なビデオ生成のためのチェーン・オブ・ソート型モーションコントローラを提案する。
本手法は,物体認識モジュールとChain-of-Thoughtベースの動作推論モジュールを含む。
- 参考スコア(独自算出の注目度): 81.4106601222722
- License:
- Abstract: Trajectory-based motion control has emerged as an intuitive and efficient approach for controllable video generation. However, the existing trajectory-based approaches are usually limited to only generating the motion trajectory of the controlled object and ignoring the dynamic interactions between the controlled object and its surroundings. To address this limitation, we propose a Chain-of-Thought-based motion controller for controllable video generation, named C-Drag. Instead of directly generating the motion of some objects, our C-Drag first performs object perception and then reasons the dynamic interactions between different objects according to the given motion control of the objects. Specifically, our method includes an object perception module and a Chain-of-Thought-based motion reasoning module. The object perception module employs visual language models to capture the position and category information of various objects within the image. The Chain-of-Thought-based motion reasoning module takes this information as input and conducts a stage-wise reasoning process to generate motion trajectories for each of the affected objects, which are subsequently fed to the diffusion model for video synthesis. Furthermore, we introduce a new video object interaction (VOI) dataset to evaluate the generation quality of motion controlled video generation methods. Our VOI dataset contains three typical types of interactions and provides the motion trajectories of objects that can be used for accurate performance evaluation. Experimental results show that C-Drag achieves promising performance across multiple metrics, excelling in object motion control. Our benchmark, codes, and models will be available at https://github.com/WesLee88524/C-Drag-Official-Repo.
- Abstract(参考訳): トラジェクティブに基づくモーションコントロールは、制御可能なビデオ生成のための直感的で効率的なアプローチとして登場した。
しかし、既存の軌跡に基づくアプローチは、通常、制御対象の運動軌跡を発生させ、制御対象とその周囲の動的相互作用を無視しているだけに限られる。
この制限に対処するため、我々はC-Dragという制御可能なビデオ生成のためのChain-of-Thoughtベースのモーションコントローラを提案する。
物体の運動を直接生成する代わりに、我々のC-Dragはまず物体の知覚を行い、その物体の所定の動き制御に従って異なる物体間の動的相互作用を推論する。
具体的には、オブジェクト認識モジュールとChain-of-Thoughtベースのモーション推論モジュールを含む。
オブジェクト認識モジュールは視覚言語モデルを使用して、画像内の様々なオブジェクトの位置とカテゴリ情報をキャプチャする。
Chain-of-Thoughtベースのモーション推論モジュールは、この情報を入力として取り出し、ステージワイズ推論プロセスを実行し、影響を受ける各オブジェクトに対するモーショントラジェクトリを生成し、その後、ビデオ合成のための拡散モデルに供給する。
さらに,動作制御ビデオ生成手法の生成品質を評価するために,新しいビデオオブジェクトインタラクション(VOI)データセットを導入する。
VOIデータセットには3つの典型的なインタラクションタイプが含まれており、正確な性能評価に使用できるオブジェクトの運動軌跡を提供する。
実験結果から,C-Dragは複数の指標で有望な性能を達成し,物体の動き制御に優れていた。
私たちのベンチマーク、コード、モデルはhttps://github.com/WesLee88524/C-Drag-Official-Repoで公開されます。
関連論文リスト
- MONA: Moving Object Detection from Videos Shot by Dynamic Camera [20.190677328673836]
ダイナミックカメラで撮影されたビデオから、ロバストな移動物体の検出とセグメンテーションを行うためのフレームワークであるMONAを紹介する。
MonAは2つの重要なモジュールから構成される: 動的ポイント抽出(Dynamic Points extract)は光学フローを活用し、動的ポイントを識別するための任意のポイントを追跡する。
カメラ軌道推定手法LEAP-VOと統合してMONAを検証する。
論文 参考訳(メタデータ) (2025-01-22T19:30:28Z) - Free-Form Motion Control: A Synthetic Video Generation Dataset with Controllable Camera and Object Motions [78.65431951506152]
自由形運動制御のための合成データセット(SynFMC)を提案する。
提案したSynFMCデータセットは、さまざまなオブジェクトと環境を含み、特定のルールに従ってさまざまな動きパターンをカバーしている。
さらに,物体とカメラの動きの独立的あるいは同時制御を可能にするFMC(Free-Form Motion Control)を提案する。
論文 参考訳(メタデータ) (2025-01-02T18:59:45Z) - Direct-a-Video: Customized Video Generation with User-Directed Camera Movement and Object Motion [34.404342332033636]
我々は、カメラのパンやズームの動きだけでなく、複数のオブジェクトのモーションを独立して指定できるシステムであるDirect-a-Videoを紹介した。
カメラの動きの定量的なパラメータを解釈するために,新しい時間的クロスアテンション層を導入する。
どちらのコンポーネントも独立して動作し、個別または複合的な制御を可能にし、オープンドメインシナリオに一般化することができる。
論文 参考訳(メタデータ) (2024-02-05T16:30:57Z) - Delving into Motion-Aware Matching for Monocular 3D Object Tracking [81.68608983602581]
異なる時間軸に沿った物体の運動キューが3次元多物体追跡において重要であることが判明した。
3つの動き認識コンポーネントからなるフレームワークであるMoMA-M3Tを提案する。
我々はnuScenesとKITTIデータセットに関する広範な実験を行い、MoMA-M3Tが最先端の手法と競合する性能を発揮することを実証した。
論文 参考訳(メタデータ) (2023-08-22T17:53:58Z) - Learn the Force We Can: Enabling Sparse Motion Control in Multi-Object
Video Generation [26.292052071093945]
単一のフレームとスパース動作入力からビデオを生成する教師なしの手法を提案する。
我々の訓練されたモデルは、目に見えない現実的なオブジェクト間相互作用を生成できる。
ヨダは、制御性と映像品質の両面において、先行するアートビデオ生成の状況と同等かそれ以上であることを示す。
論文 参考訳(メタデータ) (2023-06-06T19:50:02Z) - MotionTrack: Learning Motion Predictor for Multiple Object Tracking [68.68339102749358]
本研究では,学習可能なモーション予測器を中心に,新しいモーショントラッカーであるMotionTrackを紹介する。
実験結果から、MotionTrackはDancetrackやSportsMOTといったデータセット上での最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-06-05T04:24:11Z) - Implicit Motion Handling for Video Camouflaged Object Detection [60.98467179649398]
本稿では,新しいビデオカモフラージュオブジェクト検出(VCOD)フレームワークを提案する。
短期的および長期的整合性を利用して、ビデオフレームからカモフラージュされたオブジェクトを検出する。
論文 参考訳(メタデータ) (2022-03-14T17:55:41Z) - Betrayed by Motion: Camouflaged Object Discovery via Motion Segmentation [93.22300146395536]
本研究では,映像中のキャモフラージュされた物体を検出する計算アーキテクチャを設計し,特に物体のセグメンテーションを行うために動作情報を活用する。
最初の大規模な移動カモフラージュ動物(MoCA)ビデオデータセットを収集した。
提案手法の有効性を実証し,動作のみに依存して,DAVIS2016上の教師なしセグメンテーションプロトコル上での競合性能を実現する。
論文 参考訳(メタデータ) (2020-11-23T18:59:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。