論文の概要: Direct-a-Video: Customized Video Generation with User-Directed Camera Movement and Object Motion
- arxiv url: http://arxiv.org/abs/2402.03162v2
- Date: Mon, 6 May 2024 05:37:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-07 23:45:49.733744
- Title: Direct-a-Video: Customized Video Generation with User-Directed Camera Movement and Object Motion
- Title(参考訳): Direct-a-Video: ユーザ指向カメラモーションとオブジェクトモーションによるカスタマイズビデオ生成
- Authors: Shiyuan Yang, Liang Hou, Haibin Huang, Chongyang Ma, Pengfei Wan, Di Zhang, Xiaodong Chen, Jing Liao,
- Abstract要約: 我々は、カメラのパンやズームの動きだけでなく、複数のオブジェクトのモーションを独立して指定できるシステムであるDirect-a-Videoを紹介した。
カメラの動きの定量的なパラメータを解釈するために,新しい時間的クロスアテンション層を導入する。
どちらのコンポーネントも独立して動作し、個別または複合的な制御を可能にし、オープンドメインシナリオに一般化することができる。
- 参考スコア(独自算出の注目度): 34.404342332033636
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent text-to-video diffusion models have achieved impressive progress. In practice, users often desire the ability to control object motion and camera movement independently for customized video creation. However, current methods lack the focus on separately controlling object motion and camera movement in a decoupled manner, which limits the controllability and flexibility of text-to-video models. In this paper, we introduce Direct-a-Video, a system that allows users to independently specify motions for multiple objects as well as camera's pan and zoom movements, as if directing a video. We propose a simple yet effective strategy for the decoupled control of object motion and camera movement. Object motion is controlled through spatial cross-attention modulation using the model's inherent priors, requiring no additional optimization. For camera movement, we introduce new temporal cross-attention layers to interpret quantitative camera movement parameters. We further employ an augmentation-based approach to train these layers in a self-supervised manner on a small-scale dataset, eliminating the need for explicit motion annotation. Both components operate independently, allowing individual or combined control, and can generalize to open-domain scenarios. Extensive experiments demonstrate the superiority and effectiveness of our method. Project page and code are available at https://direct-a-video.github.io/.
- Abstract(参考訳): 最近のテキスト・ビデオ拡散モデルは驚くべき進歩を遂げた。
実際には、ユーザーは、カスタマイズされたビデオ作成のために、オブジェクトの動きとカメラの動きを独立して制御する能力を望むことが多い。
しかし、現在の手法では、オブジェクトの動きとカメラの動きを分離的に制御することに集中していないため、テキスト・ビデオモデルの制御性と柔軟性が制限されている。
本稿では,カメラのパンやズームの動きだけでなく,複数のオブジェクトに対する動きを独立して指定するシステムであるDirect-a-Videoを紹介する。
本稿では,物体の動きとカメラの動きの分離制御のための簡易かつ効果的な戦略を提案する。
オブジェクトの動きは、モデル固有の事前値を使用して空間的相互アテンション変調によって制御され、追加の最適化は不要である。
カメラの動きの定量的なパラメータを解釈するために,新しい時間的クロスアテンション層を導入する。
さらに、これらのレイヤを小さなデータセット上で自己教師型でトレーニングするために拡張ベースのアプローチを採用し、明示的な動作アノテーションの必要性を排除した。
どちらのコンポーネントも独立して動作し、個別または複合的な制御を可能にし、オープンドメインシナリオに一般化することができる。
大規模な実験により,本手法の優位性と有効性を示した。
プロジェクトページとコードはhttps://direct-a-video.github.io/.com/で公開されている。
関連論文リスト
- MotionAgent: Fine-grained Controllable Video Generation via Motion Field Agent [58.09607975296408]
テキスト誘導画像-映像生成のための微粒なモーション制御を実現するMotionAgentを提案する。
キーとなる技術は、テキストプロンプトの動作情報を明示的な運動場に変換するモーション・フィールド・エージェントである。
我々はVBenchのサブセットを構築し、テキストと生成されたビデオの動作情報のアライメントを評価する。
論文 参考訳(メタデータ) (2025-02-05T14:26:07Z) - Free-Form Motion Control: A Synthetic Video Generation Dataset with Controllable Camera and Object Motions [78.65431951506152]
自由形運動制御のための合成データセット(SynFMC)を提案する。
提案したSynFMCデータセットは、さまざまなオブジェクトと環境を含み、特定のルールに従ってさまざまな動きパターンをカバーしている。
さらに,物体とカメラの動きの独立的あるいは同時制御を可能にするFMC(Free-Form Motion Control)を提案する。
論文 参考訳(メタデータ) (2025-01-02T18:59:45Z) - Motion Prompting: Controlling Video Generation with Motion Trajectories [57.049252242807874]
スパースもしくは高密度なビデオ軌跡を条件とした映像生成モデルを訓練する。
ハイレベルなユーザリクエストを,詳細なセミセンスな動作プロンプトに変換する。
我々は、カメラや物体の動き制御、画像との「相互作用」、動画転送、画像編集など、様々な応用を通してアプローチを実証する。
論文 参考訳(メタデータ) (2024-12-03T18:59:56Z) - MotionBooth: Motion-Aware Customized Text-to-Video Generation [44.41894050494623]
MotionBoothは、オブジェクトとカメラの両方の動きを正確に制御して、カスタマイズされた被験者をアニメーションするためのフレームワークである。
オブジェクトの形状や属性を正確に把握するために,テキスト・ビデオ・モデルを効率的に微調整する。
提案手法は,被験者の学習能力を高めるために,被写体領域の損失とビデオ保存損失を示す。
論文 参考訳(メタデータ) (2024-06-25T17:42:25Z) - Image Conductor: Precision Control for Interactive Video Synthesis [90.2353794019393]
映画製作とアニメーション制作は、しばしばカメラの遷移と物体の動きを調整するための洗練された技術を必要とする。
イメージコンダクタ(Image Conductor)は、カメラトランジションとオブジェクトの動きを正確に制御し、単一の画像からビデオアセットを生成する方法である。
論文 参考訳(メタデータ) (2024-06-21T17:55:05Z) - MotionMaster: Training-free Camera Motion Transfer For Video Generation [48.706578330771386]
本稿では,映像中のカメラの動きと物体の動きをアンハングリングする,トレーニング不要な動画移動モデルを提案する。
我々のモデルは、効果的にカメラオブジェクトの動きを分離し、分離されたカメラの動きを広範囲の制御可能なビデオ生成タスクに適用することができる。
論文 参考訳(メタデータ) (2024-04-24T10:28:54Z) - MotionCtrl: A Unified and Flexible Motion Controller for Video Generation [77.09621778348733]
ビデオ中の動きは、主にカメラの動きによって誘導されるカメラの動きと、物体の動きによって生じる物体の動きから成り立っている。
本稿では,カメラと物体の動きを効果的かつ独立に制御するビデオ生成用統合モーションコントローラであるMotionCtrlを提案する。
論文 参考訳(メタデータ) (2023-12-06T17:49:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。