論文の概要: Direct-a-Video: Customized Video Generation with User-Directed Camera Movement and Object Motion
- arxiv url: http://arxiv.org/abs/2402.03162v2
- Date: Mon, 6 May 2024 05:37:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-07 23:45:49.733744
- Title: Direct-a-Video: Customized Video Generation with User-Directed Camera Movement and Object Motion
- Title(参考訳): Direct-a-Video: ユーザ指向カメラモーションとオブジェクトモーションによるカスタマイズビデオ生成
- Authors: Shiyuan Yang, Liang Hou, Haibin Huang, Chongyang Ma, Pengfei Wan, Di Zhang, Xiaodong Chen, Jing Liao,
- Abstract要約: 我々は、カメラのパンやズームの動きだけでなく、複数のオブジェクトのモーションを独立して指定できるシステムであるDirect-a-Videoを紹介した。
カメラの動きの定量的なパラメータを解釈するために,新しい時間的クロスアテンション層を導入する。
どちらのコンポーネントも独立して動作し、個別または複合的な制御を可能にし、オープンドメインシナリオに一般化することができる。
- 参考スコア(独自算出の注目度): 34.404342332033636
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent text-to-video diffusion models have achieved impressive progress. In practice, users often desire the ability to control object motion and camera movement independently for customized video creation. However, current methods lack the focus on separately controlling object motion and camera movement in a decoupled manner, which limits the controllability and flexibility of text-to-video models. In this paper, we introduce Direct-a-Video, a system that allows users to independently specify motions for multiple objects as well as camera's pan and zoom movements, as if directing a video. We propose a simple yet effective strategy for the decoupled control of object motion and camera movement. Object motion is controlled through spatial cross-attention modulation using the model's inherent priors, requiring no additional optimization. For camera movement, we introduce new temporal cross-attention layers to interpret quantitative camera movement parameters. We further employ an augmentation-based approach to train these layers in a self-supervised manner on a small-scale dataset, eliminating the need for explicit motion annotation. Both components operate independently, allowing individual or combined control, and can generalize to open-domain scenarios. Extensive experiments demonstrate the superiority and effectiveness of our method. Project page and code are available at https://direct-a-video.github.io/.
- Abstract(参考訳): 最近のテキスト・ビデオ拡散モデルは驚くべき進歩を遂げた。
実際には、ユーザーは、カスタマイズされたビデオ作成のために、オブジェクトの動きとカメラの動きを独立して制御する能力を望むことが多い。
しかし、現在の手法では、オブジェクトの動きとカメラの動きを分離的に制御することに集中していないため、テキスト・ビデオモデルの制御性と柔軟性が制限されている。
本稿では,カメラのパンやズームの動きだけでなく,複数のオブジェクトに対する動きを独立して指定するシステムであるDirect-a-Videoを紹介する。
本稿では,物体の動きとカメラの動きの分離制御のための簡易かつ効果的な戦略を提案する。
オブジェクトの動きは、モデル固有の事前値を使用して空間的相互アテンション変調によって制御され、追加の最適化は不要である。
カメラの動きの定量的なパラメータを解釈するために,新しい時間的クロスアテンション層を導入する。
さらに、これらのレイヤを小さなデータセット上で自己教師型でトレーニングするために拡張ベースのアプローチを採用し、明示的な動作アノテーションの必要性を排除した。
どちらのコンポーネントも独立して動作し、個別または複合的な制御を可能にし、オープンドメインシナリオに一般化することができる。
大規模な実験により,本手法の優位性と有効性を示した。
プロジェクトページとコードはhttps://direct-a-video.github.io/.com/で公開されている。
関連論文リスト
- I2VControl-Camera: Precise Video Camera Control with Adjustable Motion Strength [11.778832811404259]
I2Vコントロルカメラ(I2VControl-Camera)は、被写体運動の強度を提供しながら、制御性を大幅に向上させる新しいカメラ制御方法である。
被写体運動の強度を正確に制御・調整するために,映像軌道展開の高次成分を明示的にモデル化する。
論文 参考訳(メタデータ) (2024-11-10T16:59:39Z) - VD3D: Taming Large Video Diffusion Transformers for 3D Camera Control [74.5434726968562]
Plucker座標に基づく制御ネットライクなコンディショニング機構を用いた3次元カメラ制御のためのトランスフォーマー映像を試作する。
我々の研究は、トランスフォーマーに基づくビデオ拡散モデルのカメラ制御を可能にする最初のものである。
論文 参考訳(メタデータ) (2024-07-17T17:59:05Z) - MotionBooth: Motion-Aware Customized Text-to-Video Generation [44.41894050494623]
MotionBoothは、オブジェクトとカメラの両方の動きを正確に制御して、カスタマイズされた被験者をアニメーションするためのフレームワークである。
オブジェクトの形状や属性を正確に把握するために,テキスト・ビデオ・モデルを効率的に微調整する。
提案手法は,被験者の学習能力を高めるために,被写体領域の損失とビデオ保存損失を示す。
論文 参考訳(メタデータ) (2024-06-25T17:42:25Z) - Image Conductor: Precision Control for Interactive Video Synthesis [90.2353794019393]
映画製作とアニメーション制作は、しばしばカメラの遷移と物体の動きを調整するための洗練された技術を必要とする。
イメージコンダクタ(Image Conductor)は、カメラトランジションとオブジェクトの動きを正確に制御し、単一の画像からビデオアセットを生成する方法である。
論文 参考訳(メタデータ) (2024-06-21T17:55:05Z) - MotionMaster: Training-free Camera Motion Transfer For Video Generation [48.706578330771386]
本稿では,映像中のカメラの動きと物体の動きをアンハングリングする,トレーニング不要な動画移動モデルを提案する。
我々のモデルは、効果的にカメラオブジェクトの動きを分離し、分離されたカメラの動きを広範囲の制御可能なビデオ生成タスクに適用することができる。
論文 参考訳(メタデータ) (2024-04-24T10:28:54Z) - Follow-Your-Click: Open-domain Regional Image Animation via Short
Prompts [67.5094490054134]
簡単なユーザクリックで画像アニメーションを実現するために,Follow-Your-Clickという実用的なフレームワークを提案する。
我々のフレームワークは、従来の方法よりもシンプルで正確なユーザ制御と、より優れた生成性能を備えています。
論文 参考訳(メタデータ) (2024-03-13T05:44:37Z) - MotionCrafter: One-Shot Motion Customization of Diffusion Models [66.44642854791807]
ワンショットのインスタンス誘導モーションカスタマイズ手法であるMotionCrafterを紹介する。
MotionCrafterは、基準運動をベースモデルの時間成分に注入する並列時空間アーキテクチャを採用している。
トレーニング中、凍結ベースモデルは外見の正規化を提供し、運動から効果的に外見を分離する。
論文 参考訳(メタデータ) (2023-12-08T16:31:04Z) - MotionCtrl: A Unified and Flexible Motion Controller for Video Generation [77.09621778348733]
ビデオ中の動きは、主にカメラの動きによって誘導されるカメラの動きと、物体の動きによって生じる物体の動きから成り立っている。
本稿では,カメラと物体の動きを効果的かつ独立に制御するビデオ生成用統合モーションコントローラであるMotionCtrlを提案する。
論文 参考訳(メタデータ) (2023-12-06T17:49:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。