論文の概要: MotionMaster: Training-free Camera Motion Transfer For Video Generation
- arxiv url: http://arxiv.org/abs/2404.15789v2
- Date: Wed, 1 May 2024 02:37:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-02 17:35:46.992321
- Title: MotionMaster: Training-free Camera Motion Transfer For Video Generation
- Title(参考訳): MotionMaster:ビデオ生成のためのトレーニング不要カメラモーション転送
- Authors: Teng Hu, Jiangning Zhang, Ran Yi, Yating Wang, Hongrui Huang, Jieyu Weng, Yabiao Wang, Lizhuang Ma,
- Abstract要約: 本稿では,映像中のカメラの動きと物体の動きをアンハングリングする,トレーニング不要な動画移動モデルを提案する。
我々のモデルは、効果的にカメラオブジェクトの動きを分離し、分離されたカメラの動きを広範囲の制御可能なビデオ生成タスクに適用することができる。
- 参考スコア(独自算出の注目度): 48.706578330771386
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The emergence of diffusion models has greatly propelled the progress in image and video generation. Recently, some efforts have been made in controllable video generation, including text-to-video generation and video motion control, among which camera motion control is an important topic. However, existing camera motion control methods rely on training a temporal camera module, and necessitate substantial computation resources due to the large amount of parameters in video generation models. Moreover, existing methods pre-define camera motion types during training, which limits their flexibility in camera control. Therefore, to reduce training costs and achieve flexible camera control, we propose COMD, a novel training-free video motion transfer model, which disentangles camera motions and object motions in source videos and transfers the extracted camera motions to new videos. We first propose a one-shot camera motion disentanglement method to extract camera motion from a single source video, which separates the moving objects from the background and estimates the camera motion in the moving objects region based on the motion in the background by solving a Poisson equation. Furthermore, we propose a few-shot camera motion disentanglement method to extract the common camera motion from multiple videos with similar camera motions, which employs a window-based clustering technique to extract the common features in temporal attention maps of multiple videos. Finally, we propose a motion combination method to combine different types of camera motions together, enabling our model a more controllable and flexible camera control. Extensive experiments demonstrate that our training-free approach can effectively decouple camera-object motion and apply the decoupled camera motion to a wide range of controllable video generation tasks, achieving flexible and diverse camera motion control.
- Abstract(参考訳): 拡散モデルの出現は、画像およびビデオ生成の進歩を大いに促進した。
近年,テキスト・トゥ・ビデオ・ジェネレーションやビデオ・モーション・コントロールなど,カメラ・モーション・コントロールが重要な話題となっているコントロール可能なビデオ・ジェネレーションへの取り組みが進められている。
しかし、既存のカメラモーションコントロール手法は、時間カメラモジュールのトレーニングに頼っており、ビデオ生成モデルにおける大量のパラメータのため、かなりの計算資源を必要とする。
さらに、トレーニング中にカメラのモーションタイプを事前に定義する既存の手法では、カメラ制御の柔軟性が制限されている。
そこで,トレーニングコストを低減し,フレキシブルなカメラ制御を実現するために,ソースビデオ中のカメラの動きとオブジェクトの動きをアンハングリングし,抽出したカメラの動きを新しいビデオに転送する,新しいトレーニングフリー動画移動モデルであるCOMDを提案する。
まず,背景から移動物体を分離し,ポアソン方程式を解くことにより,背景の動きに基づいて移動物体領域におけるカメラの動きを推定する。
さらに,複数のビデオの時間的注目マップに共通する特徴を抽出するために,ウィンドウベースのクラスタリング手法を用いて,類似のカメラモーションを用いた複数のビデオから共通カメラモーションを抽出する,数発のカメラモーション・アンタングル法を提案する。
最後に、異なる種類のカメラの動きを組み合わせ、より制御しやすくフレキシブルなカメラ制御を可能にするモーション組み合わせ法を提案する。
広汎な実験により、我々のトレーニング不要なアプローチは、カメラオブジェクトの動きを効果的に分離し、分離されたカメラモーションを幅広い制御可能なビデオ生成タスクに適用し、フレキシブルで多様なカメラモーション制御を実現することができることを示した。
関連論文リスト
- Cavia: Camera-controllable Multi-view Video Diffusion with View-Integrated Attention [62.2447324481159]
Caviaはカメラ制御可能なマルチビュービデオ生成のための新しいフレームワークである。
我々のフレームワークは、空間的および時間的注意モジュールを拡張し、視点と時間的一貫性を改善します。
Caviaは、ユーザーが物体の動きを取得しながら、異なるカメラの動きを特定できる最初の製品だ。
論文 参考訳(メタデータ) (2024-10-14T17:46:32Z) - VD3D: Taming Large Video Diffusion Transformers for 3D Camera Control [74.5434726968562]
Plucker座標に基づく制御ネットライクなコンディショニング機構を用いた3次元カメラ制御のためのトランスフォーマー映像を試作する。
我々の研究は、トランスフォーマーに基づくビデオ拡散モデルのカメラ制御を可能にする最初のものである。
論文 参考訳(メタデータ) (2024-07-17T17:59:05Z) - MotionBooth: Motion-Aware Customized Text-to-Video Generation [44.41894050494623]
MotionBoothは、オブジェクトとカメラの両方の動きを正確に制御して、カスタマイズされた被験者をアニメーションするためのフレームワークである。
オブジェクトの形状や属性を正確に把握するために,テキスト・ビデオ・モデルを効率的に微調整する。
提案手法は,被験者の学習能力を高めるために,被写体領域の損失とビデオ保存損失を示す。
論文 参考訳(メタデータ) (2024-06-25T17:42:25Z) - Image Conductor: Precision Control for Interactive Video Synthesis [90.2353794019393]
映画製作とアニメーション制作は、しばしばカメラの遷移と物体の動きを調整するための洗練された技術を必要とする。
イメージコンダクタ(Image Conductor)は、カメラトランジションとオブジェクトの動きを正確に制御し、単一の画像からビデオアセットを生成する方法である。
論文 参考訳(メタデータ) (2024-06-21T17:55:05Z) - Training-free Camera Control for Video Generation [19.526135830699882]
本稿では,市販ビデオ拡散モデルに対して,カメラの動き制御を実現するためのトレーニングフリーで堅牢なソリューションを提案する。
本手法では,カメラ注釈付きデータセットの教師付き微調整やデータ拡張による自己教師型トレーニングは不要である。
論文 参考訳(メタデータ) (2024-06-14T15:33:00Z) - Collaborative Video Diffusion: Consistent Multi-video Generation with Camera Control [70.17137528953953]
コラボレーション型ビデオ拡散(CVD)は、ビデオ生成のための最先端のカメラ制御モジュール上で訓練される。
CVDは、異なるカメラ軌跡からレンダリングされた複数のビデオを、ベースラインよりもはるかに優れた一貫性で生成する。
論文 参考訳(メタデータ) (2024-05-27T17:58:01Z) - Direct-a-Video: Customized Video Generation with User-Directed Camera Movement and Object Motion [34.404342332033636]
我々は、カメラのパンやズームの動きだけでなく、複数のオブジェクトのモーションを独立して指定できるシステムであるDirect-a-Videoを紹介した。
カメラの動きの定量的なパラメータを解釈するために,新しい時間的クロスアテンション層を導入する。
どちらのコンポーネントも独立して動作し、個別または複合的な制御を可能にし、オープンドメインシナリオに一般化することができる。
論文 参考訳(メタデータ) (2024-02-05T16:30:57Z) - MotionCtrl: A Unified and Flexible Motion Controller for Video Generation [77.09621778348733]
ビデオ中の動きは、主にカメラの動きによって誘導されるカメラの動きと、物体の動きによって生じる物体の動きから成り立っている。
本稿では,カメラと物体の動きを効果的かつ独立に制御するビデオ生成用統合モーションコントローラであるMotionCtrlを提案する。
論文 参考訳(メタデータ) (2023-12-06T17:49:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。