Fugu-MT 論文翻訳(概要): MotionMaster: Training-free Camera Motion Transfer For Video Generation

論文の概要: MotionMaster: Training-free Camera Motion Transfer For Video Generation

arxiv url: http://arxiv.org/abs/2404.15789v1
Date: Wed, 24 Apr 2024 10:28:54 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-26 19:30:27.564067
Title: MotionMaster: Training-free Camera Motion Transfer For Video Generation
Title（参考訳）: MotionMaster:ビデオ生成のためのトレーニング不要カメラモーション転送
Authors: Teng Hu, Jiangning Zhang, Ran Yi, Yating Wang, Hongrui Huang, Jieyu Weng, Yabiao Wang, Lizhuang Ma,
Abstract要約: 本稿では,映像中のカメラの動きと物体の動きをアンハングリングする,トレーニング不要な動画移動モデルを提案する。我々のモデルは、効果的にカメラオブジェクトの動きを分離し、分離されたカメラの動きを広範囲の制御可能なビデオ生成タスクに適用することができる。
参考スコア（独自算出の注目度）: 48.706578330771386
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The emergence of diffusion models has greatly propelled the progress in image and video generation. Recently, some efforts have been made in controllable video generation, including text-to-video generation and video motion control, among which camera motion control is an important topic. However, existing camera motion control methods rely on training a temporal camera module, and necessitate substantial computation resources due to the large amount of parameters in video generation models. Moreover, existing methods pre-define camera motion types during training, which limits their flexibility in camera control. Therefore, to reduce training costs and achieve flexible camera control, we propose COMD, a novel training-free video motion transfer model, which disentangles camera motions and object motions in source videos and transfers the extracted camera motions to new videos. We first propose a one-shot camera motion disentanglement method to extract camera motion from a single source video, which separates the moving objects from the background and estimates the camera motion in the moving objects region based on the motion in the background by solving a Poisson equation. Furthermore, we propose a few-shot camera motion disentanglement method to extract the common camera motion from multiple videos with similar camera motions, which employs a window-based clustering technique to extract the common features in temporal attention maps of multiple videos. Finally, we propose a motion combination method to combine different types of camera motions together, enabling our model a more controllable and flexible camera control. Extensive experiments demonstrate that our training-free approach can effectively decouple camera-object motion and apply the decoupled camera motion to a wide range of controllable video generation tasks, achieving flexible and diverse camera motion control.
Abstract（参考訳）: 拡散モデルの出現は、画像およびビデオ生成の進歩を大いに促進した。近年,テキスト・トゥ・ビデオ・ジェネレーションやビデオ・モーション・コントロールなど,カメラ・モーション・コントロールが重要な話題となっているコントロール可能なビデオ・ジェネレーションへの取り組みが進められている。しかし、既存のカメラモーションコントロール手法は、時間カメラモジュールのトレーニングに頼っており、ビデオ生成モデルにおける大量のパラメータのため、かなりの計算資源を必要とする。さらに、トレーニング中にカメラのモーションタイプを事前に定義する既存の手法では、カメラ制御の柔軟性が制限されている。そこで,トレーニングコストを低減し,フレキシブルなカメラ制御を実現するために,ソースビデオ中のカメラの動きとオブジェクトの動きをアンハングリングし,抽出したカメラの動きを新しいビデオに転送する,新しいトレーニングフリー動画移動モデルであるCOMDを提案する。まず,背景から移動物体を分離し,ポアソン方程式を解くことにより,背景の動きに基づいて移動物体領域におけるカメラの動きを推定する。さらに,複数のビデオの時間的注目マップに共通する特徴を抽出するために,ウィンドウベースのクラスタリング手法を用いて,類似のカメラモーションを用いた複数のビデオから共通カメラモーションを抽出する,数発のカメラモーション・アンタングル法を提案する。最後に、異なる種類のカメラの動きを組み合わせ、より制御しやすくフレキシブルなカメラ制御を可能にするモーション組み合わせ法を提案する。広汎な実験により、我々のトレーニング不要なアプローチは、カメラオブジェクトの動きを効果的に分離し、分離されたカメラモーションを幅広い制御可能なビデオ生成タスクに適用し、フレキシブルで多様なカメラモーション制御を実現することができることを示した。

関連論文リスト

MotionFlow:Learning Implicit Motion Flow for Complex Camera Trajectory Control in Video Generation [30.528654507198052]
本稿では,カメラとオブジェクトの動作を,対応する画素の運動に変換することによって統合する新しいアプローチを提案する。我々のモデルはSOTA法よりも大きなマージンで優れている。
論文参考訳（メタデータ） (2025-09-25T13:06:12Z)
ATI: Any Trajectory Instruction for Controllable Video Generation [25.249489701215467]
本稿では、カメラの動き、オブジェクトレベルの翻訳、きめ細かい局所的な動きをシームレスに統合する、動画生成におけるモーション制御のための統一的なフレームワークを提案する。提案手法は,事前学習した画像-映像生成モデルの潜在空間にユーザ定義トラジェクトリを投影することにより,凝集性のある解を提供する。
論文参考訳（メタデータ） (2025-05-28T23:49:18Z)
TokenMotion: Decoupled Motion Control via Token Disentanglement for Human-centric Video Generation [7.900728371180723]
TokenMotionは、カメラモーションのきめ細かい制御を可能にする、最初のDiTベースのビデオ拡散フレームワークである。本稿では,人間を意識した動的マスクをブリッジした分離・融合戦略を用いた統一モデリングフレームワークを提案する。私たちの研究は、コントロール可能なビデオ生成の大幅な進歩を表しており、特にクリエイティブなプロダクションアプリケーションに関係しています。
論文参考訳（メタデータ） (2025-04-11T00:41:25Z)
MotionAgent: Fine-grained Controllable Video Generation via Motion Field Agent [58.09607975296408]
テキスト誘導画像-映像生成のための微粒なモーション制御を実現するMotionAgentを提案する。キーとなる技術は、テキストプロンプトの動作情報を明示的な運動場に変換するモーション・フィールド・エージェントである。我々はVBenchのサブセットを構築し、テキストと生成されたビデオの動作情報のアライメントを評価する。
論文参考訳（メタデータ） (2025-02-05T14:26:07Z)
Free-Form Motion Control: A Synthetic Video Generation Dataset with Controllable Camera and Object Motions [78.65431951506152]
自由形運動制御のための合成データセット(SynFMC)を提案する。提案したSynFMCデータセットは、さまざまなオブジェクトと環境を含み、特定のルールに従ってさまざまな動きパターンをカバーしている。さらに,物体とカメラの動きの独立的あるいは同時制御を可能にするFMC(Free-Form Motion Control)を提案する。
論文参考訳（メタデータ） (2025-01-02T18:59:45Z)
Cavia: Camera-controllable Multi-view Video Diffusion with View-Integrated Attention [62.2447324481159]
Caviaはカメラ制御可能なマルチビュービデオ生成のための新しいフレームワークである。我々のフレームワークは、空間的および時間的注意モジュールを拡張し、視点と時間的一貫性を改善します。 Caviaは、ユーザーが物体の動きを取得しながら、異なるカメラの動きを特定できる最初の製品だ。
論文参考訳（メタデータ） (2024-10-14T17:46:32Z)
VD3D: Taming Large Video Diffusion Transformers for 3D Camera Control [74.5434726968562]
Plucker座標に基づく制御ネットライクなコンディショニング機構を用いた3次元カメラ制御のためのトランスフォーマー映像を試作する。我々の研究は、トランスフォーマーに基づくビデオ拡散モデルのカメラ制御を可能にする最初のものである。
論文参考訳（メタデータ） (2024-07-17T17:59:05Z)
MotionBooth: Motion-Aware Customized Text-to-Video Generation [44.41894050494623]
MotionBoothは、オブジェクトとカメラの両方の動きを正確に制御して、カスタマイズされた被験者をアニメーションするためのフレームワークである。オブジェクトの形状や属性を正確に把握するために,テキスト・ビデオ・モデルを効率的に微調整する。提案手法は,被験者の学習能力を高めるために,被写体領域の損失とビデオ保存損失を示す。
論文参考訳（メタデータ） (2024-06-25T17:42:25Z)
Image Conductor: Precision Control for Interactive Video Synthesis [90.2353794019393]
映画製作とアニメーション制作は、しばしばカメラの遷移と物体の動きを調整するための洗練された技術を必要とする。イメージコンダクタ(Image Conductor)は、カメラトランジションとオブジェクトの動きを正確に制御し、単一の画像からビデオアセットを生成する方法である。
論文参考訳（メタデータ） (2024-06-21T17:55:05Z)
Training-free Camera Control for Video Generation [19.526135830699882]
本稿では,市販ビデオ拡散モデルに対して,カメラの動き制御を実現するためのトレーニングフリーで堅牢なソリューションを提案する。本手法では,カメラ注釈付きデータセットの教師付き微調整やデータ拡張による自己教師型トレーニングは不要である。
論文参考訳（メタデータ） (2024-06-14T15:33:00Z)
Collaborative Video Diffusion: Consistent Multi-video Generation with Camera Control [70.17137528953953]
コラボレーション型ビデオ拡散(CVD)は、ビデオ生成のための最先端のカメラ制御モジュール上で訓練される。 CVDは、異なるカメラ軌跡からレンダリングされた複数のビデオを、ベースラインよりもはるかに優れた一貫性で生成する。
論文参考訳（メタデータ） (2024-05-27T17:58:01Z)
CameraCtrl: Enabling Camera Control for Text-to-Video Generation [86.36135895375425]
ユーザーがコンテンツをより正確に作成し、編集できるようにするため、制御性はビデオ生成において重要な役割を果たす。しかし、既存のモデルは、より深い物語のニュアンスを表現するための映画言語として機能するカメラポーズの制御を欠いている。我々は、ビデオ拡散モデルの正確なカメラポーズ制御を可能にするCameraCtrlを紹介する。
論文参考訳（メタデータ） (2024-04-02T16:52:41Z)
Direct-a-Video: Customized Video Generation with User-Directed Camera Movement and Object Motion [34.404342332033636]
我々は、カメラのパンやズームの動きだけでなく、複数のオブジェクトのモーションを独立して指定できるシステムであるDirect-a-Videoを紹介した。カメラの動きの定量的なパラメータを解釈するために,新しい時間的クロスアテンション層を導入する。どちらのコンポーネントも独立して動作し、個別または複合的な制御を可能にし、オープンドメインシナリオに一般化することができる。
論文参考訳（メタデータ） (2024-02-05T16:30:57Z)
MotionCtrl: A Unified and Flexible Motion Controller for Video Generation [77.09621778348733]
ビデオ中の動きは、主にカメラの動きによって誘導されるカメラの動きと、物体の動きによって生じる物体の動きから成り立っている。本稿では,カメラと物体の動きを効果的かつ独立に制御するビデオ生成用統合モーションコントローラであるMotionCtrlを提案する。
論文参考訳（メタデータ） (2023-12-06T17:49:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。