論文の概要: MotionMaster: Training-free Camera Motion Transfer For Video Generation
- arxiv url: http://arxiv.org/abs/2404.15789v1
- Date: Wed, 24 Apr 2024 10:28:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-26 19:30:27.564067
- Title: MotionMaster: Training-free Camera Motion Transfer For Video Generation
- Title(参考訳): MotionMaster:ビデオ生成のためのトレーニング不要カメラモーション転送
- Authors: Teng Hu, Jiangning Zhang, Ran Yi, Yating Wang, Hongrui Huang, Jieyu Weng, Yabiao Wang, Lizhuang Ma,
- Abstract要約: 本稿では,映像中のカメラの動きと物体の動きをアンハングリングする,トレーニング不要な動画移動モデルを提案する。
我々のモデルは、効果的にカメラオブジェクトの動きを分離し、分離されたカメラの動きを広範囲の制御可能なビデオ生成タスクに適用することができる。
- 参考スコア(独自算出の注目度): 48.706578330771386
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The emergence of diffusion models has greatly propelled the progress in image and video generation. Recently, some efforts have been made in controllable video generation, including text-to-video generation and video motion control, among which camera motion control is an important topic. However, existing camera motion control methods rely on training a temporal camera module, and necessitate substantial computation resources due to the large amount of parameters in video generation models. Moreover, existing methods pre-define camera motion types during training, which limits their flexibility in camera control. Therefore, to reduce training costs and achieve flexible camera control, we propose COMD, a novel training-free video motion transfer model, which disentangles camera motions and object motions in source videos and transfers the extracted camera motions to new videos. We first propose a one-shot camera motion disentanglement method to extract camera motion from a single source video, which separates the moving objects from the background and estimates the camera motion in the moving objects region based on the motion in the background by solving a Poisson equation. Furthermore, we propose a few-shot camera motion disentanglement method to extract the common camera motion from multiple videos with similar camera motions, which employs a window-based clustering technique to extract the common features in temporal attention maps of multiple videos. Finally, we propose a motion combination method to combine different types of camera motions together, enabling our model a more controllable and flexible camera control. Extensive experiments demonstrate that our training-free approach can effectively decouple camera-object motion and apply the decoupled camera motion to a wide range of controllable video generation tasks, achieving flexible and diverse camera motion control.
- Abstract(参考訳): 拡散モデルの出現は、画像およびビデオ生成の進歩を大いに促進した。
近年,テキスト・トゥ・ビデオ・ジェネレーションやビデオ・モーション・コントロールなど,カメラ・モーション・コントロールが重要な話題となっているコントロール可能なビデオ・ジェネレーションへの取り組みが進められている。
しかし、既存のカメラモーションコントロール手法は、時間カメラモジュールのトレーニングに頼っており、ビデオ生成モデルにおける大量のパラメータのため、かなりの計算資源を必要とする。
さらに、トレーニング中にカメラのモーションタイプを事前に定義する既存の手法では、カメラ制御の柔軟性が制限されている。
そこで,トレーニングコストを低減し,フレキシブルなカメラ制御を実現するために,ソースビデオ中のカメラの動きとオブジェクトの動きをアンハングリングし,抽出したカメラの動きを新しいビデオに転送する,新しいトレーニングフリー動画移動モデルであるCOMDを提案する。
まず,背景から移動物体を分離し,ポアソン方程式を解くことにより,背景の動きに基づいて移動物体領域におけるカメラの動きを推定する。
さらに,複数のビデオの時間的注目マップに共通する特徴を抽出するために,ウィンドウベースのクラスタリング手法を用いて,類似のカメラモーションを用いた複数のビデオから共通カメラモーションを抽出する,数発のカメラモーション・アンタングル法を提案する。
最後に、異なる種類のカメラの動きを組み合わせ、より制御しやすくフレキシブルなカメラ制御を可能にするモーション組み合わせ法を提案する。
広汎な実験により、我々のトレーニング不要なアプローチは、カメラオブジェクトの動きを効果的に分離し、分離されたカメラモーションを幅広い制御可能なビデオ生成タスクに適用し、フレキシブルで多様なカメラモーション制御を実現することができることを示した。
関連論文リスト
- Direct-a-Video: Customized Video Generation with User-Directed Camera
Movement and Object Motion [35.88614444887786]
ユーザが1つまたは複数のオブジェクトやカメラの動きを独立して指定できるシステムであるDirect-a-Videoを紹介する。
カメラの動きの定量的なパラメータを解釈するために,新しい時間的クロスアテンション層を導入する。
どちらのコンポーネントも独立して動作し、個別または複合的な制御を可能にし、オープンドメインシナリオに一般化することができる。
論文 参考訳(メタデータ) (2024-02-05T16:30:57Z) - Motion-Zero: Zero-Shot Moving Object Control Framework for
Diffusion-Based Video Generation [10.951376101606357]
本研究では,ゼロショット移動物体軌道制御フレームワークであるMotion-Zeroを提案する。
本手法は、トレーニングプロセスなしで、様々な最先端ビデオ拡散モデルに柔軟に適用できる。
論文 参考訳(メタデータ) (2024-01-18T17:22:37Z) - MotionCrafter: One-Shot Motion Customization of Diffusion Models [66.44642854791807]
ワンショットのインスタンス誘導モーションカスタマイズ手法であるMotionCrafterを紹介する。
MotionCrafterは、基準運動をベースモデルの時間成分に注入する並列時空間アーキテクチャを採用している。
トレーニング中、凍結ベースモデルは外見の正規化を提供し、運動から効果的に外見を分離する。
論文 参考訳(メタデータ) (2023-12-08T16:31:04Z) - Customizing Motion in Text-to-Video Diffusion Models [79.4121510826141]
動作をカスタマイズしたテキスト・ビデオ・ジェネレーション・モデルを構築するためのアプローチを提案する。
入力として特定の動きを示すビデオサンプルを活用することで,入力動作パターンを多種多様なテキスト特定シナリオに対して学習し,一般化する。
論文 参考訳(メタデータ) (2023-12-07T18:59:03Z) - MotionCtrl: A Unified and Flexible Motion Controller for Video
Generation [77.09621778348733]
ビデオ中の動きは、主にカメラの動きによって誘導されるカメラの動きと、物体の動きによって生じる物体の動きから成り立っている。
本稿では,カメラと物体の動きを効果的かつ独立に制御するビデオ生成用統合モーションコントローラであるMotionCtrlを提案する。
論文 参考訳(メタデータ) (2023-12-06T17:49:57Z) - MotionZero:Exploiting Motion Priors for Zero-shot Text-to-Video
Generation [131.1446077627191]
ゼロショットのテキスト・トゥ・ビデオ合成は、ビデオなしでプロンプトに基づいてビデオを生成する。
本研究では,MotionZeroと命名されたプロンプト適応型・アンタングル型モーションコントロール戦略を提案する。
我々の戦略は、異なるオブジェクトの動きを正しく制御し、ゼロショットビデオ編集を含む多目的アプリケーションをサポートする。
論文 参考訳(メタデータ) (2023-11-28T09:38:45Z) - MotionDirector: Motion Customization of Text-to-Video Diffusion Models [24.282240656366714]
Motion Customizationは、既存のテキストとビデオの拡散モデルを適用して、カスタマイズされたモーションでビデオを生成することを目的としている。
我々は、外見と動きの学習を分離するために、デュアルパスのLoRAsアーキテクチャを持つMotionDirectorを提案する。
また,異なる動画の外観と動きの混合や,カスタマイズされたモーションによる単一画像のアニメーションなど,さまざまなダウンストリームアプリケーションもサポートしている。
論文 参考訳(メタデータ) (2023-10-12T16:26:18Z) - LaMD: Latent Motion Diffusion for Video Generation [69.4111397077229]
LaMDフレームワークは、モーション分解されたビデオオートエンコーダと拡散に基づくモーションジェネレータで構成される。
その結果、LaMDはダイナミックスから高度に制御可能な動きに至るまで、幅広い動きを持つ高品質なビデオを生成することがわかった。
論文 参考訳(メタデータ) (2023-04-23T10:32:32Z) - Learning Variational Motion Prior for Video-based Motion Capture [31.79649766268877]
ビデオに基づくモーションキャプチャーのための新しい変分動作先行学習手法(VMP)を提案する。
我々のフレームワークはフレームワイドポーズ推定における時間的ジッタリングと障害モードを効果的に削減できる。
公開データセットとインザワイルドビデオの両方を用いた実験により、我々のフレームワークの有効性と一般化能力が実証された。
論文 参考訳(メタデータ) (2022-10-27T02:45:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。