論文の概要: MotionClone: Training-Free Motion Cloning for Controllable Video Generation
- arxiv url: http://arxiv.org/abs/2406.05338v6
- Date: Tue, 22 Oct 2024 04:22:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-23 14:25:02.917814
- Title: MotionClone: Training-Free Motion Cloning for Controllable Video Generation
- Title(参考訳): MotionClone: 制御可能なビデオ生成のためのトレーニング不要モーションクローン
- Authors: Pengyang Ling, Jiazi Bu, Pan Zhang, Xiaoyi Dong, Yuhang Zang, Tong Wu, Huaian Chen, Jiaqi Wang, Yi Jin,
- Abstract要約: MotionCloneは、参照ビデオから多目的なモーションコントロールビデオ生成までのモーションクローンを可能にする、トレーニング不要のフレームワークである。
MotionCloneは、大域的なカメラの動きと局所的な物体の動きの両方の習熟度を示し、動きの忠実さ、テキストアライメント、時間的一貫性の点で顕著に優れている。
- 参考スコア(独自算出の注目度): 41.621147782128396
- License:
- Abstract: Motion-based controllable video generation offers the potential for creating captivating visual content. Existing methods typically necessitate model training to encode particular motion cues or incorporate fine-tuning to inject certain motion patterns, resulting in limited flexibility and generalization. In this work, we propose MotionClone, a training-free framework that enables motion cloning from reference videos to versatile motion-controlled video generation, including text-to-video and image-to-video. Based on the observation that the dominant components in temporal-attention maps drive motion synthesis, while the rest mainly capture noisy or very subtle motions, MotionClone utilizes sparse temporal attention weights as motion representations for motion guidance, facilitating diverse motion transfer across varying scenarios. Meanwhile, MotionClone allows for the direct extraction of motion representation through a single denoising step, bypassing the cumbersome inversion processes and thus promoting both efficiency and flexibility. Extensive experiments demonstrate that MotionClone exhibits proficiency in both global camera motion and local object motion, with notable superiority in terms of motion fidelity, textual alignment, and temporal consistency.
- Abstract(参考訳): モーションベースの制御可能なビデオ生成は、魅惑的な視覚コンテンツを作成する可能性を秘めている。
既存の手法では、特定の動きキューを符号化するモデルトレーニングや、特定の動きパターンを注入するために微調整を組み込む必要があるため、柔軟性と一般化が制限される。
本研究では,テキスト・トゥ・ビデオやイメージ・トゥ・ビデオなど,参照ビデオから多目的なモーション制御ビデオ生成まで,モーション・クローンを可能にするトレーニングフリーのフレームワークであるMotionCloneを提案する。
時間的アテンションマップの主成分が運動合成を駆動するのに対し、残りの成分は主にノイズや非常に微妙な動きを捉えているという観察に基づいて、MotionCloneは運動誘導のための運動表現としてスパース時間的アテンションウェイトを利用する。
一方、MotionCloneは1つのデノナイジングステップを通じて、動きの直接抽出を可能にし、面倒な反転プロセスを回避し、効率と柔軟性の両方を促進する。
大規模な実験により、MotionCloneは、大域的なカメラの動きと局所的な物体の動きの両方に熟練度を示し、動きの忠実さ、テキストアライメント、時間的一貫性の点で顕著に優れていることが示されている。
関連論文リスト
- Leader and Follower: Interactive Motion Generation under Trajectory Constraints [42.90788442575116]
本稿では,対話型モーションジェネレーションにおける動作範囲改善過程について検討する。
Pace ControllerとKinematic Synchronization Adapterを統合した、トレーニング不要のアプローチを提案する。
実験結果から,提案手法は軌道情報をよりよく活用することにより,既存の手法よりも現実性と精度が優れていることがわかった。
論文 参考訳(メタデータ) (2025-02-17T08:52:45Z) - Motion Prompting: Controlling Video Generation with Motion Trajectories [57.049252242807874]
スパースもしくは高密度なビデオ軌跡を条件とした映像生成モデルを訓練する。
ハイレベルなユーザリクエストを,詳細なセミセンスな動作プロンプトに変換する。
我々は、カメラや物体の動き制御、画像との「相互作用」、動画転送、画像編集など、様々な応用を通してアプローチを実証する。
論文 参考訳(メタデータ) (2024-12-03T18:59:56Z) - MoTrans: Customized Motion Transfer with Text-driven Video Diffusion Models [59.10171699717122]
MoTransは、新しいコンテキストにおける類似した動きのビデオ生成を可能にする、カスタマイズされたモーション転送方式である。
再カプセル化されたプロンプトとビデオフレームからのマルチモーダル表現は、外観のモデリングを促進する。
本手法は, 特定の動きパターンを, 単一の参照ビデオや複数参照ビデオから効果的に学習する。
論文 参考訳(メタデータ) (2024-12-02T10:07:59Z) - Spectral Motion Alignment for Video Motion Transfer using Diffusion Models [54.32923808964701]
スペクトル運動アライメント(英: Spectral Motion Alignment、SMA)は、フーリエ変換とウェーブレット変換を用いて運動ベクトルを洗練・整列するフレームワークである。
SMAは周波数領域の正規化を取り入れて動きパターンを学習し、全体フレームのグローバルな動きのダイナミクスの学習を容易にする。
大規模な実験は、様々なビデオカスタマイズフレームワーク間の計算効率と互換性を維持しながら、モーション転送を改善するSMAの有効性を示す。
論文 参考訳(メタデータ) (2024-03-22T14:47:18Z) - MotionCrafter: One-Shot Motion Customization of Diffusion Models [66.44642854791807]
ワンショットのインスタンス誘導モーションカスタマイズ手法であるMotionCrafterを紹介する。
MotionCrafterは、基準運動をベースモデルの時間成分に注入する並列時空間アーキテクチャを採用している。
トレーニング中、凍結ベースモデルは外見の正規化を提供し、運動から効果的に外見を分離する。
論文 参考訳(メタデータ) (2023-12-08T16:31:04Z) - MotionZero:Exploiting Motion Priors for Zero-shot Text-to-Video
Generation [131.1446077627191]
ゼロショットのテキスト・トゥ・ビデオ合成は、ビデオなしでプロンプトに基づいてビデオを生成する。
本研究では,MotionZeroと命名されたプロンプト適応型・アンタングル型モーションコントロール戦略を提案する。
我々の戦略は、異なるオブジェクトの動きを正しく制御し、ゼロショットビデオ編集を含む多目的アプリケーションをサポートする。
論文 参考訳(メタデータ) (2023-11-28T09:38:45Z) - Learning Variational Motion Prior for Video-based Motion Capture [31.79649766268877]
ビデオに基づくモーションキャプチャーのための新しい変分動作先行学習手法(VMP)を提案する。
我々のフレームワークはフレームワイドポーズ推定における時間的ジッタリングと障害モードを効果的に削減できる。
公開データセットとインザワイルドビデオの両方を用いた実験により、我々のフレームワークの有効性と一般化能力が実証された。
論文 参考訳(メタデータ) (2022-10-27T02:45:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。