論文の概要: MotionClone: Training-Free Motion Cloning for Controllable Video Generation
- arxiv url: http://arxiv.org/abs/2406.05338v6
- Date: Tue, 22 Oct 2024 04:22:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-23 14:25:02.917814
- Title: MotionClone: Training-Free Motion Cloning for Controllable Video Generation
- Title(参考訳): MotionClone: 制御可能なビデオ生成のためのトレーニング不要モーションクローン
- Authors: Pengyang Ling, Jiazi Bu, Pan Zhang, Xiaoyi Dong, Yuhang Zang, Tong Wu, Huaian Chen, Jiaqi Wang, Yi Jin,
- Abstract要約: MotionCloneは、参照ビデオから多目的なモーションコントロールビデオ生成までのモーションクローンを可能にする、トレーニング不要のフレームワークである。
MotionCloneは、大域的なカメラの動きと局所的な物体の動きの両方の習熟度を示し、動きの忠実さ、テキストアライメント、時間的一貫性の点で顕著に優れている。
- 参考スコア(独自算出の注目度): 41.621147782128396
- License:
- Abstract: Motion-based controllable video generation offers the potential for creating captivating visual content. Existing methods typically necessitate model training to encode particular motion cues or incorporate fine-tuning to inject certain motion patterns, resulting in limited flexibility and generalization. In this work, we propose MotionClone, a training-free framework that enables motion cloning from reference videos to versatile motion-controlled video generation, including text-to-video and image-to-video. Based on the observation that the dominant components in temporal-attention maps drive motion synthesis, while the rest mainly capture noisy or very subtle motions, MotionClone utilizes sparse temporal attention weights as motion representations for motion guidance, facilitating diverse motion transfer across varying scenarios. Meanwhile, MotionClone allows for the direct extraction of motion representation through a single denoising step, bypassing the cumbersome inversion processes and thus promoting both efficiency and flexibility. Extensive experiments demonstrate that MotionClone exhibits proficiency in both global camera motion and local object motion, with notable superiority in terms of motion fidelity, textual alignment, and temporal consistency.
- Abstract(参考訳): モーションベースの制御可能なビデオ生成は、魅惑的な視覚コンテンツを作成する可能性を秘めている。
既存の手法では、特定の動きキューを符号化するモデルトレーニングや、特定の動きパターンを注入するために微調整を組み込む必要があるため、柔軟性と一般化が制限される。
本研究では,テキスト・トゥ・ビデオやイメージ・トゥ・ビデオなど,参照ビデオから多目的なモーション制御ビデオ生成まで,モーション・クローンを可能にするトレーニングフリーのフレームワークであるMotionCloneを提案する。
時間的アテンションマップの主成分が運動合成を駆動するのに対し、残りの成分は主にノイズや非常に微妙な動きを捉えているという観察に基づいて、MotionCloneは運動誘導のための運動表現としてスパース時間的アテンションウェイトを利用する。
一方、MotionCloneは1つのデノナイジングステップを通じて、動きの直接抽出を可能にし、面倒な反転プロセスを回避し、効率と柔軟性の両方を促進する。
大規模な実験により、MotionCloneは、大域的なカメラの動きと局所的な物体の動きの両方に熟練度を示し、動きの忠実さ、テキストアライメント、時間的一貫性の点で顕著に優れていることが示されている。
関連論文リスト
- MotionMaster: Training-free Camera Motion Transfer For Video Generation [48.706578330771386]
本稿では,映像中のカメラの動きと物体の動きをアンハングリングする,トレーニング不要な動画移動モデルを提案する。
我々のモデルは、効果的にカメラオブジェクトの動きを分離し、分離されたカメラの動きを広範囲の制御可能なビデオ生成タスクに適用することができる。
論文 参考訳(メタデータ) (2024-04-24T10:28:54Z) - Motion Inversion for Video Customization [31.607669029754874]
本稿では,映像モデルにおける動き表現の探索における広範なギャップに対処する,動き生成のための新しいアプローチを提案する。
本研究では,ビデオから抽出した時間的コヒーレントな埋め込みの集合であるMotion Embeddingsを紹介する。
我々の貢献には、カスタマイズタスクのための調整されたモーション埋め込みと、本手法の実用的メリットと有効性を示すことが含まれる。
論文 参考訳(メタデータ) (2024-03-29T14:14:22Z) - Spectral Motion Alignment for Video Motion Transfer using Diffusion Models [54.32923808964701]
スペクトル運動アライメント(英: Spectral Motion Alignment、SMA)は、フーリエ変換とウェーブレット変換を用いて運動ベクトルを洗練・整列するフレームワークである。
SMAは周波数領域の正規化を取り入れて動きパターンを学習し、全体フレームのグローバルな動きのダイナミクスの学習を容易にする。
大規模な実験は、様々なビデオカスタマイズフレームワーク間の計算効率と互換性を維持しながら、モーション転送を改善するSMAの有効性を示す。
論文 参考訳(メタデータ) (2024-03-22T14:47:18Z) - MotionCrafter: One-Shot Motion Customization of Diffusion Models [66.44642854791807]
ワンショットのインスタンス誘導モーションカスタマイズ手法であるMotionCrafterを紹介する。
MotionCrafterは、基準運動をベースモデルの時間成分に注入する並列時空間アーキテクチャを採用している。
トレーニング中、凍結ベースモデルは外見の正規化を提供し、運動から効果的に外見を分離する。
論文 参考訳(メタデータ) (2023-12-08T16:31:04Z) - MotionCtrl: A Unified and Flexible Motion Controller for Video Generation [77.09621778348733]
ビデオ中の動きは、主にカメラの動きによって誘導されるカメラの動きと、物体の動きによって生じる物体の動きから成り立っている。
本稿では,カメラと物体の動きを効果的かつ独立に制御するビデオ生成用統合モーションコントローラであるMotionCtrlを提案する。
論文 参考訳(メタデータ) (2023-12-06T17:49:57Z) - MotionZero:Exploiting Motion Priors for Zero-shot Text-to-Video
Generation [131.1446077627191]
ゼロショットのテキスト・トゥ・ビデオ合成は、ビデオなしでプロンプトに基づいてビデオを生成する。
本研究では,MotionZeroと命名されたプロンプト適応型・アンタングル型モーションコントロール戦略を提案する。
我々の戦略は、異なるオブジェクトの動きを正しく制御し、ゼロショットビデオ編集を含む多目的アプリケーションをサポートする。
論文 参考訳(メタデータ) (2023-11-28T09:38:45Z) - Learning Variational Motion Prior for Video-based Motion Capture [31.79649766268877]
ビデオに基づくモーションキャプチャーのための新しい変分動作先行学習手法(VMP)を提案する。
我々のフレームワークはフレームワイドポーズ推定における時間的ジッタリングと障害モードを効果的に削減できる。
公開データセットとインザワイルドビデオの両方を用いた実験により、我々のフレームワークの有効性と一般化能力が実証された。
論文 参考訳(メタデータ) (2022-10-27T02:45:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。