論文の概要: Follow-Your-Motion: Video Motion Transfer via Efficient Spatial-Temporal Decoupled Finetuning
- arxiv url: http://arxiv.org/abs/2506.05207v2
- Date: Wed, 13 Aug 2025 16:07:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 16:17:42.573062
- Title: Follow-Your-Motion: Video Motion Transfer via Efficient Spatial-Temporal Decoupled Finetuning
- Title(参考訳): Follow-Your-Motion: 空間的・時間的疎結合ファインタニングによる映像の移動
- Authors: Yue Ma, Yulong Liu, Qiyuan Zhu, Ayden Yang, Kunyu Feng, Xinhua Zhang, Zhifeng Li, Sirui Han, Chenyang Qi, Qifeng Chen,
- Abstract要約: Follow-Your-Motionは、効率的な2段階ビデオモーション転送フレームワークである。
本稿では,空間的外観と時間的動き処理のための注意構造を分離する空間的時間的疎結合LoRAを提案する。
第2のトレーニング段階では、調整速度を高速化するためにスパース動作サンプリングと適応RoPEを設計する。
- 参考スコア(独自算出の注目度): 50.4776422843776
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, breakthroughs in the video diffusion transformer have shown remarkable capabilities in diverse motion generations. As for the motion-transfer task, current methods mainly use two-stage Low-Rank Adaptations (LoRAs) finetuning to obtain better performance. However, existing adaptation-based motion transfer still suffers from motion inconsistency and tuning inefficiency when applied to large video diffusion transformers. Naive two-stage LoRA tuning struggles to maintain motion consistency between generated and input videos due to the inherent spatial-temporal coupling in the 3D attention operator. Additionally, they require time-consuming fine-tuning processes in both stages. To tackle these issues, we propose Follow-Your-Motion, an efficient two-stage video motion transfer framework that finetunes a powerful video diffusion transformer to synthesize complex motion. Specifically, we propose a spatial-temporal decoupled LoRA to decouple the attention architecture for spatial appearance and temporal motion processing. During the second training stage, we design the sparse motion sampling and adaptive RoPE to accelerate the tuning speed. To address the lack of a benchmark for this field, we introduce MotionBench, a comprehensive benchmark comprising diverse motion, including creative camera motion, single object motion, multiple object motion, and complex human motion. We show extensive evaluations on MotionBench to verify the superiority of Follow-Your-Motion.
- Abstract(参考訳): 近年,映像拡散変圧器のブレークスルーは,様々な動作世代において顕著な能力を示している。
モーショントランスファータスクでは、現在の手法は主に2段階のローランド適応(LoRA)ファインタニングを使用してパフォーマンスを向上させる。
しかし,既存の適応型モーショントランスは,大容量ビデオ拡散変換器に適用した場合の動作不整合やチューニング不整合に悩まされている。
2段階のLoRAチューニングは、3Dアテンション演算子に固有の空間的時間的結合のため、生成ビデオと入力ビデオ間の動きの整合性を維持するのに苦労する。
さらに、どちらの段階でも微調整プロセスに時間を要する。
これらの課題に対処するために,複雑な動きを合成するための強力なビデオ拡散トランスフォーマを微調整する,効率的な2段階動画移動フレームワークであるFollow-Your-Motionを提案する。
具体的には、空間的外観と時間的動き処理のための注意構造を分離する空間的時間的疎結合LoRAを提案する。
第2のトレーニング段階では、調整速度を高速化するためにスパース動作サンプリングと適応RoPEを設計する。
この分野でのベンチマークの欠如に対処するため、創造的なカメラモーション、単一物体モーション、複数物体モーション、複雑な人間のモーションを含む多様な動きからなる総合的なベンチマークであるMotionBenchを紹介した。
我々は,Follow-Your-Motionの優位性を検証するため,MotionBenchについて広範囲に評価を行った。
関連論文リスト
- M2DAO-Talker: Harmonizing Multi-granular Motion Decoupling and Alternating Optimization for Talking-head Generation [65.08520614570288]
我々は,音声音声生成をビデオ前処理,モーション表現,レンダリング再構成を含む統一的なフレームワークに再構成する。
M2DAO-Talkerは2.43dBのPSNRの改善とユーザ評価ビデオの画質0.64アップで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-07-11T04:48:12Z) - MotionPro: A Precise Motion Controller for Image-to-Video Generation [108.63100943070592]
我々は、画像間(I2V)生成のための正確なモーションコントローラであるMotionProを提案する。
局所軌道と運動マスクは、微細な運動合成を制御するために用いられる。
WebVid-10MとMC-Benchで行った実験は、MotionProの有効性を実証している。
論文 参考訳(メタデータ) (2025-05-26T17:59:03Z) - EfficientMT: Efficient Temporal Adaptation for Motion Transfer in Text-to-Video Diffusion Models [73.96414072072048]
既存の動き伝達法は、ガイド生成のための参照ビデオの動作表現を探索した。
本稿では,ビデオモーション転送のための新しい,効率的なエンドツーエンドフレームワークであるEfficientMTを提案する。
我々の実験は, フレキシブルな動作制御性を維持しつつ, 既存の手法よりも効率が良いことを示した。
論文 参考訳(メタデータ) (2025-03-25T05:51:14Z) - MotionDiff: Training-free Zero-shot Interactive Motion Editing via Flow-assisted Multi-view Diffusion [20.142107033583027]
MotionDiffは、複雑な多視点モーション編集に光フローを利用する、トレーニング不要なゼロショット拡散法である。
これは、高品質な多視点一貫した運動結果を達成するために、他の物理学ベースの生成運動編集法よりも優れている。
MotionDiffは再トレーニングを必要としないので、ユーザは様々なダウンストリームタスクに便利に適応できる。
論文 参考訳(メタデータ) (2025-03-22T08:32:56Z) - Decouple and Track: Benchmarking and Improving Video Diffusion Transformers for Motion Transfer [41.26164688712492]
Diffusion Transformer (DiT) モデルは3Dフルアテンションを使用し、時間的・空間的な情報を明示的に分離しない。
提案手法では, 時間次元に沿って円滑なDiT機能を実現するために, 単純で効果的な時間的カーネルを導入する。
また,動作の整合性を高めるために,潜在特徴空間における高密度軌跡に沿った明示的な監督も導入する。
論文 参考訳(メタデータ) (2025-03-21T17:52:05Z) - MotionClone: Training-Free Motion Cloning for Controllable Video Generation [41.621147782128396]
MotionCloneは、参照ビデオから多目的なモーションコントロールビデオ生成までのモーションクローンを可能にする、トレーニング不要のフレームワークである。
MotionCloneは、大域的なカメラの動きと局所的な物体の動きの両方の習熟度を示し、動きの忠実さ、テキストアライメント、時間的一貫性の点で顕著に優れている。
論文 参考訳(メタデータ) (2024-06-08T03:44:25Z) - Spectral Motion Alignment for Video Motion Transfer using Diffusion Models [54.32923808964701]
スペクトル運動アライメント(英: Spectral Motion Alignment、SMA)は、フーリエ変換とウェーブレット変換を用いて運動ベクトルを洗練・整列するフレームワークである。
SMAは周波数領域の正規化を取り入れて動きパターンを学習し、全体フレームのグローバルな動きのダイナミクスの学習を容易にする。
大規模な実験は、様々なビデオカスタマイズフレームワーク間の計算効率と互換性を維持しながら、モーション転送を改善するSMAの有効性を示す。
論文 参考訳(メタデータ) (2024-03-22T14:47:18Z) - MotionRNN: A Flexible Model for Video Prediction with Spacetime-Varying
Motions [70.30211294212603]
本稿では,空間と時間の両方に連続する時空変動を予測できる新たな次元からビデオ予測を行う。
本研究では,動きの複雑な変動を捉え,時空変化に適応できるMotionRNNフレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-03T08:11:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。