論文の概要: Follow-Your-Motion: Video Motion Transfer via Efficient Spatial-Temporal Decoupled Finetuning
- arxiv url: http://arxiv.org/abs/2506.05207v1
- Date: Thu, 05 Jun 2025 16:18:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.817404
- Title: Follow-Your-Motion: Video Motion Transfer via Efficient Spatial-Temporal Decoupled Finetuning
- Title(参考訳): Follow-Your-Motion: 空間的・時間的疎結合ファインタニングによる映像の移動
- Authors: Yue Ma, Yulong Liu, Qiyuan Zhu, Ayden Yang, Kunyu Feng, Xinhua Zhang, Zhifeng Li, Sirui Han, Chenyang Qi, Qifeng Chen,
- Abstract要約: Follow-Your-Motionは、複雑な動きを合成するために強力なビデオ拡散トランスフォーマーを微調整する、効率的な2段階ビデオモーション転送フレームワークである。
我々は,Follow-Your-Motionの優位性を検証するため,MotionBenchについて広範囲に評価を行った。
- 参考スコア(独自算出の注目度): 50.4776422843776
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, breakthroughs in the video diffusion transformer have shown remarkable capabilities in diverse motion generations. As for the motion-transfer task, current methods mainly use two-stage Low-Rank Adaptations (LoRAs) finetuning to obtain better performance. However, existing adaptation-based motion transfer still suffers from motion inconsistency and tuning inefficiency when applied to large video diffusion transformers. Naive two-stage LoRA tuning struggles to maintain motion consistency between generated and input videos due to the inherent spatial-temporal coupling in the 3D attention operator. Additionally, they require time-consuming fine-tuning processes in both stages. To tackle these issues, we propose Follow-Your-Motion, an efficient two-stage video motion transfer framework that finetunes a powerful video diffusion transformer to synthesize complex motion.Specifically, we propose a spatial-temporal decoupled LoRA to decouple the attention architecture for spatial appearance and temporal motion processing. During the second training stage, we design the sparse motion sampling and adaptive RoPE to accelerate the tuning speed. To address the lack of a benchmark for this field, we introduce MotionBench, a comprehensive benchmark comprising diverse motion, including creative camera motion, single object motion, multiple object motion, and complex human motion. We show extensive evaluations on MotionBench to verify the superiority of Follow-Your-Motion.
- Abstract(参考訳): 近年,映像拡散変圧器のブレークスルーは,様々な動作世代において顕著な能力を示している。
モーショントランスファータスクでは、現在の手法は主に2段階のローランド適応(LoRA)ファインタニングを使用してパフォーマンスを向上させる。
しかし,既存の適応型モーショントランスは,大容量ビデオ拡散変換器に適用した場合の動作不整合やチューニング不整合に悩まされている。
2段階のLoRAチューニングは、3Dアテンション演算子に固有の空間的時間的結合のため、生成ビデオと入力ビデオ間の動きの整合性を維持するのに苦労する。
さらに、どちらの段階でも微調整プロセスに時間を要する。
これらの課題に対処するため、我々は、複雑な動きを合成するために強力なビデオ拡散変換器を微調整する効率的な2段階動画移動フレームワークであるFollow-Your-Motionを提案する。
第2のトレーニング段階では、調整速度を高速化するためにスパース動作サンプリングと適応RoPEを設計する。
この分野でのベンチマークの欠如に対処するため、創造的なカメラモーション、単一物体モーション、複数物体モーション、複雑な人間のモーションを含む多様な動きからなる総合的なベンチマークであるMotionBenchを紹介した。
我々は,Follow-Your-Motionの優位性を検証するため,MotionBenchについて広範囲に評価を行った。
関連論文リスト
- EfficientMT: Efficient Temporal Adaptation for Motion Transfer in Text-to-Video Diffusion Models [73.96414072072048]
既存の動き伝達法は、ガイド生成のための参照ビデオの動作表現を探索した。
本稿では,ビデオモーション転送のための新しい,効率的なエンドツーエンドフレームワークであるEfficientMTを提案する。
我々の実験は, フレキシブルな動作制御性を維持しつつ, 既存の手法よりも効率が良いことを示した。
論文 参考訳(メタデータ) (2025-03-25T05:51:14Z) - Decouple and Track: Benchmarking and Improving Video Diffusion Transformers for Motion Transfer [41.26164688712492]
Diffusion Transformer (DiT) モデルは3Dフルアテンションを使用し、時間的・空間的な情報を明示的に分離しない。
提案手法では, 時間次元に沿って円滑なDiT機能を実現するために, 単純で効果的な時間的カーネルを導入する。
また,動作の整合性を高めるために,潜在特徴空間における高密度軌跡に沿った明示的な監督も導入する。
論文 参考訳(メタデータ) (2025-03-21T17:52:05Z) - MotionClone: Training-Free Motion Cloning for Controllable Video Generation [41.621147782128396]
MotionCloneは、参照ビデオから多目的なモーションコントロールビデオ生成までのモーションクローンを可能にする、トレーニング不要のフレームワークである。
MotionCloneは、大域的なカメラの動きと局所的な物体の動きの両方の習熟度を示し、動きの忠実さ、テキストアライメント、時間的一貫性の点で顕著に優れている。
論文 参考訳(メタデータ) (2024-06-08T03:44:25Z) - Spectral Motion Alignment for Video Motion Transfer using Diffusion Models [54.32923808964701]
スペクトル運動アライメント(英: Spectral Motion Alignment、SMA)は、フーリエ変換とウェーブレット変換を用いて運動ベクトルを洗練・整列するフレームワークである。
SMAは周波数領域の正規化を取り入れて動きパターンを学習し、全体フレームのグローバルな動きのダイナミクスの学習を容易にする。
大規模な実験は、様々なビデオカスタマイズフレームワーク間の計算効率と互換性を維持しながら、モーション転送を改善するSMAの有効性を示す。
論文 参考訳(メタデータ) (2024-03-22T14:47:18Z) - MotionRNN: A Flexible Model for Video Prediction with Spacetime-Varying
Motions [70.30211294212603]
本稿では,空間と時間の両方に連続する時空変動を予測できる新たな次元からビデオ予測を行う。
本研究では,動きの複雑な変動を捉え,時空変化に適応できるMotionRNNフレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-03T08:11:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。