論文の概要: EfficientMT: Efficient Temporal Adaptation for Motion Transfer in Text-to-Video Diffusion Models
- arxiv url: http://arxiv.org/abs/2503.19369v2
- Date: Wed, 26 Mar 2025 03:32:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-27 09:39:20.177820
- Title: EfficientMT: Efficient Temporal Adaptation for Motion Transfer in Text-to-Video Diffusion Models
- Title(参考訳): EfficientMT:テキスト・ビデオ拡散モデルにおける動き伝達のための効率的な時間適応
- Authors: Yufei Cai, Hu Han, Yuxiang Wei, Shiguang Shan, Xilin Chen,
- Abstract要約: 既存の動き伝達法は、ガイド生成のための参照ビデオの動作表現を探索した。
本稿では,ビデオモーション転送のための新しい,効率的なエンドツーエンドフレームワークであるEfficientMTを提案する。
我々の実験は, フレキシブルな動作制御性を維持しつつ, 既存の手法よりも効率が良いことを示した。
- 参考スコア(独自算出の注目度): 73.96414072072048
- License:
- Abstract: The progress on generative models has led to significant advances on text-to-video (T2V) generation, yet the motion controllability of generated videos remains limited. Existing motion transfer methods explored the motion representations of reference videos to guide generation. Nevertheless, these methods typically rely on sample-specific optimization strategy, resulting in high computational burdens. In this paper, we propose EfficientMT, a novel and efficient end-to-end framework for video motion transfer. By leveraging a small set of synthetic paired motion transfer samples, EfficientMT effectively adapts a pretrained T2V model into a general motion transfer framework that can accurately capture and reproduce diverse motion patterns. Specifically, we repurpose the backbone of the T2V model to extract temporal information from reference videos, and further propose a scaler module to distill motion-related information. Subsequently, we introduce a temporal integration mechanism that seamlessly incorporates reference motion features into the video generation process. After training on our self-collected synthetic paired samples, EfficientMT enables general video motion transfer without requiring test-time optimization. Extensive experiments demonstrate that our EfficientMT outperforms existing methods in efficiency while maintaining flexible motion controllability. Our code will be available https://github.com/PrototypeNx/EfficientMT.
- Abstract(参考訳): 生成モデルの進歩は、テキスト・ツー・ビデオ(T2V)生成に大きな進歩をもたらしたが、生成したビデオの動作制御性は依然として限られている。
既存の動き伝達法は、ガイド生成のための参照ビデオの動作表現を探索した。
しかしながら、これらの手法は典型的にはサンプル固有の最適化戦略に依存しており、計算負荷が高い。
本稿では,ビデオモーション転送のための新しい,効率的なエンドツーエンドフレームワークであるEfficientMTを提案する。
EfficientMTは、少数の合成対運動伝達サンプルを活用することで、事前訓練されたT2Vモデルを、多様な動きパターンを正確に捕捉し再現できる一般的な動き伝達フレームワークに効果的に適応させる。
具体的には、T2Vモデルのバックボーンを再利用して、参照ビデオから時間情報を抽出し、さらに、動作関連情報を蒸留するためのスケーラモジュールを提案する。
次に,ビデオ生成プロセスに参照動作特徴をシームレスに組み込む時間統合機構を導入する。
EfficientMTは, 自動合成ペアリングサンプルの訓練後, テスト時間最適化を必要とせず, 一般的な動画の移動を可能とした。
広汎な実験により、当社の効率的なMTは、フレキシブルモーション制御性を保ちながら、既存の手法よりも効率が良いことを示した。
私たちのコードはhttps://github.com/PrototypeNx/EfficientMTで利用可能です。
関連論文リスト
- MotionMatcher: Motion Customization of Text-to-Video Diffusion Models via Motion Feature Matching [27.28898943916193]
テキスト・ツー・ビデオ(T2V)拡散モデルは、入力されたテキスト・プロンプトからリアルな動画を合成する有望な能力を持つ。
本研究では,モーションガイダンスとして参照映像が提供される動作カスタマイズ問題に取り組む。
我々は,事前学習したT2V拡散モデルを特徴レベルで微調整するモーションカスタマイズフレームワークであるMotionMatcherを提案する。
論文 参考訳(メタデータ) (2025-02-18T19:12:51Z) - Video Motion Transfer with Diffusion Transformers [82.4796313201512]
本稿では,参照ビデオの動作を新たに合成したものに転送する方法であるDiTFlowを提案する。
まず、トレーニング済みのDiTを用いて参照ビデオを処理し、クロスフレームアテンションマップを分析し、パッチワイズ動作信号を抽出する。
我々は、位置埋め込みを変換し、ゼロショットモーション転送能力を向上する戦略を適用した。
論文 参考訳(メタデータ) (2024-12-10T18:59:58Z) - MotionFlow: Attention-Driven Motion Transfer in Video Diffusion Models [3.2311303453753033]
動画拡散モデルにおける動き伝達のための新しいフレームワークであるMotionFlowを紹介する。
本手法は,空間的・時間的ダイナミクスを正確に把握し,操作するために,クロスアテンションマップを利用する。
実験の結果,MotionFlowは劇的なシーン変化であっても,忠実度と汎用性の両方で既存モデルよりも優れていた。
論文 参考訳(メタデータ) (2024-12-06T18:59:12Z) - MoTrans: Customized Motion Transfer with Text-driven Video Diffusion Models [59.10171699717122]
MoTransは、新しいコンテキストにおける類似した動きのビデオ生成を可能にする、カスタマイズされたモーション転送方式である。
再カプセル化されたプロンプトとビデオフレームからのマルチモーダル表現は、外観のモデリングを促進する。
本手法は, 特定の動きパターンを, 単一の参照ビデオや複数参照ビデオから効果的に学習する。
論文 参考訳(メタデータ) (2024-12-02T10:07:59Z) - Generalizable Implicit Motion Modeling for Video Frame Interpolation [51.966062283735596]
フローベースビデオフレーム補間(VFI)における動きの重要性
本稿では,動きモデリングVFIの新規かつ効果的なアプローチである一般インプリシット・モーション・モデリング(IMM)を紹介する。
我々のGIMMは、正確にモデル化された動きを供給することによって、既存のフローベースVFIワークと容易に統合できる。
論文 参考訳(メタデータ) (2024-07-11T17:13:15Z) - Spectral Motion Alignment for Video Motion Transfer using Diffusion Models [54.32923808964701]
スペクトル運動アライメント(英: Spectral Motion Alignment、SMA)は、フーリエ変換とウェーブレット変換を用いて運動ベクトルを洗練・整列するフレームワークである。
SMAは周波数領域の正規化を取り入れて動きパターンを学習し、全体フレームのグローバルな動きのダイナミクスの学習を容易にする。
大規模な実験は、様々なビデオカスタマイズフレームワーク間の計算効率と互換性を維持しながら、モーション転送を改善するSMAの有効性を示す。
論文 参考訳(メタデータ) (2024-03-22T14:47:18Z) - Boost Video Frame Interpolation via Motion Adaptation [73.42573856943923]
ビデオフレーム(VFI)は、2つの連続するフレーム間の中間フレームを生成することを目的とした課題である。
既存の学習ベースのVFI手法は大きな成功を収めたが、それでも限定的な一般化能力に悩まされている。
テスト時に見えない動作に適応できる新しい最適化ベースのVFI法を提案する。
論文 参考訳(メタデータ) (2023-06-24T10:44:02Z) - Dual-MTGAN: Stochastic and Deterministic Motion Transfer for
Image-to-Video Synthesis [38.41763708731513]
本稿では,映像データと映像データを入力として取り込むDual Motion Transfer GAN(Dual-MTGAN)を提案する。
我々のDual-MTGANは、決定論的モーショントランスファーとモーションジェネレーションを行うことができる。
提案モデルは、ポーズや顔のランドマークのような事前定義された動作特徴を利用することなく、エンドツーエンドでトレーニングされる。
論文 参考訳(メタデータ) (2021-02-26T06:54:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。