論文の概要: MotionAdapter: Video Motion Transfer via Content-Aware Attention Customization
- arxiv url: http://arxiv.org/abs/2601.01955v1
- Date: Mon, 05 Jan 2026 10:01:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.954826
- Title: MotionAdapter: Video Motion Transfer via Content-Aware Attention Customization
- Title(参考訳): MotionAdapter:コンテンツ認識アテンションカスタマイズによる動画モーション転送
- Authors: Zhexin Zhang, Yifeng Zhu, Yangyang Xu, Long Chen, Yong Du, Shengfeng He, Jun Yu,
- Abstract要約: MotionAdapterは、ロバストでセマンティックに整合したモーション転送を可能にする、コンテンツ対応のモーション転送フレームワークである。
我々の重要な洞察は、効果的な動き伝達は外見から運動を明示的に切り離す必要があることである。
MotionAdapterは自然に複雑なモーション転送とズームのようなモーション編集タスクをサポートする。
- 参考スコア(独自算出の注目度): 73.07309070257162
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in diffusion-based text-to-video models, particularly those built on the diffusion transformer architecture, have achieved remarkable progress in generating high-quality and temporally coherent videos. However, transferring complex motions between videos remains challenging. In this work, we present MotionAdapter, a content-aware motion transfer framework that enables robust and semantically aligned motion transfer within DiT-based T2V models. Our key insight is that effective motion transfer requires \romannumeral1) explicit disentanglement of motion from appearance and \romannumeral 2) adaptive customization of motion to target content. MotionAdapter first isolates motion by analyzing cross-frame attention within 3D full-attention modules to extract attention-derived motion fields. To bridge the semantic gap between reference and target videos, we further introduce a DINO-guided motion customization module that rearranges and refines motion fields based on content correspondences. The customized motion field is then used to guide the DiT denoising process, ensuring that the synthesized video inherits the reference motion while preserving target appearance and semantics. Extensive experiments demonstrate that MotionAdapter outperforms state-of-the-art methods in both qualitative and quantitative evaluations. Moreover, MotionAdapter naturally supports complex motion transfer and motion editing tasks such as zooming.
- Abstract(参考訳): 拡散型テキスト・ビデオ・モデルの最近の進歩、特に拡散トランスフォーマー・アーキテクチャ上に構築されたものは、高品質で時間的に整合したビデオの生成において顕著な進歩を遂げている。
しかし、ビデオ間で複雑な動きを転送することは依然として困難である。
本研究では,コンテンツ認識型モーショントランスファーフレームワークであるMotionAdapterについて述べる。
我々の重要な洞察は、効果的な運動伝達には、外見とロマンメラルからの運動の明示的な絡み合いが必要であるということである。
2)ターゲットコンテンツに対する動きの適応的カスタマイズ。
MotionAdapterは、まず3次元フルアテンションモジュール内のクロスフレームアテンションを分析して、アテンション由来の運動場を抽出することによって、動きを分離する。
参照ビデオとターゲットビデオのセマンティックギャップを埋めるために、コンテンツ対応に基づいて動き場を並べ替え、洗練するDINO誘導モーションカスタマイズモジュールを導入する。
次に、カスタマイズされたモーションフィールドを使用して、DiT復調プロセスをガイドし、合成されたビデオが、ターゲットの外観と意味を保ちながら参照モーションを継承することを保証する。
広範囲な実験により、MotionAdapterは定性評価と定量的評価の両方において最先端の手法より優れていることが示された。
さらに、MotionAdapterは自然に複雑なモーション転送とズームのようなモーション編集タスクをサポートする。
関連論文リスト
- Follow-Your-Motion: Video Motion Transfer via Efficient Spatial-Temporal Decoupled Finetuning [50.4776422843776]
Follow-Your-Motionは、効率的な2段階ビデオモーション転送フレームワークである。
本稿では,空間的外観と時間的動き処理のための注意構造を分離する空間的時間的疎結合LoRAを提案する。
第2のトレーニング段階では、調整速度を高速化するためにスパース動作サンプリングと適応RoPEを設計する。
論文 参考訳(メタデータ) (2025-06-05T16:18:32Z) - MotionMatcher: Motion Customization of Text-to-Video Diffusion Models via Motion Feature Matching [27.28898943916193]
テキスト・ツー・ビデオ(T2V)拡散モデルは、入力されたテキスト・プロンプトからリアルな動画を合成する有望な能力を持つ。
本研究では,モーションガイダンスとして参照映像が提供される動作カスタマイズ問題に取り組む。
我々は,事前学習したT2V拡散モデルを特徴レベルで微調整するモーションカスタマイズフレームワークであるMotionMatcherを提案する。
論文 参考訳(メタデータ) (2025-02-18T19:12:51Z) - MotionAgent: Fine-grained Controllable Video Generation via Motion Field Agent [55.15697390165972]
テキスト誘導画像-映像生成のための微粒なモーション制御を実現するMotionAgentを提案する。
キーとなる技術は、テキストプロンプトの動作情報を明示的な運動場に変換するモーション・フィールド・エージェントである。
我々はVBenchのサブセットを構築し、テキストと生成されたビデオの動作情報のアライメントを評価する。
論文 参考訳(メタデータ) (2025-02-05T14:26:07Z) - Spectral Motion Alignment for Video Motion Transfer using Diffusion Models [54.32923808964701]
スペクトル運動アライメント(英: Spectral Motion Alignment、SMA)は、フーリエ変換とウェーブレット変換を用いて運動ベクトルを洗練・整列するフレームワークである。
SMAは周波数領域の正規化を取り入れて動きパターンを学習し、全体フレームのグローバルな動きのダイナミクスの学習を容易にする。
大規模な実験は、様々なビデオカスタマイズフレームワーク間の計算効率と互換性を維持しながら、モーション転送を改善するSMAの有効性を示す。
論文 参考訳(メタデータ) (2024-03-22T14:47:18Z) - Dual-MTGAN: Stochastic and Deterministic Motion Transfer for
Image-to-Video Synthesis [38.41763708731513]
本稿では,映像データと映像データを入力として取り込むDual Motion Transfer GAN(Dual-MTGAN)を提案する。
我々のDual-MTGANは、決定論的モーショントランスファーとモーションジェネレーションを行うことができる。
提案モデルは、ポーズや顔のランドマークのような事前定義された動作特徴を利用することなく、エンドツーエンドでトレーニングされる。
論文 参考訳(メタデータ) (2021-02-26T06:54:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。