Fugu-MT 論文翻訳(概要): MotionFlow: Attention-Driven Motion Transfer in Video Diffusion Models

論文の概要: MotionFlow: Attention-Driven Motion Transfer in Video Diffusion Models

arxiv url: http://arxiv.org/abs/2412.05275v1
Date: Fri, 06 Dec 2024 18:59:12 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-09 22:41:41.242514
Title: MotionFlow: Attention-Driven Motion Transfer in Video Diffusion Models
Title（参考訳）: MotionFlow:ビデオ拡散モデルにおける注意駆動運動伝達
Authors: Tuna Han Salih Meral, Hidir Yesiltepe, Connor Dunlop, Pinar Yanardag,
Abstract要約: 動画拡散モデルにおける動き伝達のための新しいフレームワークであるMotionFlowを紹介する。本手法は,空間的・時間的ダイナミクスを正確に把握し,操作するために,クロスアテンションマップを利用する。実験の結果,MotionFlowは劇的なシーン変化であっても,忠実度と汎用性の両方で既存モデルよりも優れていた。
参考スコア（独自算出の注目度）: 3.2311303453753033
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Text-to-video models have demonstrated impressive capabilities in producing diverse and captivating video content, showcasing a notable advancement in generative AI. However, these models generally lack fine-grained control over motion patterns, limiting their practical applicability. We introduce MotionFlow, a novel framework designed for motion transfer in video diffusion models. Our method utilizes cross-attention maps to accurately capture and manipulate spatial and temporal dynamics, enabling seamless motion transfers across various contexts. Our approach does not require training and works on test-time by leveraging the inherent capabilities of pre-trained video diffusion models. In contrast to traditional approaches, which struggle with comprehensive scene changes while maintaining consistent motion, MotionFlow successfully handles such complex transformations through its attention-based mechanism. Our qualitative and quantitative experiments demonstrate that MotionFlow significantly outperforms existing models in both fidelity and versatility even during drastic scene alterations.
Abstract（参考訳）: テキスト・トゥ・ビデオのモデルは、多種多様なビデオコンテンツを制作する素晴らしい能力を示しており、生成AIの顕著な進歩を示している。しかし、これらのモデルは一般的に運動パターンのきめ細かい制御を欠いており、実用性は制限されている。動画拡散モデルにおける動き伝達のための新しいフレームワークであるMotionFlowを紹介する。そこで本手法では,空間的・時間的ダイナミクスを正確に把握し,操作するために,クロスアテンションマップを利用する。本手法では,事前学習したビデオ拡散モデルの本質的な機能を活用して,テスト時間での学習や作業を行う。一貫性のある動きを維持しながら、包括的なシーン変化に苦しむ従来のアプローチとは対照的に、MotionFlowは注意に基づくメカニズムを通じて、このような複雑な変換をうまく処理する。定性的かつ定量的な実験により、MotionFlowは、劇的なシーン変更であっても、既存モデルよりも忠実さと汎用性の両方で大幅に優れていることが示された。

関連論文リスト

Moaw: Unleashing Motion Awareness for Video Diffusion Models [71.34328578845721]
Moawは動画拡散モデルのための動き認識を解放するフレームワークである。我々は、映像から映像へのモダリティを、映像から映像への追跡へとシフトさせ、運動知覚のための拡散モデルを訓練する。次に、最強の動作情報をエンコードする特徴を識別する動きラベル付きデータセットを構築し、それらを構造的に同一の映像生成モデルに注入する。
論文参考訳（メタデータ） (2026-01-19T06:45:46Z)
PanFlow: Decoupled Motion Control for Panoramic Video Generation [52.47902086091194]
PanFlowは、パノラマの球面の性質を利用して、入力光流条件から高度にダイナミックなカメラ回転を分離する新しいアプローチである。効果的なトレーニングを支援するため,フレームレベルのポーズとフローアノテーションを用いて,大規模なパノラマ動画データセットをキュレートする。
論文参考訳（メタデータ） (2025-11-30T11:03:31Z)
EfficientMT: Efficient Temporal Adaptation for Motion Transfer in Text-to-Video Diffusion Models [73.96414072072048]
既存の動き伝達法は、ガイド生成のための参照ビデオの動作表現を探索した。本稿では,ビデオモーション転送のための新しい,効率的なエンドツーエンドフレームワークであるEfficientMTを提案する。我々の実験は, フレキシブルな動作制御性を維持しつつ, 既存の手法よりも効率が良いことを示した。
論文参考訳（メタデータ） (2025-03-25T05:51:14Z)
MotionDiff: Training-free Zero-shot Interactive Motion Editing via Flow-assisted Multi-view Diffusion [20.142107033583027]
MotionDiffは、複雑な多視点モーション編集に光フローを利用する、トレーニング不要なゼロショット拡散法である。これは、高品質な多視点一貫した運動結果を達成するために、他の物理学ベースの生成運動編集法よりも優れている。 MotionDiffは再トレーニングを必要としないので、ユーザは様々なダウンストリームタスクに便利に適応できる。
論文参考訳（メタデータ） (2025-03-22T08:32:56Z)
MotionMatcher: Motion Customization of Text-to-Video Diffusion Models via Motion Feature Matching [27.28898943916193]
テキスト・ツー・ビデオ(T2V)拡散モデルは、入力されたテキスト・プロンプトからリアルな動画を合成する有望な能力を持つ。本研究では,モーションガイダンスとして参照映像が提供される動作カスタマイズ問題に取り組む。我々は,事前学習したT2V拡散モデルを特徴レベルで微調整するモーションカスタマイズフレームワークであるMotionMatcherを提案する。
論文参考訳（メタデータ） (2025-02-18T19:12:51Z)
Mojito: Motion Trajectory and Intensity Control for Video Generation [79.85687620761186]
本稿では,テキスト・ビデオ生成のための運動軌跡と強度制御の両方を組み込んだ拡散モデルであるMojitoを紹介する。実験は, 高精度な軌道制御と強度制御を高い計算効率で実現する上で, モジトの有効性を実証する。
論文参考訳（メタデータ） (2024-12-12T05:26:43Z)
Motion Prompting: Controlling Video Generation with Motion Trajectories [57.049252242807874]
スパースもしくは高密度なビデオ軌跡を条件とした映像生成モデルを訓練する。ハイレベルなユーザリクエストを,詳細なセミセンスな動作プロンプトに変換する。我々は、カメラや物体の動き制御、画像との「相互作用」、動画転送、画像編集など、様々な応用を通してアプローチを実証する。
論文参考訳（メタデータ） (2024-12-03T18:59:56Z)
MoTrans: Customized Motion Transfer with Text-driven Video Diffusion Models [59.10171699717122]
MoTransは、新しいコンテキストにおける類似した動きのビデオ生成を可能にする、カスタマイズされたモーション転送方式である。再カプセル化されたプロンプトとビデオフレームからのマルチモーダル表現は、外観のモデリングを促進する。本手法は, 特定の動きパターンを, 単一の参照ビデオや複数参照ビデオから効果的に学習する。
論文参考訳（メタデータ） (2024-12-02T10:07:59Z)
Video Diffusion Models are Training-free Motion Interpreter and Controller [20.361790608772157]
本稿では,映像拡散モデルにおける動き認識機能を理解し,ローカライズし,操作するための新しい視点を提案する。コンテンツ相関情報とフィルタリング動作チャネルを除去し,MOFT(Motion FeaTure)を提案する。
論文参考訳（メタデータ） (2024-05-23T17:59:40Z)
Spectral Motion Alignment for Video Motion Transfer using Diffusion Models [54.32923808964701]
スペクトル運動アライメント(英: Spectral Motion Alignment、SMA)は、フーリエ変換とウェーブレット変換を用いて運動ベクトルを洗練・整列するフレームワークである。 SMAは周波数領域の正規化を取り入れて動きパターンを学習し、全体フレームのグローバルな動きのダイナミクスの学習を容易にする。大規模な実験は、様々なビデオカスタマイズフレームワーク間の計算効率と互換性を維持しながら、モーション転送を改善するSMAの有効性を示す。
論文参考訳（メタデータ） (2024-03-22T14:47:18Z)
Animate Your Motion: Turning Still Images into Dynamic Videos [58.63109848837741]
本稿では,マルチモーダル入力を管理する新しい手法であるScene and Motion Conditional Diffusion (SMCD)を紹介する。 SMCDは、認識されたモーションコンディショニングモジュールを組み込み、シーン条件を統合するための様々なアプローチを調査する。我々のデザインは映像の品質、動きの精度、セマンティック・コヒーレンスを大幅に向上させる。
論文参考訳（メタデータ） (2024-03-15T10:36:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。