Fugu-MT 論文翻訳(概要): Video Motion Transfer with Diffusion Transformers

論文の概要: Video Motion Transfer with Diffusion Transformers

arxiv url: http://arxiv.org/abs/2412.07776v1
Date: Tue, 10 Dec 2024 18:59:58 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-11 22:09:45.490319
Title: Video Motion Transfer with Diffusion Transformers
Title（参考訳）: 拡散変換器を用いた動画移動
Authors: Alexander Pondaven, Aliaksandr Siarohin, Sergey Tulyakov, Philip Torr, Fabio Pizzati,
Abstract要約: 本稿では,参照ビデオの動作を新たに合成したものに転送する方法であるDiTFlowを提案する。まず、トレーニング済みのDiTを用いて参照ビデオを処理し、クロスフレームアテンションマップを分析し、パッチワイズ動作信号を抽出する。我々は、位置埋め込みを変換し、ゼロショットモーション転送能力を向上する戦略を適用した。
参考スコア（独自算出の注目度）: 82.4796313201512
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: We propose DiTFlow, a method for transferring the motion of a reference video to a newly synthesized one, designed specifically for Diffusion Transformers (DiT). We first process the reference video with a pre-trained DiT to analyze cross-frame attention maps and extract a patch-wise motion signal called the Attention Motion Flow (AMF). We guide the latent denoising process in an optimization-based, training-free, manner by optimizing latents with our AMF loss to generate videos reproducing the motion of the reference one. We also apply our optimization strategy to transformer positional embeddings, granting us a boost in zero-shot motion transfer capabilities. We evaluate DiTFlow against recently published methods, outperforming all across multiple metrics and human evaluation.
Abstract（参考訳）: 本稿では,Diffusion Transformers (DiT) 用に設計された,参照ビデオの動作を新たに合成したものに転送する手法であるDiTFlowを提案する。まず、トレーニング済みのDiTを用いて参照ビデオを処理し、フレーム横断の注目マップを分析し、アテンション・モーション・フロー(AMF)と呼ばれるパッチワイド・モーション・シグナルを抽出する。我々は、AMFの損失で潜伏者を最適化し、参照者の動きを再現するビデオを生成することにより、潜伏を最適化した訓練不要な方法で潜伏する過程を導出する。また、位置埋め込みの変換に最適化戦略を適用し、ゼロショットモーション転送能力を向上する。我々は、最近公開された手法に対してDiTFlowを評価し、複数の測定値と人的評価で優れた性能を発揮した。

関連論文リスト

Follow-Your-Motion: Video Motion Transfer via Efficient Spatial-Temporal Decoupled Finetuning [50.4776422843776]
Follow-Your-Motionは、複雑な動きを合成するために強力なビデオ拡散トランスフォーマーを微調整する、効率的な2段階ビデオモーション転送フレームワークである。我々は,Follow-Your-Motionの優位性を検証するため,MotionBenchについて広範囲に評価を行った。
論文参考訳（メタデータ） (2025-06-05T16:18:32Z)
RoPECraft: Training-Free Motion Transfer with Trajectory-Guided RoPE Optimization on Diffusion Transformers [7.8340104876025105]
RoPECraft(ロピークラフト)は、拡散変圧器のトレーニング不要な動画移動方式である。まず、参照ビデオから高密度光フローを抽出し、その結果の運動オフセットを用いて、RoPEの複素指数テンソルをワープする。
論文参考訳（メタデータ） (2025-05-19T16:50:26Z)
FlowLoss: Dynamic Flow-Conditioned Loss Strategy for Video Diffusion Models [9.469635938429647]
ビデオ拡散モデル(VDM)は高品質なビデオを生成することができるが、時間的に一貫した動きを生み出すのにしばしば苦労する。本研究では,生成した映像から抽出した流れ場を直接比較するFlowLossを提案する。本研究は,騒音条件付き生成モデルにモーションベース制御を組み込むための実用的な知見を提供する。
論文参考訳（メタデータ） (2025-04-20T08:22:29Z)
EfficientMT: Efficient Temporal Adaptation for Motion Transfer in Text-to-Video Diffusion Models [73.96414072072048]
既存の動き伝達法は、ガイド生成のための参照ビデオの動作表現を探索した。本稿では,ビデオモーション転送のための新しい,効率的なエンドツーエンドフレームワークであるEfficientMTを提案する。我々の実験は, フレキシブルな動作制御性を維持しつつ, 既存の手法よりも効率が良いことを示した。
論文参考訳（メタデータ） (2025-03-25T05:51:14Z)
Rethinking Video Super-Resolution: Towards Diffusion-Based Methods without Motion Alignment [3.052019331122618]
実世界の物理を学習する強力なモデルは、先行知識として様々な動きパターンを容易に扱うことができると論じる。提案したビデオ拡散変圧器モデルの単一例は、再学習せずに異なるサンプリング条件に適応することができる。合成および実世界のデータセットに関する実証的な結果は、拡散に基づくアライメントなしビデオ超解像の実現可能性を示している。
論文参考訳（メタデータ） (2025-03-05T10:37:51Z)
Improving Video Generation with Human Feedback [81.48120703718774]
ビデオ生成は大きな進歩を遂げているが、動画とプロンプト間の不規則な動きや不一致といった問題が続いている。我々は、人間のフィードバックを利用してこれらの問題を緩和し、ビデオ生成モデルを洗練する体系的なパイプラインを開発する。多次元ビデオ報酬モデルであるVideoRewardを導入し、アノテーションと様々なデザイン選択が報奨効果に与える影響について検討する。
論文参考訳（メタデータ） (2025-01-23T18:55:41Z)
MotionFlow: Attention-Driven Motion Transfer in Video Diffusion Models [3.2311303453753033]
動画拡散モデルにおける動き伝達のための新しいフレームワークであるMotionFlowを紹介する。本手法は,空間的・時間的ダイナミクスを正確に把握し,操作するために,クロスアテンションマップを利用する。実験の結果,MotionFlowは劇的なシーン変化であっても,忠実度と汎用性の両方で既存モデルよりも優れていた。
論文参考訳（メタデータ） (2024-12-06T18:59:12Z)
Generalizable Implicit Motion Modeling for Video Frame Interpolation [51.966062283735596]
フローベースビデオフレーム補間(VFI)における動きの重要性本稿では,動きモデリングVFIの新規かつ効果的なアプローチである一般インプリシット・モーション・モデリング(IMM)を紹介する。我々のGIMMは、正確にモデル化された動きを供給することによって、既存のフローベースVFIワークと容易に統合できる。
論文参考訳（メタデータ） (2024-07-11T17:13:15Z)
Motion Flow Matching for Human Motion Synthesis and Editing [75.13665467944314]
本研究では,効率的なサンプリングと効率性を備えた人体運動生成のための新しい生成モデルであるemphMotion Flow Matchingを提案する。提案手法は, 従来の拡散モデルにおいて, サンプリングの複雑さを1000ステップから10ステップに減らし, テキスト・ツー・モーション・ジェネレーション・ベンチマークやアクション・ツー・モーション・ジェネレーション・ベンチマークで同等の性能を実現する。
論文参考訳（メタデータ） (2023-12-14T12:57:35Z)
MVFlow: Deep Optical Flow Estimation of Compressed Videos with Motion Vector Prior [16.633665275166706]
圧縮ビデオにおける光フロー推定の速度と精度を向上させるために運動ベクトルを用いた光フローモデルMVFlowを提案する。実験の結果,既存のモデルと比較して提案したMVFlowの1.09倍の精度を示し,既存のモデルと同様の精度で保存時間を短縮した。
論文参考訳（メタデータ） (2023-08-03T07:16:18Z)
Boost Video Frame Interpolation via Motion Adaptation [73.42573856943923]
ビデオフレーム(VFI)は、2つの連続するフレーム間の中間フレームを生成することを目的とした課題である。既存の学習ベースのVFI手法は大きな成功を収めたが、それでも限定的な一般化能力に悩まされている。テスト時に見えない動作に適応できる新しい最適化ベースのVFI法を提案する。
論文参考訳（メタデータ） (2023-06-24T10:44:02Z)
TENET: Transformer Encoding Network for Effective Temporal Flow on Motion Prediction [11.698627151060467]
入力符号化と軌道予測のためのトランスフォーマーに基づく手法を開発した。我々はArgoverse 2 Motion Forecasting Challengeで最先端のBrier-minFDEスコア1.90で優勝した。
論文参考訳（メタデータ） (2022-06-30T08:39:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。