論文の概要: Decouple and Track: Benchmarking and Improving Video Diffusion Transformers for Motion Transfer
- arxiv url: http://arxiv.org/abs/2503.17350v1
- Date: Fri, 21 Mar 2025 17:52:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-24 14:56:25.739406
- Title: Decouple and Track: Benchmarking and Improving Video Diffusion Transformers for Motion Transfer
- Title(参考訳): Deouple and Track:モーショントランスのためのビデオ拡散変換器のベンチマークと改善
- Authors: Qingyu Shi, Jianzong Wu, Jinbin Bai, Jiangning Zhang, Lu Qi, Xiangtai Li, Yunhai Tong,
- Abstract要約: Diffusion Transformer (DiT) モデルは3Dフルアテンションを使用し、時間的・空間的な情報を明示的に分離しない。
提案手法では, 時間次元に沿って円滑なDiT機能を実現するために, 単純で効果的な時間的カーネルを導入する。
また,動作の整合性を高めるために,潜在特徴空間における高密度軌跡に沿った明示的な監督も導入する。
- 参考スコア(独自算出の注目度): 41.26164688712492
- License:
- Abstract: The motion transfer task involves transferring motion from a source video to newly generated videos, requiring the model to decouple motion from appearance. Previous diffusion-based methods primarily rely on separate spatial and temporal attention mechanisms within 3D U-Net. In contrast, state-of-the-art video Diffusion Transformers (DiT) models use 3D full attention, which does not explicitly separate temporal and spatial information. Thus, the interaction between spatial and temporal dimensions makes decoupling motion and appearance more challenging for DiT models. In this paper, we propose DeT, a method that adapts DiT models to improve motion transfer ability. Our approach introduces a simple yet effective temporal kernel to smooth DiT features along the temporal dimension, facilitating the decoupling of foreground motion from background appearance. Meanwhile, the temporal kernel effectively captures temporal variations in DiT features, which are closely related to motion. Moreover, we introduce explicit supervision along dense trajectories in the latent feature space to further enhance motion consistency. Additionally, we present MTBench, a general and challenging benchmark for motion transfer. We also introduce a hybrid motion fidelity metric that considers both the global and local motion similarity. Therefore, our work provides a more comprehensive evaluation than previous works. Extensive experiments on MTBench demonstrate that DeT achieves the best trade-off between motion fidelity and edit fidelity.
- Abstract(参考訳): モーション転送タスクは、ソースビデオから新たに生成されたビデオにモーションを転送することを含み、モデルが動きを外見から切り離す必要がある。
従来の拡散法は主に3次元U-Net内の空間的および時間的注意機構に依存していた。
対照的に、最先端のビデオ拡散変換器(DiT)モデルは3Dフルアテンションを使用しており、時間的情報と空間的情報を明示的に分離していない。
したがって、空間的次元と時間的次元の相互作用により、DiTモデルではデカップリング運動と外観がより困難になる。
本稿では,動き伝達能力を向上させるためにDiTモデルを適用するDeTを提案する。
提案手法では, 時間的次元に沿って円滑なDiT特徴を実現するために, 単純だが効果的な時間的カーネルを導入し, 前景運動と背景運動との疎結合を容易にする。
一方、時間的カーネルは、動きと密接に関連するDiT特徴の時間的変動を効果的に捉えている。
さらに,動作の整合性を高めるために,潜在特徴空間における高密度軌跡に沿った明示的な監督を導入する。
さらに, MTBenchは, 運動伝達の一般的な, 挑戦的なベンチマークである。
また,大域的および局所的な運動類似性を考慮したハイブリッドな運動忠実度指標も導入する。
そのため,本研究は,従来の研究よりも総合的な評価を行っている。
MTBenchでの大規模な実験により、DeTは運動忠実度と編集忠実度との最良のトレードオフを達成することを示した。
関連論文リスト
- Tora: Trajectory-oriented Diffusion Transformer for Video Generation [12.843449269564507]
Toraは、テキスト、ビジュアル、およびトラジェクトリ条件を統合する最初のトラジェクトリ指向のDiTフレームワークである。
Toraは、様々な期間、アスペクト比、解像度で制御可能な動画を生成する。
論文 参考訳(メタデータ) (2024-07-31T15:53:20Z) - Generalizable Implicit Motion Modeling for Video Frame Interpolation [51.966062283735596]
フローベースビデオフレーム補間(VFI)における動きの重要性
本稿では,動きモデリングVFIの新規かつ効果的なアプローチである一般インプリシット・モーション・モデリング(IMM)を紹介する。
我々のGIMMは、正確にモデル化された動きを供給することによって、既存のフローベースVFIワークと容易に統合できる。
論文 参考訳(メタデータ) (2024-07-11T17:13:15Z) - Spectral Motion Alignment for Video Motion Transfer using Diffusion Models [54.32923808964701]
スペクトル運動アライメント(英: Spectral Motion Alignment、SMA)は、フーリエ変換とウェーブレット変換を用いて運動ベクトルを洗練・整列するフレームワークである。
SMAは周波数領域の正規化を取り入れて動きパターンを学習し、全体フレームのグローバルな動きのダイナミクスの学習を容易にする。
大規模な実験は、様々なビデオカスタマイズフレームワーク間の計算効率と互換性を維持しながら、モーション転送を改善するSMAの有効性を示す。
論文 参考訳(メタデータ) (2024-03-22T14:47:18Z) - DiffMOT: A Real-time Diffusion-based Multiple Object Tracker with Non-linear Prediction [15.542306419065945]
我々はDiffMOTというリアルタイム拡散に基づくMOT手法を提案し、複雑な非線形運動に対処する。
MOTトラッカーとして、DiffMOTは22.7FPSでリアルタイムであり、DanceTrackやSportsMOTのデータセットの最先端よりも優れている。
論文 参考訳(メタデータ) (2024-03-04T14:21:51Z) - MotionTrack: Learning Motion Predictor for Multiple Object Tracking [68.68339102749358]
本研究では,学習可能なモーション予測器を中心に,新しいモーショントラッカーであるMotionTrackを紹介する。
実験結果から、MotionTrackはDancetrackやSportsMOTといったデータセット上での最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-06-05T04:24:11Z) - TSI: Temporal Saliency Integration for Video Action Recognition [32.18535820790586]
本稿では,SME(Salient Motion Excitation)モジュールとCTI(Cross-scale Temporal Integration)モジュールを主成分とするTSI(Temporal Saliency Integration)ブロックを提案する。
SMEは、局所的な動きモデリングを通して、動きに敏感な領域を強調することを目的としている。
CTIは、それぞれ別々の1D畳み込みの群を通じて、マルチスケールの時間的モデリングを実行するように設計されている。
論文 参考訳(メタデータ) (2021-06-02T11:43:49Z) - MotionRNN: A Flexible Model for Video Prediction with Spacetime-Varying
Motions [70.30211294212603]
本稿では,空間と時間の両方に連続する時空変動を予測できる新たな次元からビデオ予測を行う。
本研究では,動きの複雑な変動を捉え,時空変化に適応できるMotionRNNフレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-03T08:11:50Z) - Motion-Attentive Transition for Zero-Shot Video Object Segmentation [99.44383412488703]
ゼロショットオブジェクトセグメンテーションのためのモーション・アテンタティブ・トランジション・ネットワーク(MATNet)を提案する。
モーション・アテンティブ・トランジション (MAT) と呼ばれる非対称のアテンションブロックは、2ストリームエンコーダ内に設計されている。
このように、エンコーダは深く相互に作用し、物体の動きと外観の間の密な階層的な相互作用を可能にする。
論文 参考訳(メタデータ) (2020-03-09T16:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。