論文の概要: RoPECraft: Training-Free Motion Transfer with Trajectory-Guided RoPE Optimization on Diffusion Transformers
- arxiv url: http://arxiv.org/abs/2505.13344v1
- Date: Mon, 19 May 2025 16:50:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.750833
- Title: RoPECraft: Training-Free Motion Transfer with Trajectory-Guided RoPE Optimization on Diffusion Transformers
- Title(参考訳): RoPECraft: 拡散変換器の軌道誘導型RoPE最適化による学習自由運動伝達
- Authors: Ahmet Berke Gokmen, Yigit Ekin, Bahri Batuhan Bilecen, Aysegul Dundar,
- Abstract要約: RoPECraft(ロピークラフト)は、拡散変圧器のトレーニング不要な動画移動方式である。
まず、参照ビデオから高密度光フローを抽出し、その結果の運動オフセットを用いて、RoPEの複素指数テンソルをワープする。
- 参考スコア(独自算出の注目度): 7.8340104876025105
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose RoPECraft, a training-free video motion transfer method for diffusion transformers that operates solely by modifying their rotary positional embeddings (RoPE). We first extract dense optical flow from a reference video, and utilize the resulting motion offsets to warp the complex-exponential tensors of RoPE, effectively encoding motion into the generation process. These embeddings are then further optimized during denoising time steps via trajectory alignment between the predicted and target velocities using a flow-matching objective. To keep the output faithful to the text prompt and prevent duplicate generations, we incorporate a regularization term based on the phase components of the reference video's Fourier transform, projecting the phase angles onto a smooth manifold to suppress high-frequency artifacts. Experiments on benchmarks reveal that RoPECraft outperforms all recently published methods, both qualitatively and quantitatively.
- Abstract(参考訳): 回転位置埋め込み(RoPE)を改良してのみ動作する拡散変圧器のトレーニング不要な動画移動方式であるRoPECraftを提案する。
まず、参照ビデオから高密度光フローを抽出し、その結果の運動オフセットを利用して、RoPEの複素指数テンソルをワープし、効果的に動きを生成プロセスに符号化する。
これらの埋め込みは、フローマッチングの目的を用いて予測された速度と目標速度の間の軌道アライメントを通じて、時間ステップのデノナイズ時にさらに最適化される。
テキストのプロンプトに忠実な出力を保ち、重複の発生を防ぐために、参照ビデオのフーリエ変換の位相成分に基づいて正規化項を組み込み、位相角を滑らかな多様体に投影し、高精細なアーティファクトを抑える。
ベンチマークの実験によると、RoPECraftは、定性的にも量的にも、最近公開されたすべてのメソッドを上回っている。
関連論文リスト
- EfficientMT: Efficient Temporal Adaptation for Motion Transfer in Text-to-Video Diffusion Models [73.96414072072048]
既存の動き伝達法は、ガイド生成のための参照ビデオの動作表現を探索した。
本稿では,ビデオモーション転送のための新しい,効率的なエンドツーエンドフレームワークであるEfficientMTを提案する。
我々の実験は, フレキシブルな動作制御性を維持しつつ, 既存の手法よりも効率が良いことを示した。
論文 参考訳(メタデータ) (2025-03-25T05:51:14Z) - Video Motion Transfer with Diffusion Transformers [82.4796313201512]
本稿では,参照ビデオの動作を新たに合成したものに転送する方法であるDiTFlowを提案する。
まず、トレーニング済みのDiTを用いて参照ビデオを処理し、クロスフレームアテンションマップを分析し、パッチワイズ動作信号を抽出する。
我々は、位置埋め込みを変換し、ゼロショットモーション転送能力を向上する戦略を適用した。
論文 参考訳(メタデータ) (2024-12-10T18:59:58Z) - Efficient Diffusion Transformer with Step-wise Dynamic Attention Mediators [83.48423407316713]
本稿では,クエリとキーを別々に扱うために,追加の仲介者トークンを組み込んだ新しい拡散トランスフォーマーフレームワークを提案する。
本モデルでは, 正確な非曖昧な段階を呈し, 詳細に富んだ段階へと徐々に遷移する。
本手法は,最近のSiTと統合した場合に,最先端のFIDスコア2.01を達成する。
論文 参考訳(メタデータ) (2024-08-11T07:01:39Z) - DiffusionPhase: Motion Diffusion in Frequency Domain [69.811762407278]
そこで本研究では,テキスト記述から高品質な人間の動作系列を生成する学習手法を提案する。
既存の技術は、任意の長さの動き列を生成する際に、動きの多様性と滑らかな遷移に苦しむ。
動作空間をコンパクトで表現力のあるパラメータ化位相空間に変換するネットワークエンコーダを開発する。
論文 参考訳(メタデータ) (2023-12-07T04:39:22Z) - Exploring Iterative Refinement with Diffusion Models for Video Grounding [17.435735275438923]
ビデオグラウンドイングは、所定の文クエリに対応する未編集ビデオにおいて、ターゲットモーメントをローカライズすることを目的としている。
条件生成タスクとしてビデオグラウンドを定式化する拡散モデルを用いた新しいフレームワークであるDiffusionVGを提案する。
論文 参考訳(メタデータ) (2023-10-26T07:04:44Z) - Video Interpolation by Event-driven Anisotropic Adjustment of Optical
Flow [11.914613556594725]
イベント駆動型光フローの異方性調整によるビデオフレームのエンドツーエンドトレーニング手法A2OFを提案する。
具体的には、2つのフレーム間の複雑な動きをモデル化できる中間光学フローのための光フロー分布マスクを生成するためにイベントを使用する。
論文 参考訳(メタデータ) (2022-08-19T02:31:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。