論文の概要: SHIFT: Motion Alignment in Video Diffusion Models with Adversarial Hybrid Fine-Tuning
- arxiv url: http://arxiv.org/abs/2603.17426v1
- Date: Wed, 18 Mar 2026 07:04:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.558464
- Title: SHIFT: Motion Alignment in Video Diffusion Models with Adversarial Hybrid Fine-Tuning
- Title(参考訳): 逆ハイブリッドファインチューニングを用いたビデオ拡散モデルにおける動きアライメント
- Authors: Xi Ye, Wenjia Yang, Yangyang Xu, Xiaoyang Liu, Duo Su, Mengfei Xia, Jun Zhu,
- Abstract要約: 本稿では,映像拡散モデルにおける動きアライメントの問題について考察する。この問題に対処するために,画素フラックスダイナミクスに基づく画素運動報酬を導入する。
ビデオ拡散モデルのためのスケーラブルな報酬駆動微調整フレームワークであるSmooth Hybrid Fine-tuning (SHIFT)を提案する。
- 参考スコア(独自算出の注目度): 47.36837823291006
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image-conditioned Video diffusion models achieve impressive visual realism but often suffer from weakened motion fidelity, e.g., reduced motion dynamics or degraded long-term temporal coherence, especially after fine-tuning. We study the problem of motion alignment in video diffusion models post-training. To address this, we introduce pixel-motion rewards based on pixel flux dynamics, capturing both instantaneous and long-term motion consistency. We further propose Smooth Hybrid Fine-tuning (SHIFT), a scalable reward-driven fine-tuning framework for video diffusion models. SHIFT fuses the normal supervised fine-tuning and advantage weighted fine-tuning into a unified framework. Benefiting from novel adversarial advantages, SHIFT improves convergence speed and mitigates reward hacking. Experiments show that our approach efficiently resolves dynamic-degree collapse in modern video diffusion models supervised fine-tuning.
- Abstract(参考訳): 画像条件付きビデオ拡散モデルは、印象的な視覚的リアリズムを実現するが、特に微調整後に、運動力学の低下や長期的コヒーレンス低下といった、運動の忠実度低下に悩まされることが多い。
映像拡散モデルにおける運動アライメントの問題について検討する。
これを解決するために,画素フラックスのダイナミクスに基づく画素運動報酬を導入し,瞬時動作と長期動作の整合性の両方をキャプチャする。
さらに,ビデオ拡散モデルのためのスケーラブルな報酬駆動微調整フレームワークであるSmooth Hybrid Fine-tuning (SHIFT)を提案する。
ShiFTは、教師付きファインチューニングとアドバンテージを重み付けしたファインチューニングを統一されたフレームワークに融合する。
新たな敵の優位性から、Shiftは収束速度を改善し、報酬ハッキングを緩和する。
実験により, この手法は, 微調整を監督する現代ビデオ拡散モデルにおいて, 動的等級崩壊を効果的に解決することを示した。
関連論文リスト
- Causal Motion Diffusion Models for Autoregressive Motion Generation [19.61051102039212]
因果運動拡散モデル(CMDM)は自己回帰運動生成のための統合されたフレームワークである。
CMDMはMAC-VAE(Motion-Language-Aligned Causal VAE)の上に構築され、動作シーケンスを時間的因果潜在表現にエンコードする。
HumanML3DとSnapMoGenの実験では、CMDMは、意味的忠実度と時間的滑らかさの両方において、既存の拡散モデルと自己回帰モデルより優れていることを示した。
論文 参考訳(メタデータ) (2026-02-26T03:58:25Z) - MoAlign: Motion-Centric Representation Alignment for Video Diffusion Models [50.162882483045045]
本研究では、予め訓練されたビデオエンコーダから非交叉運動部分空間を学習する動き中心アライメントフレームワークを提案する。
この部分空間は、地表面の光学的流れを予測し、真の運動力学を捉えるよう最適化されている。
次に,テキスト間拡散モデルの潜在的特徴をこの新たなサブスペースに整合させ,生成モデルが動きの知識を内部化し,より高機能なビデオを生成することを可能にする。
論文 参考訳(メタデータ) (2025-10-21T19:05:23Z) - Image Motion Blur Removal in the Temporal Dimension with Video Diffusion Models [3.052019331122618]
本研究では,動きのぼかしを時間的平均化現象として扱う新しい単一像デブロアリング手法を提案する。
私たちの中心となるイノベーションは、トレーニング済みの動画拡散トランスフォーマーモデルを利用して、多様な動きのダイナミクスを捉えることです。
合成および実世界のデータセットにおける実験結果から,本手法は複雑な動きのぼかしシナリオを損なう場合,既存の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2025-01-22T03:01:54Z) - Spectral Motion Alignment for Video Motion Transfer using Diffusion Models [54.32923808964701]
スペクトル運動アライメント(英: Spectral Motion Alignment、SMA)は、フーリエ変換とウェーブレット変換を用いて運動ベクトルを洗練・整列するフレームワークである。
SMAは周波数領域の正規化を取り入れて動きパターンを学習し、全体フレームのグローバルな動きのダイナミクスの学習を容易にする。
大規模な実験は、様々なビデオカスタマイズフレームワーク間の計算効率と互換性を維持しながら、モーション転送を改善するSMAの有効性を示す。
論文 参考訳(メタデータ) (2024-03-22T14:47:18Z) - VMC: Video Motion Customization using Temporal Attention Adaption for
Text-to-Video Diffusion Models [58.93124686141781]
Video Motion Customization (VMC) はビデオ拡散モデルに時間的注意層を適応させる新しいワンショットチューニング手法である。
本研究では, 連続するフレーム間の残留ベクトルを運動基準として用いた新しい運動蒸留法を提案する。
実世界のさまざまな動きや状況にまたがる最先端のビデオ生成モデルに対して,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2023-12-01T06:50:11Z) - LaMD: Latent Motion Diffusion for Image-Conditional Video Generation [63.34574080016687]
LaMDフレームワークは、モーション分解されたビデオオートエンコーダと拡散に基づくモーションジェネレータで構成される。
LaMDは、BAIR、Landscape、NATOPS、MUG、CATER-GENなど、さまざまなベンチマークデータセットで高品質なビデオを生成する。
論文 参考訳(メタデータ) (2023-04-23T10:32:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。