論文の概要: MoGAN: Improving Motion Quality in Video Diffusion via Few-Step Motion Adversarial Post-Training
- arxiv url: http://arxiv.org/abs/2511.21592v1
- Date: Wed, 26 Nov 2025 17:09:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:59.214975
- Title: MoGAN: Improving Motion Quality in Video Diffusion via Few-Step Motion Adversarial Post-Training
- Title(参考訳): MoGAN:Few-Step Motion Adversarial Post-Trainingによるビデオ拡散の運動品質向上
- Authors: Haotian Xue, Qi Chen, Zhonghao Wang, Xun Huang, Eli Shechtman, Jinrong Xie, Yongxin Chen,
- Abstract要約: ビデオ拡散モデルは強いフレームレベルの忠実性を達成するが、動きのコヒーレンス、ダイナミクス、リアリズムに苦しむ。
報酬モデルや人選好データなしで動きリアリズムを改善する動き中心のポストトレーニングフレームワークであるMoGANを提案する。
- 参考スコア(独自算出の注目度): 46.09617860476419
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Video diffusion models achieve strong frame-level fidelity but still struggle with motion coherence, dynamics and realism, often producing jitter, ghosting, or implausible dynamics. A key limitation is that the standard denoising MSE objective provides no direct supervision on temporal consistency, allowing models to achieve low loss while still generating poor motion. We propose MoGAN, a motion-centric post-training framework that improves motion realism without reward models or human preference data. Built atop a 3-step distilled video diffusion model, we train a DiT-based optical-flow discriminator to differentiate real from generated motion, combined with a distribution-matching regularizer to preserve visual fidelity. With experiments on Wan2.1-T2V-1.3B, MoGAN substantially improves motion quality across benchmarks. On VBench, MoGAN boosts motion score by +7.3% over the 50-step teacher and +13.3% over the 3-step DMD model. On VideoJAM-Bench, MoGAN improves motion score by +7.4% over the teacher and +8.8% over DMD, while maintaining comparable or even better aesthetic and image-quality scores. A human study further confirms that MoGAN is preferred for motion quality (52% vs. 38% for the teacher; 56% vs. 29% for DMD). Overall, MoGAN delivers significantly more realistic motion without sacrificing visual fidelity or efficiency, offering a practical path toward fast, high-quality video generation. Project webpage is: https://xavihart.github.io/mogan.
- Abstract(参考訳): ビデオ拡散モデルは強いフレームレベルの忠実さを達成するが、動きのコヒーレンス、ダイナミクス、リアリズムに苦しむ。
鍵となる制限は、標準の MSE の目的が時間的一貫性の直接的な監督を提供していないことであり、モデルが低損失を達成できると同時に、動作不良を発生させることである。
報酬モデルや人選好データなしで動きリアリズムを改善する動き中心のポストトレーニングフレームワークであるMoGANを提案する。
3段階の蒸留ビデオ拡散モデル上に構築され,実写動作と実写動作を区別するためにDiTベースの光フロー判別器をトレーニングし,分布整合正規化器と組み合わせて視覚的忠実性を維持する。
Wan2.1-T2V-1.3Bの実験により、MoGANはベンチマーク全体の運動品質を大幅に改善した。
VBenchでは、MoGANは50ステップの教師で+7.3%、3ステップのMDDモデルで+13.3%の運動スコアを上げる。
VideoJAM-Benchでは、MoGANは教師より+7.4%、MDDより+8.8%、美的、イメージ品質のスコアは+8.8%向上している。
人間の研究では、MoGANが運動品質(教師では52%対38%、DMDでは56%対29%)が好ましいことが確認されている。
全体としては、MoGANは視覚的忠実さや効率性を犠牲にすることなく、はるかに現実的な動きを提供する。
プロジェクトのWebページは以下のとおりである。
関連論文リスト
- Real-Time Motion-Controllable Autoregressive Video Diffusion [79.32730467857535]
本稿では,AR-Dragを提案する。このAR-Dragは,多様なモーション制御を備えたリアルタイム画像・ビデオ生成のための,RLで拡張された最初の数ステップのARビデオ拡散モデルである。
まず,基本動作制御をサポートするためのベースI2Vモデルを微調整し,さらに軌道ベース報酬モデルによる強化により改良する。
本設計では、自己学習機構を通じてマルコフ特性を保存し、ステップを選択的に分解することで訓練を加速する。
論文 参考訳(メタデータ) (2025-10-09T12:17:11Z) - VimoRAG: Video-based Retrieval-augmented 3D Motion Generation for Motion Language Models [110.32291962407078]
VimoRAG(ヴィモラグ)は、動画に基づく大規模言語モデルのためのモーション生成フレームワークである。
動作中心の効果的なビデオ検索モデルを開発し、最適下検索結果による誤り伝播の問題を緩和する。
実験結果から,VimoRAGはテキストのみの入力に制約された動きLLMの性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2025-08-16T15:31:14Z) - Physics-Guided Motion Loss for Video Generation Model [8.083315267770255]
現在のビデオ拡散モデルは視覚的に魅力的なコンテンツを生成するが、物理の基本法則に反することが多い。
モデルアーキテクチャを変更することなく、動きの可視性を向上する周波数領域物理を導入する。
論文 参考訳(メタデータ) (2025-06-02T20:42:54Z) - Teller: Real-Time Streaming Audio-Driven Portrait Animation with Autoregressive Motion Generation [18.45773436423025]
リアルタイム・オーディオ駆動型ポートレートアニメーション(a.k.a, talking head)のための最初の自動回帰フレームワークを紹介する。
本稿では,自動回帰動作生成を備えた最初のストリーミングオーディオ駆動プロトライトアニメーションフレームワークであるTellerを提案する。
論文 参考訳(メタデータ) (2025-03-24T08:16:47Z) - Spectral Motion Alignment for Video Motion Transfer using Diffusion Models [54.32923808964701]
スペクトル運動アライメント(英: Spectral Motion Alignment、SMA)は、フーリエ変換とウェーブレット変換を用いて運動ベクトルを洗練・整列するフレームワークである。
SMAは周波数領域の正規化を取り入れて動きパターンを学習し、全体フレームのグローバルな動きのダイナミクスの学習を容易にする。
大規模な実験は、様々なビデオカスタマイズフレームワーク間の計算効率と互換性を維持しながら、モーション転送を改善するSMAの有効性を示す。
論文 参考訳(メタデータ) (2024-03-22T14:47:18Z) - MotionMix: Weakly-Supervised Diffusion for Controllable Motion
Generation [19.999239668765885]
MotionMixはノイズと無注釈の両方のモーションシーケンスを利用する弱い教師付き拡散モデルである。
我々のフレームワークは、テキスト・トゥ・モーション、アクション・トゥ・モーション、音楽・トゥ・ダンスのタスクにおける最先端のパフォーマンスを一貫して達成する。
論文 参考訳(メタデータ) (2024-01-20T04:58:06Z) - Motion Sensitive Contrastive Learning for Self-supervised Video
Representation [34.854431881562576]
動作感性コントラスト学習(MSCL)は、光学フローによって捉えられた動き情報をRGBフレームに注入し、特徴学習を強化する。
フレームレベルのコントラスト目標を持つ局所運動コントラスト学習(LMCL)。
Flow Rotation Augmentation (FRA) は追加のモーションシャッフル負のサンプルを生成し、Motion Differential Smpling (MDS) はトレーニングサンプルを正確にスクリーニングする。
論文 参考訳(メタデータ) (2022-08-12T04:06:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。