論文の概要: SGMD: Score Gradient Matching Distillation for Few-Step Video Diffusion Distillation
- arxiv url: http://arxiv.org/abs/2605.30116v1
- Date: Thu, 28 May 2026 15:50:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:56.453666
- Title: SGMD: Score Gradient Matching Distillation for Few-Step Video Diffusion Distillation
- Title(参考訳): SGMD-Score Gradient Matching Distillation for Few-Step Video Diffusion Distillation (特集:SGMDとバイオサイバネティックス)
- Authors: Zhuguanyu Wu, Ruihao Gong, Yang Yong, Yushi Huang, Xiangyu Fan, Lei Yang, Dahua Lin, Xianglong Liu,
- Abstract要約: 分散マッチング蒸留(DMD)は、数ステップのビデオ拡散モデルにおいて、推論を加速するための広く使われているパラダイムである。
textbfScore Gradient Matching Distillation (SGMD)を提案する。
教師の停止段階のフィッシャーを安定した分布マッチングの目的として使用しながら、教師に対して偽スコアを直接最適化することで、偽スコアの視点を採用する。
時間的一貫性を維持しつつ、4段階蒸留モデルの運動力学を大幅に改善する。
- 参考スコア(独自算出の注目度): 57.297118390628384
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Distribution Matching Distillation (DMD) is a widely used paradigm for accelerating inference in few-step video diffusion models. However, DMD-style video distillation faces two coupled challenges: the fake score must track a continuously evolving generator, making training costly when frequent updates are required, while reverse-KL-style matching can be mode-seeking and conservative for preserving strong motion dynamics. To address these issues, we propose \textbf{Score Gradient Matching Distillation (SGMD)}. SGMD adopts a fake-score perspective by directly optimizing the fake score toward the teacher, while using teacher stop-gradient Fisher as a stable distribution-matching objective. We provide a gradient analysis that motivates this objective choice under ideal tracking. Building on this, SGMD introduces a pair of dual potentials: negative-residual (NR) for outer-loop correction and residual-contraction (RC) for inner-loop tracking. Empirically, compared to DMD2, SGMD achieves an approximately $\sim 3\times$ training speedup and substantially improves motion dynamics for 4-step distilled models while preserving temporal consistency. A human study confirms that SGMD is preferred in motion quality and overall preference, while visual quality and text alignment remain comparable. Code is available at https://github.com/ModelTC/LightX2V.
- Abstract(参考訳): 分散マッチング蒸留(Distributed Matching Distillation, DMD)は, 数段階のビデオ拡散モデルにおいて, 推論の高速化に広く用いられているパラダイムである。
しかし、DMDスタイルのビデオ蒸留は、2つの複合的な課題に直面している: 偽のスコアは継続的に進化するジェネレータを追跡し、頻繁な更新が必要なときにトレーニングをコストで行わなければならない。
これらの問題に対処するため、我々はtextbf{Score Gradient Matching Distillation (SGMD)を提案する。
SGMDは、教師の停止段階フィッシャーを安定した分布マッチング目的として使用しながら、教師に対して偽スコアを直接最適化することで、偽スコアの視点を採用する。
我々は、理想的なトラッキングの下で、この客観的選択を動機付ける勾配解析を提供する。
これに基づいてSGMDは、外ループ補正のための負残差(NR)と内ループ追跡のための残留収縮(RC)の2つの双対ポテンシャルを導入した。
実証的には、SGMDはMDD2と比較して約$\sim 3\times$のトレーニングスピードアップを実現し、時間的一貫性を維持しながら4段階蒸留モデルの運動ダイナミクスを大幅に改善する。
人間の研究では、SGMDは動きの質と全体的な好みで好まれる一方で、視覚的品質とテキストアライメントは相容れないことが確認されている。
コードはhttps://github.com/ModelTC/LightX2Vで入手できる。
関連論文リスト
- Continuous-Time Distribution Matching for Few-Step Diffusion Distillation [57.28746398500951]
本稿では,CDM(Continuous-Time Distribution Matching)を導入し,DMDフレームワークを個別アンカーから連続最適化へ移行する。
まず、固定離散スケジュールをランダム長の動的連続スケジュールに置き換える。
第二に、学生の速度場を介して外挿された潜伏者に対してアクティブな軌道外マッチングを行う連続時間アライメント目的を提案する。
論文 参考訳(メタデータ) (2026-05-07T14:56:39Z) - Transition Matching Distillation for Fast Video Generation [63.1049790376783]
本稿では,ビデオ拡散モデルを効率の良い数ステップ生成器に蒸留するための新しいフレームワークであるTransition Matching Distillation (TMD)を提案する。
TMDは拡散モデルの多段階認知軌道と数段階の確率遷移過程とを一致させる。
TMDは、生成速度と視覚的品質の間の柔軟性と強力なトレードオフを提供する。
論文 参考訳(メタデータ) (2026-01-14T21:30:03Z) - Phased DMD: Few-step Distribution Matching Distillation via Score Matching within Subintervals [48.14879329270912]
フェーズドDMDは、Mixture-of-Expertsでフェーズワイド蒸留のアイデアを橋渡しする多段階蒸留フレームワークである。
位相MDDはプログレッシブな分布マッチングとサブインターバル内のスコアマッチングという2つの主要なアイデアに基づいて構築されている。
実験結果から,第2相DMDはDMDよりも出力の多様性を保ちつつ,重要な生成能力を保っていることが明らかとなった。
論文 参考訳(メタデータ) (2025-10-31T17:55:10Z) - Large Scale Diffusion Distillation via Score-Regularized Continuous-Time Consistency [60.74505433956616]
連続時間一貫性モデル(sCM)は理論的に原理化され、学術規模の拡散を加速するために実証的に強力である。
まず並列性互換なFlashAttention-2 JVPカーネルを開発し、100億以上のパラメータと高次元ビデオタスクを持つモデル上でsCMトレーニングを可能にする。
本稿では, スコア蒸留を長軸正則化器として組み込んだスコア規則化連続時間一貫性モデル(rCM)を提案する。
論文 参考訳(メタデータ) (2025-10-09T16:45:30Z) - Adversarial Distribution Matching for Diffusion Distillation Towards Efficient Image and Video Synthesis [65.77083310980896]
本稿では, 実測値と偽測値の間に潜時予測を整列させる適応分布マッチング (ADM) を提案する。
提案手法は,DMD2と比較してSDXLの1ステップ性能に優れ,GPU時間が少ない。
SD3-Medium, SD3.5-Large, CogVideoX に多段階の ADM 蒸留を適用した実験では, 画像と映像の効率的な合成に向けた新しいベンチマークが設定された。
論文 参考訳(メタデータ) (2025-07-24T16:45:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。