論文の概要: Decoupled DMD: CFG Augmentation as the Spear, Distribution Matching as the Shield
- arxiv url: http://arxiv.org/abs/2511.22677v1
- Date: Thu, 27 Nov 2025 18:24:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.676962
- Title: Decoupled DMD: CFG Augmentation as the Spear, Distribution Matching as the Shield
- Title(参考訳): Decoupled DMD: CFG Augmentation as the Spear, Distribution Matching as the Shield
- Authors: Dongyang Liu, Peng Gao, David Liu, Ruoyi Du, Zhen Li, Qilong Wu, Xin Jin, Sihan Cao, Shifeng Zhang, Hongsheng Li, Steven Hoi,
- Abstract要約: 拡散モデル蒸留は、効率的な数段・単段発生装置を作るための強力な技術として登場した。
数段蒸留の原動力は分布一致ではなく,これまで見過ごされていた成分であるCFG増量 (CFG Augmentation, CA) であることを示す。
本稿では, エンジンとレギュレータのノイズスケジュールを分離するなど, 蒸留工程の原理的な修正を提案し, 更なる性能向上を実現した。
- 参考スコア(独自算出の注目度): 54.328202401611264
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion model distillation has emerged as a powerful technique for creating efficient few-step and single-step generators. Among these, Distribution Matching Distillation (DMD) and its variants stand out for their impressive performance, which is widely attributed to their core mechanism of matching the student's output distribution to that of a pre-trained teacher model. In this work, we challenge this conventional understanding. Through a rigorous decomposition of the DMD training objective, we reveal that in complex tasks like text-to-image generation, where CFG is typically required for desirable few-step performance, the primary driver of few-step distillation is not distribution matching, but a previously overlooked component we identify as CFG Augmentation (CA). We demonstrate that this term acts as the core ``engine'' of distillation, while the Distribution Matching (DM) term functions as a ``regularizer'' that ensures training stability and mitigates artifacts. We further validate this decoupling by demonstrating that while the DM term is a highly effective regularizer, it is not unique; simpler non-parametric constraints or GAN-based objectives can serve the same stabilizing function, albeit with different trade-offs. This decoupling of labor motivates a more principled analysis of the properties of both terms, leading to a more systematic and in-depth understanding. This new understanding further enables us to propose principled modifications to the distillation process, such as decoupling the noise schedules for the engine and the regularizer, leading to further performance gains. Notably, our method has been adopted by the Z-Image ( https://github.com/Tongyi-MAI/Z-Image ) project to develop a top-tier 8-step image generation model, empirically validating the generalization and robustness of our findings.
- Abstract(参考訳): 拡散モデル蒸留は、効率的な数段・単段発生装置を作るための強力な技術として登場した。
これらのうち、DMD(Dis Distribution Matching Distillation)とその変種は、学生の出力分布と事前学習した教師モデルの出力分布とを一致させる、という彼らの中核的なメカニズムに大きく起因している。
本研究では,この従来の理解に挑戦する。
DMDトレーニング目標の厳密な分解を通じて、CFGが望まれる数ステップのパフォーマンスに要求されるテキスト・ツー・イメージ生成のような複雑なタスクにおいて、数ステップ蒸留の第一のドライバは分布整合ではなく、これまで見過ごされていたコンポーネントがCFG拡張(CA)であることを明らかにした。
この用語は蒸留の核となる「エンジン」として機能し、分散マッチング(DM)用語は「レギュラライザ」として機能し、トレーニングの安定性を保証し、アーティファクトを緩和する。
DM項が高効率な正規化器であるにもかかわらず、より単純な非パラメトリック制約やGANに基づく目的は、異なるトレードオフがあるにもかかわらず、同じ安定化機能として機能できることを実証することによって、このデカップリングをさらに検証する。
この労働の分離は、両方の用語の性質をより原理的に分析する動機となり、より体系的で深い理解へと繋がる。
この新たな理解により、エンジンとレギュレータのノイズスケジュールを分離するなど、蒸留工程の基本的な変更が提案され、さらなる性能向上が期待できる。
特に,本手法はZ-Image(https://github.com/Tongyi-MAI/Z-Image )プロジェクトによって,上位8段階の画像生成モデルの開発に採用され,その一般化とロバスト性を実証的に検証している。
関連論文リスト
- From Structure to Detail: Hierarchical Distillation for Efficient Diffusion Model [18.782919607372328]
軌道ベースおよび分布ベースのステップ蒸留法は解決策を提供する。
軌道ベース法は地球構造を保ちながら「ロッキー圧縮機」として機能する
我々はそれらを新しい階層蒸留フレームワークの相乗的コンポーネントに再キャストする。
論文 参考訳(メタデータ) (2025-11-12T03:12:06Z) - Knowledge Distillation of Uncertainty using Deep Latent Factor Model [10.148306002388196]
ガウス蒸留と呼ばれる新しい流通蒸留法を導入する。
これは、Dep Latent Factor Model (DLF)と呼ばれる特殊なガウス過程による教師のアンサンブルの分布を推定する。
複数のベンチマークデータセットを用いて,提案したガウス蒸留が既存のベースラインより優れていることを示す。
論文 参考訳(メタデータ) (2025-10-22T06:46:59Z) - Revisiting Diffusion Models: From Generative Pre-training to One-Step Generation [2.3359837623080613]
本研究は,拡散訓練を生成前訓練の一形態と見なすことができることを示す。
パラメータの85%が凍結した事前学習モデルの微調整により、ワンステップ生成モデルを作成する。
論文 参考訳(メタデータ) (2025-06-11T03:55:26Z) - Adding Additional Control to One-Step Diffusion with Joint Distribution Matching [58.37264951734603]
JDMは、画像-条件関節分布間の逆KL分散を最小化する新しいアプローチである。
トラクタブルな上限を導出することにより、JDMは条件学習から忠実度学習を分離する。
この非対称蒸留方式により,一段階の生徒が教師モデルに未知の制御を処理できるようになる。
論文 参考訳(メタデータ) (2025-03-09T15:06:50Z) - Distilling Diffusion Models into Conditional GANs [90.76040478677609]
複雑な多段階拡散モデルを1段階条件付きGAN学生モデルに蒸留する。
E-LatentLPIPSは,拡散モデルの潜在空間で直接動作する知覚的損失である。
我々は, 最先端の1ステップ拡散蒸留モデルよりも優れた1ステップ発生器を実証した。
論文 参考訳(メタデータ) (2024-05-09T17:59:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。