論文の概要: Diversity-Preserved Distribution Matching Distillation for Fast Visual Synthesis
- arxiv url: http://arxiv.org/abs/2602.03139v1
- Date: Tue, 03 Feb 2026 05:45:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.271156
- Title: Diversity-Preserved Distribution Matching Distillation for Fast Visual Synthesis
- Title(参考訳): 高速視覚合成のための多様性保存分布マッチング蒸留法
- Authors: Tianhe Wu, Ruibin Li, Lei Zhang, Kede Ma,
- Abstract要約: 分散整合蒸留(DMD)は、低推論コストで高品質な生成を可能にするために、多段階発生器をその数段階と整列させる。
本稿では, 蒸留工程の役割を明示的に解消する役割分離蒸留フレームワークを提案する。
本手法は, 単純さに拘わらず, サンプルの多様性を保ちながら, テキスト・画像実験における最先端の手法と同等の視覚的品質を維持しながら, 標本の多様性を保っている。
- 参考スコア(独自算出の注目度): 33.341277146439275
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Distribution matching distillation (DMD) aligns a multi-step generator with its few-step counterpart to enable high-quality generation under low inference cost. However, DMD tends to suffer from mode collapse, as its reverse-KL formulation inherently encourages mode-seeking behavior, for which existing remedies typically rely on perceptual or adversarial regularization, thereby incurring substantial computational overhead and training instability. In this work, we propose a role-separated distillation framework that explicitly disentangles the roles of distilled steps: the first step is dedicated to preserving sample diversity via a target-prediction (e.g., v-prediction) objective, while subsequent steps focus on quality refinement under the standard DMD loss, with gradients from the DMD objective blocked at the first step. We term this approach Diversity-Preserved DMD (DP-DMD), which, despite its simplicity -- no perceptual backbone, no discriminator, no auxiliary networks, and no additional ground-truth images -- preserves sample diversity while maintaining visual quality on par with state-of-the-art methods in extensive text-to-image experiments.
- Abstract(参考訳): 分散整合蒸留(DMD)は、低推論コストで高品質な生成を可能にするために、多段階発生器をその数段階と整列させる。
しかし、DMDはモード崩壊に悩まされがちであり、逆KLの定式化は本質的にはモード探索の振る舞いを奨励し、既存の治療法は知覚的あるいは対角的正則化に依存しているため、計算上のオーバーヘッドとトレーニングの不安定が生じる。
本研究は, 蒸留工程の役割を明示的に解消する役割分離蒸留フレームワークを提案する。第1段階は, 目標予測(eg, v-prediction)目標による試料の多様性の保存に向け, 続いて第1段階は, DMD目標からの勾配をブロックして, 標準DMD損失による品質改善に焦点を当てる。
本手法は, 単純さ, 知覚バックボーンなし, 識別器なし, 補助的ネットワークなし, 付加的な地味画像のない, 多様性保存型MDD(DP-DMD)でありながら, 広範囲なテキスト・画像実験において, 最先端の手法と同等の視覚的品質を維持しながら, サンプルの多様性を保っている。
関連論文リスト
- Decoupled DMD: CFG Augmentation as the Spear, Distribution Matching as the Shield [54.328202401611264]
拡散モデル蒸留は、効率的な数段・単段発生装置を作るための強力な技術として登場した。
数段蒸留の原動力は分布一致ではなく,これまで見過ごされていた成分であるCFG増量 (CFG Augmentation, CA) であることを示す。
本稿では, エンジンとレギュレータのノイズスケジュールを分離するなど, 蒸留工程の原理的な修正を提案し, 更なる性能向上を実現した。
論文 参考訳(メタデータ) (2025-11-27T18:24:28Z) - Distribution Matching Distillation Meets Reinforcement Learning [30.960105413888943]
本稿では,RL(Reinforcement Learning)技術と蒸留プロセスを組み合わせた新しいフレームワークDMDRを提案する。
数ステップのジェネレータのRLでは、MDD損失自体が従来のジェネレータよりも効果的な正規化であることを示す。
実験により、DMDRは目立った視覚的品質を達成でき、数ステップの手法間のコヒーレンスを促進でき、多ステップの教師を超えるパフォーマンスを発揮できることが示された。
論文 参考訳(メタデータ) (2025-11-17T17:59:54Z) - Phased DMD: Few-step Distribution Matching Distillation via Score Matching within Subintervals [48.14879329270912]
フェーズドDMDは、Mixture-of-Expertsでフェーズワイド蒸留のアイデアを橋渡しする多段階蒸留フレームワークである。
位相MDDはプログレッシブな分布マッチングとサブインターバル内のスコアマッチングという2つの主要なアイデアに基づいて構築されている。
実験結果から,第2相DMDはDMDよりも出力の多様性を保ちつつ,重要な生成能力を保っていることが明らかとなった。
論文 参考訳(メタデータ) (2025-10-31T17:55:10Z) - Adversarial Distribution Matching for Diffusion Distillation Towards Efficient Image and Video Synthesis [65.77083310980896]
本稿では, 実測値と偽測値の間に潜時予測を整列させる適応分布マッチング (ADM) を提案する。
提案手法は,DMD2と比較してSDXLの1ステップ性能に優れ,GPU時間が少ない。
SD3-Medium, SD3.5-Large, CogVideoX に多段階の ADM 蒸留を適用した実験では, 画像と映像の効率的な合成に向けた新しいベンチマークが設定された。
論文 参考訳(メタデータ) (2025-07-24T16:45:05Z) - Restoration Score Distillation: From Corrupted Diffusion Pretraining to One-Step High-Quality Generation [82.39763984380625]
Score Distillation (DSD) の原理的一般化である textitRestoration Score Distillation (RSD) を提案する。
RSDは、ぼやけた画像、不完全画像、低解像度画像など、広範囲の汚職タイプに対応している。
自然と科学の両方のデータセットの様々な復元作業において、教師モデルを一貫して上回っている。
論文 参考訳(メタデータ) (2025-05-19T17:21:03Z) - Scale-wise Distillation of Diffusion Models [26.372118630648338]
SwDは拡散モデルのためのスケールワイズ蒸留フレームワークである。
拡散に基づく数ステップジェネレータに、次世代の予測アイデアを効果的に活用する。
論文 参考訳(メタデータ) (2025-03-20T17:54:02Z) - DDIL: Diversity Enhancing Diffusion Distillation With Imitation Learning [57.3467234269487]
拡散モデルは生成モデリング(例:text-to-image)に優れるが、サンプリングには複数の遅延ネットワークパスが必要である。
プログレッシブ蒸留や一貫性蒸留は、パスの数を減らして将来性を示す。
DDILの一貫性は, プログレッシブ蒸留 (PD), 潜在整合モデル (LCM) および分散整合蒸留 (DMD2) のベースラインアルゴリズムにより向上することを示した。
論文 参考訳(メタデータ) (2024-10-15T18:21:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。