論文の概要: AdvDMD: Adversarial Reward Meets DMD For High-Quality Few-Step Generation
- arxiv url: http://arxiv.org/abs/2604.28126v1
- Date: Wed, 29 Apr 2026 16:56:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 16:31:54.217038
- Title: AdvDMD: Adversarial Reward Meets DMD For High-Quality Few-Step Generation
- Title(参考訳): AdvDMD:Adversarial RewardがDMDと出会い、高品質なFew-Step生成が可能に
- Authors: Xu Wang, Zexian Li, Litong Gong, Tiezheng Ge, Zhijie Deng,
- Abstract要約: 拡散モデルは、広範囲なサンプリングステップを犠牲にして、より優れた世代品質を提供する。
本稿ではDMD蒸留とRLをシームレスに統一するAdvDMDを提案する。
我々は、より安定的で効率的なトレーニングを実現するために、統一されたSDE後方シミュレーションとMDDとRLの異なるトレーニングスケジュールを採用する。
- 参考スコア(独自算出の注目度): 29.31853528513521
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models offer superior generation quality at the expense of extensive sampling steps. Distillation methods, with Distribution Matching Distillation (DMD) as a popular example, can mitigate this issue, but performance degradation remains pronounced when sampling steps are limited. Reinforcement learning (RL) has been leveraged to improve the few-step generation quality during distillation, with the potential to even surpass the performance of the teacher model. However, existing approaches are combinatorial in nature, merely integrating an RL process with the distillation process, which introduces unnecessary complexities. To address this gap, we propose AdvDMD, a method that seamlessly unifies DMD distillation and RL. Specifically, AdvDMD employs the adversarially trained discriminator from DMD2 as the reward model, which assigns low scores to generated images and high scores to real ones. It is trained on both intermediate and final states of the denoising process and updated online with the distilled model, enabling a holistic supervision of the sampling trajectories and mitigating reward hacking. We adopt a unified SDE backward simulation and a different training schedule for DMD and RL to enable a more stable and efficient training. Experimental results demonstrate that the 4-step AdvDMD outperforms the original 40-step model for SD3.5 on DPG-Bench, while achieving significant performance gains for SD3 on the GenEval. On Qwen-Image, our 2-step AdvDMD achieves superior performance over TwinFlow.
- Abstract(参考訳): 拡散モデルは、広範囲なサンプリングステップを犠牲にして、より優れた世代品質を提供する。
分散マッチング蒸留 (DMD) が一般的な例である蒸留法は, この問題を緩和することができるが, サンプリング工程が限定されている場合, 性能劣化が顕著である。
強化学習 (Reinforcement Learning, RL) は, 蒸留における数段階の生成品質の向上に利用されており, 教師モデルの性能を超越する可能性もある。
しかし、既存のアプローチは本質的には組合せ的であり、RLプロセスと蒸留プロセスを統合するだけで不要な複雑さをもたらす。
そこで本研究では,DMD蒸留とRLをシームレスに統一する手法であるAdvDMDを提案する。
具体的には、AdvDMDは、DMD2の逆訓練された判別器を報酬モデルとして採用し、低得点を生成された画像に割り当て、高得点を実画像に割り当てる。
復調過程の中間状態と最終状態の両方をトレーニングし、蒸留モデルでオンラインで更新し、サンプリング軌跡の全体的監視と報酬ハッキングの緩和を可能にする。
我々は、より安定的で効率的なトレーニングを実現するために、統一されたSDE後方シミュレーションとMDDとRLの異なるトレーニングスケジュールを採用する。
実験の結果,4ステップのAdvDMDはDPG-Bench上でのSD3.5の40ステップモデルよりも優れ,GenEval上でのSD3の性能向上を実現していることがわかった。
Qwen-Imageでは、2ステップのAdvDMDがTwinFlowよりも優れたパフォーマンスを実現しています。
関連論文リスト
- Flash-DMD: Towards High-Fidelity Few-Step Image Generation with Efficient Distillation and Joint Reinforcement Learning [32.32567390728913]
拡散モデル(Diffusion Models)は、生成モデルの主要なクラスとして登場した。
タイムステップ蒸留は、生成を加速する有望な技術であるが、広範囲の訓練を必要とし、画質の劣化につながることが多い。
蒸留と共同RLによる精製による高速収束を実現する新しいフレームワークであるFlash-DMDを紹介する。
論文 参考訳(メタデータ) (2025-11-25T17:47:11Z) - Distribution Matching Distillation Meets Reinforcement Learning [30.960105413888943]
本稿では,RL(Reinforcement Learning)技術と蒸留プロセスを組み合わせた新しいフレームワークDMDRを提案する。
数ステップのジェネレータのRLでは、MDD損失自体が従来のジェネレータよりも効果的な正規化であることを示す。
実験により、DMDRは目立った視覚的品質を達成でき、数ステップの手法間のコヒーレンスを促進でき、多ステップの教師を超えるパフォーマンスを発揮できることが示された。
論文 参考訳(メタデータ) (2025-11-17T17:59:54Z) - Phased DMD: Few-step Distribution Matching Distillation via Score Matching within Subintervals [48.14879329270912]
フェーズドDMDは、Mixture-of-Expertsでフェーズワイド蒸留のアイデアを橋渡しする多段階蒸留フレームワークである。
位相MDDはプログレッシブな分布マッチングとサブインターバル内のスコアマッチングという2つの主要なアイデアに基づいて構築されている。
実験結果から,第2相DMDはDMDよりも出力の多様性を保ちつつ,重要な生成能力を保っていることが明らかとなった。
論文 参考訳(メタデータ) (2025-10-31T17:55:10Z) - Adversarial Distribution Matching for Diffusion Distillation Towards Efficient Image and Video Synthesis [65.77083310980896]
本稿では, 実測値と偽測値の間に潜時予測を整列させる適応分布マッチング (ADM) を提案する。
提案手法は,DMD2と比較してSDXLの1ステップ性能に優れ,GPU時間が少ない。
SD3-Medium, SD3.5-Large, CogVideoX に多段階の ADM 蒸留を適用した実験では, 画像と映像の効率的な合成に向けた新しいベンチマークが設定された。
論文 参考訳(メタデータ) (2025-07-24T16:45:05Z) - Unleashing the Power of One-Step Diffusion based Image Super-Resolution via a Large-Scale Diffusion Discriminator [81.81748032199813]
拡散モデルは実世界の超解像(Real-ISR)に優れた性能を示した
SRのための大規模textbfDiscriminator を用いた One-Step textbfDiffusion モデルを提案する。
我々の判別器は、潜伏空間における拡散モデルの任意の時間ステップからノイズのある特徴を抽出することができる。
論文 参考訳(メタデータ) (2024-10-05T16:41:36Z) - Improved Distribution Matching Distillation for Fast Image Synthesis [54.72356560597428]
この制限を解除し、MDDトレーニングを改善する一連の技術であるMDD2を紹介する。
まず、回帰損失と高価なデータセット構築の必要性を排除します。
第2に, GAN損失を蒸留工程に統合し, 生成した試料と実画像との識別を行う。
論文 参考訳(メタデータ) (2024-05-23T17:59:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。