論文の概要: Guiding Distribution Matching Distillation with Gradient-Based Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2604.19009v1
- Date: Tue, 21 Apr 2026 02:57:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 22:41:49.58302
- Title: Guiding Distribution Matching Distillation with Gradient-Based Reinforcement Learning
- Title(参考訳): 勾配型強化学習による配向マッチング蒸留の誘導
- Authors: Linwei Dong, Ruoyu Guo, Ge Bai, Zehuan Yuan, Yawei Luo, Changqing Zou,
- Abstract要約: 拡散蒸留は、数ステップの発電では大きな可能性を秘めているが、サンプリング速度のために品質を犠牲にすることが多い。
GDMDは, 原画素出力よりも蒸留勾配を優先することで, 報酬機構を再定義する新しいフレームワークである。
我々のモデルは、その多段階教師の質を上回り、GenEvalと人為的基準の指標において、従来のDMDRよりもかなり上回っている。
- 参考スコア(独自算出の注目度): 41.982957134224904
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion distillation, exemplified by Distribution Matching Distillation (DMD), has shown great promise in few-step generation but often sacrifices quality for sampling speed. While integrating Reinforcement Learning (RL) into distillation offers potential, a naive fusion of these two objectives relies on suboptimal raw sample evaluation. This sample-based scoring creates inherent conflicts with the distillation trajectory and produces unreliable rewards due to the noisy nature of early-stage generation. To overcome these limitations, we propose GDMD, a novel framework that redefines the reward mechanism by prioritizing distillation gradients over raw pixel outputs as the primary signal for optimization. By reinterpreting the DMD gradients as implicit target tensors, our framework enables existing reward models to directly evaluate the quality of distillation updates. This gradient-level guidance functions as an adaptive weighting that synchronizes the RL policy with the distillation objective, effectively neutralizing optimization divergence. Empirical results show that GDMD sets a new SOTA for few-step generation. Specifically, our 4-step models outperform the quality of their multi-step teacher and substantially exceed previous DMDR results in GenEval and human-preference metrics, exhibiting strong scalability potential.
- Abstract(参考訳): 拡散蒸留はDMD(Distributed Matching Distillation)で例示されているが, 数段生成において大きな可能性を秘めているが, サンプリング速度の低下により品質が低下することがしばしばある。
Reinforcement Learning (RL) を蒸留に組み込むことは潜在的に有益であるが、これらの2つの目的の単純な融合は、最適下サンプル評価に依存している。
このサンプルに基づくスコアリングは, 蒸留軌道と固有の矛盾を生じさせ, 早期発生のノイズの性質から, 信頼できない報酬をもたらす。
これらの制限を克服するために,GDMDを提案する。GDMDは,原画素出力に対する蒸留勾配を最適化の主信号として優先順位付けすることで,報酬機構を再定義する新しいフレームワークである。
DMD勾配を暗黙的なターゲットテンソルとして再解釈することにより、既存の報酬モデルで蒸留更新の品質を直接評価することができる。
この勾配レベルの誘導は、RLポリシーを蒸留目標と同期させる適応重み付けとして機能し、最適化のばらつきを効果的に中和する。
実験の結果、GDMDは数ステップ生成のための新しいSOTAを設定できることがわかった。
具体的には、我々の4段階モデルは、彼らの多段階教師の質よりも優れており、GenEvalや人為的参照の指標において、従来のDMDRよりもかなり上回っており、高いスケーラビリティの可能性が示されています。
関連論文リスト
- $R_\text{dm}$: Re-conceptualizing Distribution Matching as a Reward for Diffusion Distillation [9.105357939499683]
拡散モデルは最先端の生成性能を達成するが、その遅くて反復的なサンプリングプロセスによってボトルネックとなる。
最近のアプローチでは、強化学習(RL)を統合して、この天井を壊そうとしている。
本稿では,分散マッチングを報酬として再概念化し,$R_textdm$と表記する新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2026-03-30T14:01:31Z) - Phased DMD: Few-step Distribution Matching Distillation via Score Matching within Subintervals [48.14879329270912]
フェーズドDMDは、Mixture-of-Expertsでフェーズワイド蒸留のアイデアを橋渡しする多段階蒸留フレームワークである。
位相MDDはプログレッシブな分布マッチングとサブインターバル内のスコアマッチングという2つの主要なアイデアに基づいて構築されている。
実験結果から,第2相DMDはDMDよりも出力の多様性を保ちつつ,重要な生成能力を保っていることが明らかとなった。
論文 参考訳(メタデータ) (2025-10-31T17:55:10Z) - Adversarial Distribution Matching for Diffusion Distillation Towards Efficient Image and Video Synthesis [65.77083310980896]
本稿では, 実測値と偽測値の間に潜時予測を整列させる適応分布マッチング (ADM) を提案する。
提案手法は,DMD2と比較してSDXLの1ステップ性能に優れ,GPU時間が少ない。
SD3-Medium, SD3.5-Large, CogVideoX に多段階の ADM 蒸留を適用した実験では, 画像と映像の効率的な合成に向けた新しいベンチマークが設定された。
論文 参考訳(メタデータ) (2025-07-24T16:45:05Z) - Restoration Score Distillation: From Corrupted Diffusion Pretraining to One-Step High-Quality Generation [82.39763984380625]
Score Distillation (DSD) の原理的一般化である textitRestoration Score Distillation (RSD) を提案する。
RSDは、ぼやけた画像、不完全画像、低解像度画像など、広範囲の汚職タイプに対応している。
自然と科学の両方のデータセットの様々な復元作業において、教師モデルを一貫して上回っている。
論文 参考訳(メタデータ) (2025-05-19T17:21:03Z) - Denoising Score Distillation: From Noisy Diffusion Pretraining to One-Step High-Quality Generation [82.39763984380625]
低品質データから高品質な生成モデルをトレーニングするための驚くほど効果的で斬新なアプローチであるDSD(Denoising score distillation)を導入する。
DSDはノイズの多い劣化したサンプルにのみ拡散モデルを事前訓練し、精製されたクリーンな出力を生成することができる1ステップの発電機に蒸留する。
論文 参考訳(メタデータ) (2025-03-10T17:44:46Z) - Learning Energy-Based Models by Cooperative Diffusion Recovery Likelihood [64.95663299945171]
高次元データに基づくエネルギーベースモデル(EBM)の訓練は、困難かつ時間を要する可能性がある。
EBMと、GANや拡散モデルのような他の生成フレームワークとの間には、サンプル品質に顕著なギャップがある。
本研究では,協調拡散回復可能性 (CDRL) を提案する。
論文 参考訳(メタデータ) (2023-09-10T22:05:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。