論文の概要: Reinforcing Few-step Generators via Reward-Tilted Distribution Matching
- arxiv url: http://arxiv.org/abs/2605.26108v2
- Date: Thu, 28 May 2026 17:54:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:54.650912
- Title: Reinforcing Few-step Generators via Reward-Tilted Distribution Matching
- Title(参考訳): 逆回転分布マッチングによる数段発電機の補強
- Authors: Yushi Huang, Xiangxin Zhou, Ruoyu Wang, Chi Zhang, Jun Zhang, Tianyu Pang,
- Abstract要約: RTDMD (Reward-Tilted Distribution Matching Distillation) を提案する。
報奨型教師分布へのKL分散の最小化は,自然に分布マッチング項と報奨項に分解されることを示す。
SD3、SD3.5、FLUX.2の実験は、RTDMDが嗜好、美学、作曲のメトリクスをまたいだ新しい最先端の結果を確立することを示した。
- 参考スコア(独自算出の注目度): 34.875805803270524
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in few-step diffusion distillation have enabled efficient image generation, yet aligning these models with human preferences remains challenging. We propose Reward-Tilted Distribution Matching Distillation (RTDMD), a two-stage framework that unifies distribution matching distillation with reward-guided reinforcement learning for few-step flow generators. We show that minimizing the KL divergence to a reward-tilted teacher distribution naturally decomposes into a distribution matching term and a reward maximization term. In the first stage, we introduce Ambient-Consistent Distribution Matching Distillation (AC-DMD), which performs subinterval-wise distribution matching and augments the fake score objective with a consistency regularizer to help the fake score model track the shifting generator distribution under limited updates. In the second stage, we jointly optimize both terms: for the reward maximization term, we derive a hybrid policy gradient that combines a GRPO-style estimator for the stochastic intermediate transitions with direct reward backpropagation through the deterministic final step, and further introduce step-subset GRPO (SubGRPO) to reduce variance. Experiments on SD3, SD3.5, and FLUX.2 demonstrate that RTDMD establishes new state-of-the-art results across preference, aesthetic, and compositional metrics with only 4 inference steps, outperforming previous few-step text-to-image generation methods. Code and models are available at https://github.com/Harahan/RTDMD.
- Abstract(参考訳): 数段階の拡散蒸留の最近の進歩により、効率的な画像生成が可能になったが、これらのモデルと人間の嗜好との整合性は依然として困難である。
本稿では,数段フロージェネレータにおける分散マッチング蒸留と報酬誘導強化学習を統合化するための2段階フレームワークであるReward-Tilted Distribution Matching Distillation (RTDMD)を提案する。
報奨型教師分布へのKL分散の最小化は、分布マッチング項と報奨最大化項に自然分解されることを示す。
第1段階では,Ambient-Consistent Distribution Matching Distillation (AC-DMD)を導入し,内部分布マッチングを行い,フェイクスコアの目標を整合正則化器で拡張し,フェイクスコアモデルが限られた更新下でのシフト生成物分布を追跡するのを支援する。
第2段階では、報酬の最大化項に対して、確率的中間遷移に対するGRPO型推定器と、決定論的最終段階を通じて直接報酬のバックプロパゲーションを組み合わせたハイブリッドポリシー勾配を導出し、さらに、分散を低減するためのステップサブセットGRPO(SubGRPO)を導入する。
SD3, SD3.5, FLUX.2の実験では、RTDMDは4つの推論ステップしか持たず、従来の数ステップのテキスト・ツー・イメージ生成方法よりも優れていた。
コードとモデルはhttps://github.com/Harahan/RTDMDで公開されている。
関連論文リスト
- Diff-Instruct with Diffused Reward: Towards Principled One-step Generator RL [9.05769414150212]
ワンステップのテキスト・ツー・イメージ生成により、顕著な効率と品質でリアルタイムな合成が可能になった。
画像空間報酬最適化と拡散雑音空間分布マッチングを組み合わせた1ステップジェネレータの事前強化学習法について検討した。
KL最小化から導かれるデータフリーな軌道レベルのアライメントフレームワークであるDiff-Instruct with Diffused Reward (DIDR)を提案する。
論文 参考訳(メタデータ) (2026-05-18T21:26:33Z) - Continuous-Time Distribution Matching for Few-Step Diffusion Distillation [57.28746398500951]
本稿では,CDM(Continuous-Time Distribution Matching)を導入し,DMDフレームワークを個別アンカーから連続最適化へ移行する。
まず、固定離散スケジュールをランダム長の動的連続スケジュールに置き換える。
第二に、学生の速度場を介して外挿された潜伏者に対してアクティブな軌道外マッチングを行う連続時間アライメント目的を提案する。
論文 参考訳(メタデータ) (2026-05-07T14:56:39Z) - Guiding Distribution Matching Distillation with Gradient-Based Reinforcement Learning [41.982957134224904]
拡散蒸留は、数ステップの発電では大きな可能性を秘めているが、サンプリング速度のために品質を犠牲にすることが多い。
GDMDは, 原画素出力よりも蒸留勾配を優先することで, 報酬機構を再定義する新しいフレームワークである。
我々のモデルは、その多段階教師の質を上回り、GenEvalと人為的基準の指標において、従来のDMDRよりもかなり上回っている。
論文 参考訳(メタデータ) (2026-04-21T02:57:13Z) - Effective Test-Time Scaling of Discrete Diffusion through Iterative Refinement [51.54933696252104]
離散拡散に適した新しいテスト時間スケーリング手法であるイテレーティブ・リワードガイドリファインメント(IterRef)を導入する。
我々は、このプロセスをMultiple-Try Metropolisフレームワークで形式化し、報酬整合分布への収束を証明した。
IterRefは計算予算の低さで大幅に上昇し、最先端のベースラインをはるかに超えている。
論文 参考訳(メタデータ) (2025-11-04T02:33:23Z) - Phased DMD: Few-step Distribution Matching Distillation via Score Matching within Subintervals [48.14879329270912]
フェーズドDMDは、Mixture-of-Expertsでフェーズワイド蒸留のアイデアを橋渡しする多段階蒸留フレームワークである。
位相MDDはプログレッシブな分布マッチングとサブインターバル内のスコアマッチングという2つの主要なアイデアに基づいて構築されている。
実験結果から,第2相DMDはDMDよりも出力の多様性を保ちつつ,重要な生成能力を保っていることが明らかとなった。
論文 参考訳(メタデータ) (2025-10-31T17:55:10Z) - Score Distillation of Flow Matching Models [67.86066177182046]
我々は、Score Identity Distillation (SiD) を事前訓練されたテキスト対画像フローマッチングモデルに拡張する。
SiDは、データフリーとデータアシストの両方の設定で、これらのモデルですぐに使える。
これは、スコア蒸留がテキストと画像のフローマッチングモデルに広く適用されるという最初の体系的な証拠を提供する。
論文 参考訳(メタデータ) (2025-09-29T17:45:48Z) - Adversarial Distribution Matching for Diffusion Distillation Towards Efficient Image and Video Synthesis [65.77083310980896]
本稿では, 実測値と偽測値の間に潜時予測を整列させる適応分布マッチング (ADM) を提案する。
提案手法は,DMD2と比較してSDXLの1ステップ性能に優れ,GPU時間が少ない。
SD3-Medium, SD3.5-Large, CogVideoX に多段階の ADM 蒸留を適用した実験では, 画像と映像の効率的な合成に向けた新しいベンチマークが設定された。
論文 参考訳(メタデータ) (2025-07-24T16:45:05Z) - Broadening Target Distributions for Accelerated Diffusion Models via a Novel Analysis Approach [49.97755400231656]
本研究では,新しいDDPMサンプリング器が,これまで考慮されていなかった3種類の分散クラスに対して高速化性能を実現することを示す。
この結果から, DDPM型加速サンプリング器におけるデータ次元$d$への依存性が改善された。
論文 参考訳(メタデータ) (2024-02-21T16:11:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。