論文の概要: $R_{dm}$: Re-conceptualizing Distribution Matching as a Reward for Diffusion Distillation
- arxiv url: http://arxiv.org/abs/2603.28460v1
- Date: Mon, 30 Mar 2026 14:01:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.432465
- Title: $R_{dm}$: Re-conceptualizing Distribution Matching as a Reward for Diffusion Distillation
- Title(参考訳): $R_{dm}$:拡散蒸留のリワードとしての分散マッチングの再概念化
- Authors: Linqian Fan, Peiqin Sun, Tiancheng Wen, Shun Lu, Chengru Song,
- Abstract要約: 拡散モデルは、最先端の生成性能を達成するが、その遅い反復サンプリングプロセスによってボトルネックとなる。
最近のアプローチでは、強化学習(RL)を統合して、この天井を壊そうとしている。
本稿では,分布マッチングを報酬として再認識し,$R_dm$と表記する新しいパラダイムを提案する。
- 参考スコア(独自算出の注目度): 9.105357939499683
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models achieve state-of-the-art generative performance but are fundamentally bottlenecked by their slow iterative sampling process. While diffusion distillation techniques enable high-fidelity few-step generation, traditional objectives often restrict the student's performance by anchoring it solely to the teacher. Recent approaches have attempted to break this ceiling by integrating Reinforcement Learning (RL), typically through a simple summation of distillation and RL objectives. In this work, we propose a novel paradigm by reconceptualizing distribution matching as a reward, denoted as $R_{dm}$. This unified perspective bridges the algorithmic gap between Diffusion Matching Distillation (DMD) and RL, providing several key benefits. (1) Enhanced optimization stability: we introduce Group Normalized Distribution Matching (GNDM), which adapts standard RL group normalization to stabilize $R_{dm}$ estimation. By leveraging group-mean statistics, GNDM establishes a more robust and effective optimization direction. (2) Seamless reward integration: our reward-centric formulation inherently supports adaptive weighting mechanisms, allowing flexible combination of DMD with external reward models. (3) Improved sampling efficiency: by aligning with RL principles, the framework readily incorporates importance sampling (IS), leading to a significant boost in sampling efficiency. Extensive experiments demonstrate that GNDM outperforms vanilla DMD, reducing the FID by 1.87. Furthermore, our multi-reward variant, GNDMR, surpasses existing baselines by achieving a strong balance between aesthetic quality and fidelity, reaching a peak HPS of 30.37 and a low FID-SD of 12.21. Overall, $R_{dm}$ provides a flexible, stable, and efficient framework for real-time high-fidelity synthesis. Code will be released upon publication.
- Abstract(参考訳): 拡散モデルは最先端の生成性能を達成するが、その遅い反復サンプリングプロセスによって基本的にボトルネックとなる。
拡散蒸留技術は高忠実度数ステップの生成を可能にするが、従来の目的は教師のみに固定することで生徒のパフォーマンスを制限することがしばしばある。
近年のアプローチでは, 蒸留とRL目標の単純な和で強化学習(RL)を統合することで, この天井を壊そうとしている。
本稿では、分布マッチングを報酬として再認識し、$R_{dm}$と表記する新しいパラダイムを提案する。
この統合された視点は拡散マッチング蒸留(DMD)とRLの間のアルゴリズム的なギャップを埋め、いくつかの重要な利点を提供する。
1) 最適化安定性の向上: 標準RL群正規化を適用して$R_{dm}$推定を安定化するグループ正規化分布マッチング(GNDM)を導入する。
グループ平均統計を利用して、GNDMはより堅牢で効果的な最適化の方向性を確立する。
2)報酬中心の定式化は適応重み付け機構を本質的にサポートし,MDDと外部報酬モデルとの柔軟な組み合わせを可能にした。
(3) サンプリング効率の向上: RL 原則と整合することにより, 重要サンプリング(IS)を容易に組み込むことで, サンプリング効率が大幅に向上する。
大規模な実験により、GNDMはバニラDMDより優れ、FIDが1.87減少することが示された。
さらに, マルチリワード型であるGNDMRは, 審美的品質と忠実性のバランスを保ち, ピークHPSが30.37, 低FID-SDが12.21に達した。
全体として、$R_{dm}$は、リアルタイム高忠実合成のための柔軟で安定で効率的なフレームワークを提供する。
コードは出版時に公開される。
関連論文リスト
- Beyond VLM-Based Rewards: Diffusion-Native Latent Reward Modeling [58.59644539594293]
DiNa-LRMは、雑音拡散状態に基づいて好み学習を直接定式化する拡散ネイティブ潜在報酬モデルである。
本手法は拡散ノイズ依存の不確実性を伴う雑音校正サーストンの可能性を導入する。
画像アライメントベンチマーク全体において、DiNa-LRMは既存の拡散ベースの報酬ベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2026-02-11T18:57:29Z) - Data-regularized Reinforcement Learning for Diffusion Models at Scale [99.01056178660538]
データ正規化拡散強化学習(Data-regularized Diffusion Reinforcement Learning, DDRL)は, フォワードKLの分散を利用して, 政策を非政治データ分布に固定する新しいフレームワークである。
100万時間以上のGPU実験と1万回の二重盲検評価により、DDRLは、RLで見られる報酬ハックを緩和しながら、報酬を大幅に改善することを示した。
論文 参考訳(メタデータ) (2025-12-03T23:45:07Z) - Large Scale Diffusion Distillation via Score-Regularized Continuous-Time Consistency [60.74505433956616]
連続時間一貫性モデル(sCM)は理論的に原理化され、学術規模の拡散を加速するために実証的に強力である。
まず並列性互換なFlashAttention-2 JVPカーネルを開発し、100億以上のパラメータと高次元ビデオタスクを持つモデル上でsCMトレーニングを可能にする。
本稿では, スコア蒸留を長軸正則化器として組み込んだスコア規則化連続時間一貫性モデル(rCM)を提案する。
論文 参考訳(メタデータ) (2025-10-09T16:45:30Z) - Enhancing Reasoning for Diffusion LLMs via Distribution Matching Policy Optimization [44.14678335188207]
拡散大言語モデル(dLLM)は自己回帰大言語モデル(AR-LLM)の代替として有望である
強化学習(RL)は、推論などの重要なタスクにおいて、AR-LLMと同等のパフォーマンスを達成するために、dLLMにとって重要なコンポーネントである。
本稿では,原理的かつ理論的に基礎付けられたRL微調整法である分散マッチングポリシー最適化(DMPO)を提案する。
論文 参考訳(メタデータ) (2025-10-09T13:59:50Z) - MMR1: Enhancing Multimodal Reasoning with Variance-Aware Sampling and Open Resources [113.33902847941941]
VAS (Variance-Aware Sampling) は、Variance Promotion Score (VPS) によって導かれるデータ選択戦略である。
我々は、1.6MのCoT冷間開始データと15kのRLQAペアを含む大規模かつ慎重にキュレートされたリソースをリリースする。
数学的推論ベンチマークによる実験では、キュレートされたデータと提案されたVASの有効性が示されている。
論文 参考訳(メタデータ) (2025-09-25T14:58:29Z) - VARD: Efficient and Dense Fine-Tuning for Diffusion Models with Value-based RL [28.95582264086289]
VAlue-based Reinforced Diffusion (VARD) は、中間状態から報酬の期待を予測する値関数を初めて学習する新しい手法である。
提案手法は,バックプロパゲーションによる効果的な,安定したトレーニングを可能にしつつ,事前訓練されたモデルに近づき続ける。
論文 参考訳(メタデータ) (2025-05-21T17:44:37Z) - Flow-GRPO: Training Flow Matching Models via Online RL [80.62659379624867]
本稿では,オンライン政策強化学習をフローマッチングモデルに統合する最初の方法であるFlow-GRPOを提案する。
提案手法では,(1)決定論的正規微分方程式を同値な微分方程式に変換するODE-to-SDE変換と,(2)推論ステップの数を維持しながらトレーニングの段階を短縮するDenoising Reduction戦略の2つの主要な戦略を用いる。
論文 参考訳(メタデータ) (2025-05-08T17:58:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。