論文の概要: Rethinking the Design Space of Reinforcement Learning for Diffusion Models: On the Importance of Likelihood Estimation Beyond Loss Design
- arxiv url: http://arxiv.org/abs/2602.04663v1
- Date: Wed, 04 Feb 2026 15:36:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.59441
- Title: Rethinking the Design Space of Reinforcement Learning for Diffusion Models: On the Importance of Likelihood Estimation Beyond Loss Design
- Title(参考訳): 拡散モデルにおける強化学習のデザイン空間の再考:損失設計を超えての同義性推定の重要性について
- Authors: Jaemoo Choi, Yuchen Zhu, Wei Guo, Petr Molodyk, Bo Yuan, Jinbin Bai, Yi Xin, Molei Tao, Yongxin Chen,
- Abstract要約: 本稿では,政策段階の目標,可能性推定器,ロールアウトサンプリングスキームの3つの要因を解消し,RL設計空間を体系的に解析する。
最終生成標本からのみ計算されるエビデンス低境界モデル推定器(ELBO)を採用することが,有効,効率的,安定なRL最適化を実現する主要な要因であることを示す。
- 参考スコア(独自算出の注目度): 45.80068602880684
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning has been widely applied to diffusion and flow models for visual tasks such as text-to-image generation. However, these tasks remain challenging because diffusion models have intractable likelihoods, which creates a barrier for directly applying popular policy-gradient type methods. Existing approaches primarily focus on crafting new objectives built on already heavily engineered LLM objectives, using ad hoc estimators for likelihood, without a thorough investigation into how such estimation affects overall algorithmic performance. In this work, we provide a systematic analysis of the RL design space by disentangling three factors: i) policy-gradient objectives, ii) likelihood estimators, and iii) rollout sampling schemes. We show that adopting an evidence lower bound (ELBO) based model likelihood estimator, computed only from the final generated sample, is the dominant factor enabling effective, efficient, and stable RL optimization, outweighing the impact of the specific policy-gradient loss functional. We validate our findings across multiple reward benchmarks using SD 3.5 Medium, and observe consistent trends across all tasks. Our method improves the GenEval score from 0.24 to 0.95 in 90 GPU hours, which is $4.6\times$ more efficient than FlowGRPO and $2\times$ more efficient than the SOTA method DiffusionNFT without reward hacking.
- Abstract(参考訳): 強化学習は、テキスト・ツー・イメージ生成のような視覚的タスクの拡散とフローモデルに広く適用されてきた。
しかし、拡散モデルには難解な可能性があり、一般的なポリシー勾配型メソッドを直接適用する障壁が生じるため、これらのタスクは依然として困難である。
既存のアプローチは、アルゴリズム全体の性能にどのように影響するかを徹底的に調査することなく、おそらくはアドホックな推定器を用いて、既に高度に設計されたLLMの目的に基づいて構築された新しい目的の構築に重点を置いている。
本稿では,RL設計空間の系統的解析について,次の3つの要因を解き明かす。
一 政策段階の目的
二 推定者の可能性、及び
三 ロールアウトサンプリング方式
最終生成標本からのみ計算されるエビデンス・ローバウンド・モデル推定器(ELBO)を適用すれば、特定のポリシ・グラディエント・ロス関数の影響を上回り、有効で効率的で安定したRL最適化が可能となる。
SD 3.5 Medium を用いて複数の報奨評価を行い,全タスクにおける一貫した傾向を観察した。
我々の手法は、90GPU時間でGenEvalのスコアを0.24から0.95に改善し、FlowGRPOよりも4.6\times$、報酬ハックなしでDiffusionNFTよりも2.6\times$効率が良い。
関連論文リスト
- Effective Reinforcement Learning for Reasoning in Language Models [30.994610715391776]
強化学習(Reinforcement Learning, RL)は、数学やコーディングといった分野における言語モデル(LM)の推論能力を改善するための有望な戦略として登場した。
我々は,計算制約による比較的小さなモデルに焦点をあて,LM推論のためのRLアルゴリズム設計決定を解析する。
その結果, (i) オンラインRLは, 教師付き微調整(SFT)よりも優れ, (ii) PPOをベースとしたオフポリチクスの更新により, ばらつきを抑えて精度が向上し, (iii) KLのばらつきの除去により, より簡潔な世代と精度が向上することがわかった。
論文 参考訳(メタデータ) (2025-05-22T18:48:09Z) - Flow-GRPO: Training Flow Matching Models via Online RL [80.62659379624867]
本稿では,オンライン政策強化学習をフローマッチングモデルに統合する最初の方法であるFlow-GRPOを提案する。
提案手法では,(1)決定論的正規微分方程式を同値な微分方程式に変換するODE-to-SDE変換と,(2)推論ステップの数を維持しながらトレーニングの段階を短縮するDenoising Reduction戦略の2つの主要な戦略を用いる。
論文 参考訳(メタデータ) (2025-05-08T17:58:45Z) - Learning Off-policy with Model-based Intrinsic Motivation For Active Online Exploration [15.463313629574111]
本稿では,連続制御タスクにおけるサンプル効率の高い探索手法について検討する。
本稿では,予測モデルと非政治学習要素を組み込んだRLアルゴリズムを提案する。
パラメーターのオーバーヘッドを発生させずに本質的な報酬を導き出す。
論文 参考訳(メタデータ) (2024-03-31T11:39:11Z) - Simplifying Model-based RL: Learning Representations, Latent-space
Models, and Policies with One Objective [142.36200080384145]
自己整合性を維持しつつ高いリターンを達成するために,潜在空間モデルとポリシーを協調的に最適化する単一目的を提案する。
得られたアルゴリズムは, モデルベースおよびモデルフリーRL手法のサンプル効率に適合するか, 改善することを示した。
論文 参考訳(メタデータ) (2022-09-18T03:51:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。