論文の概要: Rethinking the Design Space of Reinforcement Learning for Diffusion Models: On the Importance of Likelihood Estimation Beyond Loss Design
- arxiv url: http://arxiv.org/abs/2602.04663v1
- Date: Wed, 04 Feb 2026 15:36:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.59441
- Title: Rethinking the Design Space of Reinforcement Learning for Diffusion Models: On the Importance of Likelihood Estimation Beyond Loss Design
- Title(参考訳): 拡散モデルにおける強化学習のデザイン空間の再考:損失設計を超えての同義性推定の重要性について
- Authors: Jaemoo Choi, Yuchen Zhu, Wei Guo, Petr Molodyk, Bo Yuan, Jinbin Bai, Yi Xin, Molei Tao, Yongxin Chen,
- Abstract要約: 本稿では,政策段階の目標,可能性推定器,ロールアウトサンプリングスキームの3つの要因を解消し,RL設計空間を体系的に解析する。
最終生成標本からのみ計算されるエビデンス低境界モデル推定器(ELBO)を採用することが,有効,効率的,安定なRL最適化を実現する主要な要因であることを示す。
- 参考スコア(独自算出の注目度): 45.80068602880684
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning has been widely applied to diffusion and flow models for visual tasks such as text-to-image generation. However, these tasks remain challenging because diffusion models have intractable likelihoods, which creates a barrier for directly applying popular policy-gradient type methods. Existing approaches primarily focus on crafting new objectives built on already heavily engineered LLM objectives, using ad hoc estimators for likelihood, without a thorough investigation into how such estimation affects overall algorithmic performance. In this work, we provide a systematic analysis of the RL design space by disentangling three factors: i) policy-gradient objectives, ii) likelihood estimators, and iii) rollout sampling schemes. We show that adopting an evidence lower bound (ELBO) based model likelihood estimator, computed only from the final generated sample, is the dominant factor enabling effective, efficient, and stable RL optimization, outweighing the impact of the specific policy-gradient loss functional. We validate our findings across multiple reward benchmarks using SD 3.5 Medium, and observe consistent trends across all tasks. Our method improves the GenEval score from 0.24 to 0.95 in 90 GPU hours, which is $4.6\times$ more efficient than FlowGRPO and $2\times$ more efficient than the SOTA method DiffusionNFT without reward hacking.
- Abstract(参考訳): 強化学習は、テキスト・ツー・イメージ生成のような視覚的タスクの拡散とフローモデルに広く適用されてきた。
しかし、拡散モデルには難解な可能性があり、一般的なポリシー勾配型メソッドを直接適用する障壁が生じるため、これらのタスクは依然として困難である。
既存のアプローチは、アルゴリズム全体の性能にどのように影響するかを徹底的に調査することなく、おそらくはアドホックな推定器を用いて、既に高度に設計されたLLMの目的に基づいて構築された新しい目的の構築に重点を置いている。
本稿では,RL設計空間の系統的解析について,次の3つの要因を解き明かす。
一 政策段階の目的
二 推定者の可能性、及び
三 ロールアウトサンプリング方式
最終生成標本からのみ計算されるエビデンス・ローバウンド・モデル推定器(ELBO)を適用すれば、特定のポリシ・グラディエント・ロス関数の影響を上回り、有効で効率的で安定したRL最適化が可能となる。
SD 3.5 Medium を用いて複数の報奨評価を行い,全タスクにおける一貫した傾向を観察した。
我々の手法は、90GPU時間でGenEvalのスコアを0.24から0.95に改善し、FlowGRPOよりも4.6\times$、報酬ハックなしでDiffusionNFTよりも2.6\times$効率が良い。
関連論文リスト
- Training-Free Adaptation of Diffusion Models via Doob's $h$-Transform [37.05492050174751]
DOIT(Doob-Oriented Inference-time Transformation)は、トレーニング不要で計算効率のよい適応法である。
我々は,この輸送を実現するためにDoobの$h$-transformを利用し,拡散サンプリングプロセスに対する動的補正を誘導する。
本手法はサンプリング効率を保ちながら常に最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2026-02-18T05:44:19Z) - Enhancing Training Data Attribution with Representational Optimization [57.61977909113113]
トレーニングデータ属性法は、トレーニングデータがモデルの予測にどのように影響するかを測定することを目的としている。
本稿では,タスク固有表現とモデル整合表現をTDAで明示的に学習することで,このギャップを埋める表現ベースアプローチであるAirRepを提案する。
AirRepは、属性品質に合わせて調整されたトレーニング可能なエンコーダと、グループワイドの影響を正確に見積もるアテンションベースのプール機構の2つの重要なイノベーションを紹介している。
論文 参考訳(メタデータ) (2025-05-24T05:17:53Z) - Effective Reinforcement Learning for Reasoning in Language Models [30.994610715391776]
強化学習(Reinforcement Learning, RL)は、数学やコーディングといった分野における言語モデル(LM)の推論能力を改善するための有望な戦略として登場した。
我々は,計算制約による比較的小さなモデルに焦点をあて,LM推論のためのRLアルゴリズム設計決定を解析する。
その結果, (i) オンラインRLは, 教師付き微調整(SFT)よりも優れ, (ii) PPOをベースとしたオフポリチクスの更新により, ばらつきを抑えて精度が向上し, (iii) KLのばらつきの除去により, より簡潔な世代と精度が向上することがわかった。
論文 参考訳(メタデータ) (2025-05-22T18:48:09Z) - Flow-GRPO: Training Flow Matching Models via Online RL [80.62659379624867]
本稿では,オンライン政策強化学習をフローマッチングモデルに統合する最初の方法であるFlow-GRPOを提案する。
提案手法では,(1)決定論的正規微分方程式を同値な微分方程式に変換するODE-to-SDE変換と,(2)推論ステップの数を維持しながらトレーニングの段階を短縮するDenoising Reduction戦略の2つの主要な戦略を用いる。
論文 参考訳(メタデータ) (2025-05-08T17:58:45Z) - R-Sparse: Rank-Aware Activation Sparsity for Efficient LLM Inference [77.47238561728459]
R-スパース(R-Sparse)は、高度なLCMにおいて高い疎度を達成できる訓練不要なアクティベーション・スパシティ・アプローチである。
10種類のタスクにわたるLlama-2/3およびMistralモデルの実験は、R-Sparseが50%のモデルレベルの間隔で同等のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2025-04-28T03:30:32Z) - Half-order Fine-Tuning for Diffusion Model: A Recursive Likelihood Ratio Optimizer [16.103949557802988]
確率拡散モデル(DM)は、連鎖構造を通して推論することで内容を生成する。
現代の手法は強化学習 (RL) と切り離されたバックプロパゲーション (BP) に基づいている
DMのためのRLR(Recursive Likelihood Ratio)ファインチューニングパラダイムを提案する。
論文 参考訳(メタデータ) (2025-02-02T03:00:26Z) - Learning Off-policy with Model-based Intrinsic Motivation For Active Online Exploration [15.463313629574111]
本稿では,連続制御タスクにおけるサンプル効率の高い探索手法について検討する。
本稿では,予測モデルと非政治学習要素を組み込んだRLアルゴリズムを提案する。
パラメーターのオーバーヘッドを発生させずに本質的な報酬を導き出す。
論文 参考訳(メタデータ) (2024-03-31T11:39:11Z) - Simplifying Model-based RL: Learning Representations, Latent-space
Models, and Policies with One Objective [142.36200080384145]
自己整合性を維持しつつ高いリターンを達成するために,潜在空間モデルとポリシーを協調的に最適化する単一目的を提案する。
得られたアルゴリズムは, モデルベースおよびモデルフリーRL手法のサンプル効率に適合するか, 改善することを示した。
論文 参考訳(メタデータ) (2022-09-18T03:51:58Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。