論文の概要: Expected Return Causes Outcome-Level Mode Collapse in Reinforcement Learning and How to Fix It with Inverse Probability Scaling
- arxiv url: http://arxiv.org/abs/2601.21669v1
- Date: Thu, 29 Jan 2026 13:03:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.832415
- Title: Expected Return Causes Outcome-Level Mode Collapse in Reinforcement Learning and How to Fix It with Inverse Probability Scaling
- Title(参考訳): 強化学習におけるアウトカムレベルモードの崩壊の原因となる期待リターンと逆確率スケーリングによる修正方法
- Authors: Abhijeet Sinha, Sundari Elango, Dianbo Liu,
- Abstract要約: 結果-レベルモードの崩壊は、期待されたリターン自体の構造的な結果であることを示す。
学習信号から結果周波数を除去する逆確率スケーリングという,最小限の補正を提案する。
- 参考スコア(独自算出の注目度): 2.8825582215429186
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many reinforcement learning (RL) problems admit multiple terminal solutions of comparable quality, where the goal is not to identify a single optimum but to represent a diverse set of high-quality outcomes. Nevertheless, policies trained by standard expected return maximization routinely collapse onto a small subset of outcomes, a phenomenon commonly attributed to insufficient exploration or weak regularization. We show that this explanation is incomplete: outcome level mode collapse is a structural consequence of the expected-return objective itself. Under idealized learning dynamics, the log-probability ratio between any two outcomes evolves linearly in their reward difference, implying exponential ratio divergence and inevitable collapse independent of the exploration strategy, entropy regularization, or optimization algorithm. We identify the source of this pathology as the probability multiplier inside the expectation and propose a minimal correction: inverse probability scaling, which removes outcome-frequency amplification from the learning signal, fundamentally changes the learning dynamics, and provably yields reward-proportional terminal distributions, preventing collapse in multimodal settings. We instantiate this principle in Group Relative Policy Optimization (GRPO) as a drop-in modification, IPS-GRPO, requiring no auxiliary models or architectural changes. Across different reasoning and molecular generation tasks, IPS-GRPO consistently reduces outcome-level mode collapse while matching or exceeding baseline performance, suggesting that correcting the objective rather than adding exploration heuristics is key to reliable multimodal policy optimization.
- Abstract(参考訳): 多くの強化学習(RL)問題は、単一の最適性を識別するのではなく、高品質な結果の多様な集合を表現することを目的として、同等の品質の複数の端末ソリューションを受け入れている。
それでも、標準的な期待されたリターン最大化によって訓練されたポリシーは、通常、少数の結果に崩壊する。
この説明は不完全であり、結果レベルモードの崩壊は、期待された回帰目標自体の構造的な結果である。
理想的な学習力学の下では、任意の2つの結果間の対数確率比はその報酬差で線形に進化し、指数比のばらつきと避けられない崩壊を探索戦略、エントロピー正則化、最適化アルゴリズムとは無関係に示唆する。
学習信号から結果周波数の増幅を除去し、学習ダイナミクスを根本的に変更し、報奨-報奨-報奨終端分布を確実に獲得し、マルチモーダルな設定での崩壊を防止できる逆確率スケーリングを提案する。
グループ相対政策最適化(GRPO)において、この原則を、補助モデルやアーキテクチャの変更を必要としない、ドロップイン修正(IPS-GRPO)としてインスタンス化する。
IPS-GRPO は、様々な推論や分子生成のタスクにまたがって、結果レベルモードの崩壊を一貫して減少させ、探索ヒューリスティックスを付加するのではなく、目的を正すことが、信頼性の高いマルチモーダルポリシー最適化の鍵となることを示唆している。
関連論文リスト
- Statistical analysis of Inverse Entropy-regularized Reinforcement Learning [15.054399128586232]
逆強化学習は、状態-作用対の軌跡を通して観察される専門家の行動を説明する報酬関数を推論することを目的としている。
多くの報酬関数は同じ最適ポリシーを導き出すことができ、逆問題に悪影響を及ぼす。
Inverse Entropy-regularized Reinforcement Learningのための統計フレームワークを開発する。
論文 参考訳(メタデータ) (2025-12-07T18:26:19Z) - DaGRPO: Rectifying Gradient Conflict in Reasoning via Distinctiveness-Aware Group Relative Policy Optimization [20.66452395111739]
識別性を考慮したグループ相対ポリシー最適化(DaGRPO)を提案する。
DaGRPOは,(1)微粒なスコアリングを利用して,低差別性でサンプルペアを動的にマスキングするシーケンスレベルのグラディエント・リクティフィケーション,(2)高品質なアンカーを導入し,課題に対処するためのトレーニング信号の復元を行うオフ・ポリシー・データ・アジュメンテーションという2つのコアメカニズムを取り入れている。
詳細な分析により、DaGRPOは勾配の爆発を効果的に軽減し、長鎖推論能力の出現を加速することを確認した。
論文 参考訳(メタデータ) (2025-12-06T07:51:36Z) - BAPO: Stabilizing Off-Policy Reinforcement Learning for LLMs via Balanced Policy Optimization with Adaptive Clipping [69.74252624161652]
適応クリッピング(BAPO)を用いたBAlanced Policy Optimizationを提案する。
BAPOはクリッピングバウンダリを動的に調整し、適応的に正と負のコントリビューションを再バランスさせ、エントロピーを保持し、RL最適化を安定化させる。
AIME 2024とAIME 2025ベンチマークでは、7B BAPOモデルがSkyWork-OR1-7Bのようなオープンソースモデルを上回っています。
論文 参考訳(メタデータ) (2025-10-21T12:55:04Z) - Rediscovering Entropy Regularization: Adaptive Coefficient Unlocks Its Potential for LLM Reinforcement Learning [55.59724323303857]
本稿では,3つのコンポーネントによる探索と利用のバランスをとるフレームワークを提案する。
複数の数学的推論ベンチマークの実験は、AERが一貫してベースラインを上回り、推論精度と探索能力の両方を改善していることを示している。
論文 参考訳(メタデータ) (2025-10-13T03:10:26Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Mitigating Covariate Shift in Misspecified Regression with Applications
to Reinforcement Learning [39.02112341007981]
本研究では,分布変化がモデルミス種別の有無に及ぼす影響について検討した。
経験的リスク最小化(または標準最小二乗回帰)は、望ましくない不特定性の増幅をもたらす可能性があることを示す。
我々は、この好ましくない振る舞いを避ける新しいアルゴリズムを開発し、したがって、最適な統計率を得ながら、誤特定の増幅を行わない。
論文 参考訳(メタデータ) (2024-01-22T18:59:12Z) - Beyond Reverse KL: Generalizing Direct Preference Optimization with
Diverse Divergence Constraints [26.274786600234876]
大規模言語モデル(LLM)の能力の増大は、人工知能の機会を増大させるが、安全性の懸念を増幅する。
RLHFは、AIアライメントへの有望な経路として登場したが、複雑さと独立した報酬モデルへの依存により、課題を提起している。
DPOは代替として提案されており、逆KL正規化制約の下ではRLHFと等価である。
Jensen-Shannonの発散、forward KLの発散、$alpha$-divergencesなど、ある$f$-divergencesの下では、報酬と最適ポリシーの複雑な関係も単純化できることを示す。
論文 参考訳(メタデータ) (2023-09-28T08:29:44Z) - DROMO: Distributionally Robust Offline Model-based Policy Optimization [0.0]
モデルベース制御によるオフライン強化学習の問題点を考察する。
分散ロバストなオフラインモデルベースポリシー最適化(DROMO)を提案する。
論文 参考訳(メタデータ) (2021-09-15T13:25:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。