論文の概要: The Choice of Divergence: A Neglected Key to Mitigating Diversity Collapse in Reinforcement Learning with Verifiable Reward
- arxiv url: http://arxiv.org/abs/2509.07430v1
- Date: Tue, 09 Sep 2025 06:34:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-10 14:38:27.194511
- Title: The Choice of Divergence: A Neglected Key to Mitigating Diversity Collapse in Reinforcement Learning with Verifiable Reward
- Title(参考訳): 多様性の選択: 検証可能なリワードによる強化学習における多様性の崩壊を緩和するための負の鍵
- Authors: Long Li, Jiaran Hao, Jason Klein Liu, Zhijian Zhou, Xiaoyu Tan, Wei Chu, Zhe Wang, Shirui Pan, Chao Qu, Yuan Qi,
- Abstract要約: Reinforcement Learning with Verifiable Reward (RLVR) を用いた細調整大型言語モデル(LLM)における中心的パラドックスは、多目的性能の頻繁な劣化である。
これはしばしば破滅的な忘れが伴い、モデルが以前獲得したスキルを失う。
我々は,標準RLVR目標には知識保持のための重要なメカニズムが欠如していると主張している。
- 参考スコア(独自算出の注目度): 58.559544190947584
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A central paradox in fine-tuning Large Language Models (LLMs) with Reinforcement Learning with Verifiable Reward (RLVR) is the frequent degradation of multi-attempt performance (Pass@k) despite improvements in single-attempt accuracy (Pass@1). This is often accompanied by catastrophic forgetting, where models lose previously acquired skills. While various methods have been proposed, the choice and function of the divergence term have been surprisingly unexamined as a proactive solution. We argue that standard RLVR objectives -- both those using the mode-seeking reverse KL-divergence and those forgoing a divergence term entirely -- lack a crucial mechanism for knowledge retention. The reverse-KL actively accelerates this decay by narrowing the policy, while its absence provides no safeguard against the model drifting from its diverse knowledge base. We propose a fundamental shift in perspective: using the divergence term itself as the solution. Our framework, Diversity-Preserving Hybrid RL (DPH-RL), leverages mass-covering f-divergences (like forward-KL and JS-divergence) to function as a rehearsal mechanism. By continuously referencing the initial policy, this approach forces the model to maintain broad solution coverage. Extensive experiments on math and SQL generation demonstrate that DPH-RL not only resolves the Pass@k degradation but improves both Pass@1 and Pass@k in- and out-of-domain. Additionally, DPH-RL is more training-efficient because it computes f-divergence using generator functions, requiring only sampling from the initial policy and no online reference model. Our work highlights a crucial, overlooked axis for improving RLVR, demonstrating that the proper selection of a divergence measure is a powerful tool for building more general and diverse reasoning models.
- Abstract(参考訳): Reinforcement Learning with Verifiable Reward (RLVR) を用いた細調整大型言語モデル (LLM) における中心的なパラドックスは、単一回避精度の改善にもかかわらず、多回避性能 (Pass@k) の頻繁な劣化である。
これはしばしば破滅的な忘れが伴い、モデルが以前獲得したスキルを失う。
様々な方法が提案されているが、発散項の選択と機能は驚くほど未検討である。
我々は、標準のRLVR目標 -- モード探索の逆KL分割を使用するものも、分岐項を完全に強制するものも -- は、知識保持の重要なメカニズムを欠いていると論じる。
逆KLはポリシーを狭めることでこの崩壊を活発に加速するが、その欠如は、その多様な知識ベースから漂うモデルに対する保護を提供しない。
本稿では、分散項自体を解として使うという観点からの根本的なシフトを提案する。
我々のフレームワークであるDiversity-Preserving Hybrid RL (DPH-RL) は、リハーサル機構として機能するために質量被覆型f-ディバージェンス(フォワードKLやJS-ディバージェンスなど)を活用する。
最初のポリシーを継続的に参照することで、このアプローチはモデルに広範なソリューションカバレッジを維持させます。
数学とSQL生成に関する大規模な実験は、DPH-RLがPass@kの分解を解決しただけでなく、Pass@1とPass@kのイン・オブ・ドメインとアウト・オブ・ドメインの両方を改善したことを示している。
さらに、DPH-RLは、ジェネレータ関数を使用してf分割を計算し、初期ポリシーからのサンプリングのみを必要とせず、オンライン参照モデルも必要としないため、より訓練効率が高い。
我々の研究は、RLVRを改善するための重要で見過ごされた軸を強調し、分散尺度の適切な選択がより汎用的で多様な推論モデルを構築するための強力なツールであることを実証している。
関連論文リスト
- RL as Regressor: A Reinforcement Learning Approach for Function Approximation [0.0]
強化学習(RL)問題としてフレーミング回帰を提案する。
モデルの予測をアクションとして扱い、予測誤差に基づいてカスタム報酬信号を定義することでこれを実証する。
我々は,RLフレームワークが回帰問題をうまく解決するだけでなく,目的の定義や学習プロセスの指導において柔軟性も向上することを示した。
論文 参考訳(メタデータ) (2025-07-31T21:39:24Z) - The Invisible Leash: Why RLVR May Not Escape Its Origin [48.915013455847856]
大規模推論モデルの最近の進歩は、AI能力を向上するための有望な方法として、Reinforcement Learning with Verifiable Rewards(RLVR)を強調している。
本研究は,RLVRの潜在的な限界に対する新たな洞察を提供する理論的,実証的研究である。
エントロピー・リワードのトレードオフは、RLVRが精度を確実に向上させる一方で、探索が徐々に狭くなり、正しく表現されていない解を見落としてしまう可能性がある。
論文 参考訳(メタデータ) (2025-07-20T07:04:08Z) - PRDP: Proximal Reward Difference Prediction for Large-Scale Reward Finetuning of Diffusion Models [13.313186665410486]
リワード微調整は、ファンデーションモデルを下流の目標と整合させるための有望なアプローチとして現れています。
既存の報酬微調整手法は、大規模なプロンプトデータセットにおける不安定性によって制限される。
拡散モデルに対する安定なブラックボックス報酬の微調整を可能にするためのPRDP(Proximal Reward difference Prediction)を提案する。
論文 参考訳(メタデータ) (2024-02-13T18:58:16Z) - Deep Generative Symbolic Regression [83.04219479605801]
記号回帰は、データから簡潔な閉形式数学的方程式を発見することを目的としている。
既存の手法は、探索から強化学習まで、入力変数の数に応じてスケールできない。
本稿では,我々のフレームワークであるDeep Generative Symbolic Regressionのインスタンス化を提案する。
論文 参考訳(メタデータ) (2023-12-30T17:05:31Z) - REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。
近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Understanding, Predicting and Better Resolving Q-Value Divergence in
Offline-RL [86.0987896274354]
まず、オフラインRLにおけるQ値推定のばらつきの主な原因として、基本パターン、自己励起を同定する。
そこで本研究では,Q-network の学習における進化特性を測定するために,SEEM(Self-Excite Eigen Value Measure)尺度を提案する。
われわれの理論では、訓練が早期に発散するかどうかを確実に決定できる。
論文 参考訳(メタデータ) (2023-10-06T17:57:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。