論文の概要: The Debate on RLVR Reasoning Capability Boundary: Shrinkage, Expansion, or Both? A Two-Stage Dynamic View
- arxiv url: http://arxiv.org/abs/2510.04028v1
- Date: Sun, 05 Oct 2025 04:31:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.408754
- Title: The Debate on RLVR Reasoning Capability Boundary: Shrinkage, Expansion, or Both? A Two-Stage Dynamic View
- Title(参考訳): RLVR推論能力境界に関する議論: 収縮, 膨張, あるいは両方? 2段階のダイナミックビュー
- Authors: Xinhao Yao, Lu Yu, Xiaolin Hu, Fengwei Teng, Qing Cui, Jun Zhou, Yong Liu,
- Abstract要約: 検証可能な報酬(RLVR)による強化学習は、大規模言語モデル(LLM)の推論能力を拡大または縮小する
いくつかの研究では、RLVRは主にサンプリング効率を改善するが、多様性と探索能力が犠牲になり、能力境界が縮小すると主張している。
また、長期トレーニングが新たな推論戦略の出現に繋がる可能性を示し、能力境界の拡張を示唆している。
- 参考スコア(独自算出の注目度): 37.56564205666228
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The ongoing debate on whether reinforcement learning with verifiable rewards (RLVR) expands or shrinks the reasoning capabilities of large language models (LLMs) remains unresolved. Some studies contend that RLVR mainly improves sampling efficiency but at the expense of diversity and exploratory capacity, resulting in capability boundary shrinkage. In contrast, others demonstrate that prolonged training can lead to the emergence of novel reasoning strategies, suggesting capability boundary expansion. To reconcile these contradictory findings, we theoretically and empirically show that both perspectives are partially valid-each aligning with a separate phase in an inherent two-stage probability mass dynamic: (1) Exploitation stage: initially, the model primarily samples explored high-reward and low-reward tokens, while rarely selecting the potentially optimal token. Positive advantage estimates increase the probability of high-reward tokens and decrease those of low-reward tokens, yet the optimal token's probability remains largely unchanged during this stage. (2) Exploration stage: as training advances, the growth rate of previously acquired high-reward tokens slows as their probabilities approach saturation. When a potentially optimal token-now receiving positive advantage estimates-is occasionally sampled, its probability increases, while those of the originally high-reward tokens decrease. This dynamic suggests that over-exploitation during the exploitation stage may lead to capability boundary shrinkage, whereas prolonged training into the exploration stage can promote an expansion of the reasoning capability boundary. Building upon our insights, we revisit the potential of only using relative negative gradients for prolonging training, providing a theoretical and empirical foundation for the development of more advanced reasoning capabilities.
- Abstract(参考訳): 検証可能な報酬(RLVR)による強化学習が大規模言語モデル(LLM)の推論能力を拡大または縮小するかどうかの議論は未解決のままである。
いくつかの研究では、RLVRは主にサンプリング効率を改善するが、多様性と探索能力が犠牲になり、能力境界が縮小すると主張している。
対照的に、長期トレーニングが新たな推論戦略の出現に繋がる可能性を示すものもあり、能力境界の拡張が示唆されている。
これらの矛盾する発見を再現するために、我々は理論上、実験的に、両視点が本質的に2段階の確率質量力学において異なる位相に部分的に整合していることを示す:(1)爆発段階: 当初、モデルが主に高逆および低逆トークンを探索し、潜在的に最適トークンを選択することは稀である。
正の利点推定は、高利回りトークンの確率を増大させ、低利回りトークンの確率を減少させるが、最適トークンの確率はこの段階で大きく変化しない。
2) 探究段階: 訓練が進むにつれて, その確率が飽和に近づくにつれて, 以前取得した高利回りトークンの成長速度が低下する。
潜在的に最適なトークンを受信する正の利点の推定値が時折サンプリングされると、その確率は増加し、元々の高逆トークンの確率は減少する。
このダイナミクスは、エクスプロイト段階における過剰な露光が能力境界の収縮を引き起こす可能性を示唆する一方で、探索段階における長期トレーニングは推論能力境界の拡張を促進することを示唆している。
我々の知見に基づいて、我々は、より高度な推論能力を開発するための理論的かつ実証的な基礎を提供するために、相対的な負の勾配のみを用いることの可能性を再考する。
関連論文リスト
- Emergence of Superposition: Unveiling the Training Dynamics of Chain of Continuous Thought [64.43689151961054]
有向グラフ到達性問題に対する簡易な2層変圧器のトレーニング力学を理論的に解析する。
分析の結果,連続的思考を用いたトレーニングでは,まずインデックスマッチングロジットが増加し,その後は軽度な仮定の下で拘束されることがわかった。
論文 参考訳(メタデータ) (2025-09-27T15:23:46Z) - CURE: Critical-Token-Guided Re-Concatenation for Entropy-Collapse Prevention [24.71056659948577]
本稿では,探索と利用のバランスをとる2段階フレームワークCURE(Critical-token-gUided Re Concatenation for Entropy-collapse Prevention)を紹介する。
CUREは6つのベンチマークで5%のパフォーマンス向上を実現し、エントロピーと精度の両方で最先端のパフォーマンスを確立する。
論文 参考訳(メタデータ) (2025-08-14T18:40:34Z) - Lost at the Beginning of Reasoning [82.18834329384514]
第1の推論ステップが最終予測に不当に大きな影響を与えることを示す。
本稿では、報酬モデルを利用して高品質な第1推論ステップを特定し、維持する効率的なサンプリング戦略を提案する。
モデル自己補正能力を体系的に評価するために、意図的に欠陥のある第1の推論ステップで構築された新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2025-06-27T09:53:57Z) - Hybrid Latent Reasoning via Reinforcement Learning [51.06635386903026]
大規模言語モデル(LLM)の能力を活用した強化学習(RL)による潜時推論について検討する。
RLをベースとしたハイブリッド潜在推論手法であるハイブリッド推論ポリシー最適化(HRPO)を導入する。
HRPOで訓練されたLLMは解釈可能であり、言語横断パターンや短い完了長といった興味深い挙動を示す。
論文 参考訳(メタデータ) (2025-05-24T01:26:16Z) - Towards Analyzing and Understanding the Limitations of VAPO: A Theoretical Perspective [6.963986923957048]
VAPOは、大規模言語モデルの強化学習のためのフレームワークである。
これは、値モデルバイアス、不均一なシーケンス長、スパース報酬信号といった課題に対処する。
本稿では,理論的な観点からVAPOを考察し,その仮定が課題となる分野を明らかにする。
論文 参考訳(メタデータ) (2025-05-23T15:03:41Z) - A Survey of Efficient Reasoning for Large Reasoning Models: Language, Multimodality, and Beyond [88.5807076505261]
大規模推論モデル (LRM) は, 推論中におけるチェーン・オブ・ソート (CoT) の推論長を拡大することにより, 高い性能向上を示した。
懸念が高まっているのは、過度に長い推論の痕跡を生み出す傾向にある。
この非効率性は、トレーニング、推論、現実のデプロイメントに重大な課題をもたらす。
論文 参考訳(メタデータ) (2025-03-27T15:36:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。