論文の概要: Beyond the Exploration-Exploitation Trade-off: A Hidden State Approach for LLM Reasoning in RLVR
- arxiv url: http://arxiv.org/abs/2509.23808v1
- Date: Sun, 28 Sep 2025 11:14:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.46154
- Title: Beyond the Exploration-Exploitation Trade-off: A Hidden State Approach for LLM Reasoning in RLVR
- Title(参考訳): RLVRにおけるLLM推論のための隠れ状態アプローチ
- Authors: Fanding Huang, Guanbo Huang, Xiao Fan, Yi He, Xiao Liang, Xiao Chen, Qinting Jiang, Faisal Nadeem Khan, Jingyan Jiang, Zhi Wang,
- Abstract要約: RLVR(Reinforcement Learning for Verifiable Rewards)の一般的な見解は、探索・探索トレードオフのレンズを通して最近の進歩を解釈している。
我々はこの視点を再検討し、この認識されたトレードオフは基本的な制約ではなく、測定レベルの成果物である可能性を示唆している。
本稿では,相乗的探索・探索強化の原理を最初に運用する,Velocity-Exploiting Rank-Learning (VERL)を提案する。
- 参考スコア(独自算出の注目度): 15.147456927849932
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A prevailing view in Reinforcement Learning for Verifiable Rewards (RLVR) interprets recent progress through the lens of an exploration-exploitation trade-off, a perspective largely shaped by token-level metrics. We re-examine this perspective, proposing that this perceived trade-off may not be a fundamental constraint but rather an artifact of the measurement level. To investigate this, we shift the analysis to the semantically rich hidden-state space, adopting Effective Rank (ER) to quantify exploration and proposing its novel first- and second-order derivatives, named Effective Rank Velocity (ERV) and Effective Rank Acceleration (ERA), to capture exploitation dynamics. Our analysis reveals that at the hidden-state level, exploration and exploitation could be decoupled (Sec. 4). This finding reveals an opportunity to enhance both capacities simultaneously. This insight motivates our method, Velocity-Exploiting Rank-Learning (VERL), the first to operationalize the principle of synergistic exploration-exploitation enhancement by directly shaping the RL advantage function. The key innovation is leveraging the theoretically stable ERA as a predictive meta-controller to create a synergistic, dual-channel incentive structure. Instead of forcing a trade-off, VERL prospectively amplifies rewards for exploration to preempt overconfidence and reinforces exploitative gains to consolidate reasoning. Experiments across diverse LLMs and reasoning benchmarks show consistent gains, including up to 21.4% absolute accuracy improvement on the challenging Gaokao 2024 dataset.
- Abstract(参考訳): RLVR(Reinforcement Learning for Verifiable Rewards)の一般的な見解は、トークンレベルのメトリクスによって主に形作られた、探索・探索トレードオフのレンズを通して、最近の進歩を解釈するものである。
我々はこの視点を再検討し、この認識されたトレードオフは基本的な制約ではなく、測定レベルの成果物である可能性を示唆している。
そこで本研究では,エフェクトランク速度 (ERV) とエフェクトランク加速度 (ERA) と呼ばれる新しい1階と2階の導関数の定量化と提案を行うために,エフェクトランク (ER) を適用した。
分析の結果,隠れ状態のレベルでは,探索と搾取を分離できることが判明した(第4報)。
この発見は、両方の能力を同時に増強する機会を明らかにします。
この知見は我々の手法であるVERL(Velocity-Exploiting Rank-Learning)を動機付け、RLの優位関数を直接形作ることにより、相乗的探索-探索強化の原理を最初に運用する。
鍵となる革新は、理論上安定なERAを予測メタコントローラとして活用して、相乗的で二重チャネルのインセンティブ構造を構築することである。
VERLは、トレードオフを強制する代わりに、過剰な自信を抑えるために探索に対する報酬を前向きに増幅し、推論を統合するために搾取利得を強化する。
多様なLCMと推論ベンチマークによる実験では、挑戦的なGaokao 2024データセットにおいて、最大21.4%の絶対精度の改善を含む、一貫した利得を示している。
関連論文リスト
- CDE: Curiosity-Driven Exploration for Efficient Reinforcement Learning in Large Language Models [85.315711639214]
モデル固有の好奇心を利用して探索をガイドするフレームワークであるCuriosity-Driven Exploration (CDE)を紹介した。
アクターに対しては、生成された応答に対してパープレキシティを使用し、批判に対しては、マルチヘッドアーキテクチャからの値推定のばらつきを利用する。
理論的分析により,アクターのボーナスは本質的に過度に信頼された誤りを罰し,正しい反応の多様性を促進することが示唆された。
論文 参考訳(メタデータ) (2025-09-11T17:59:17Z) - From Trial-and-Error to Improvement: A Systematic Analysis of LLM Exploration Mechanisms in RLVR [92.51110344832178]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデル(LLM)の推論能力を高めるための強力なパラダイムとして登場した。
本技術報告では,RLVRにおける探査能力の体系的調査について述べる。
論文 参考訳(メタデータ) (2025-08-11T01:26:16Z) - Reasoning with Exploration: An Entropy Perspective on Reinforcement Learning for LLMs [112.40801692473723]
強化学習(RL)の中心的目標としてのバランシング探索と活用
エントロピーに基づく項による優位関数の増大という,1行のコードのみによる標準RLへの最小限の修正を導入する。
提案手法は,非常に大きなK値を用いて評価しても,Pass@K測定値において有意な利得が得られる。
論文 参考訳(メタデータ) (2025-06-17T17:54:03Z) - Navigate the Unknown: Enhancing LLM Reasoning with Intrinsic Motivation Guided Exploration [39.460202867967006]
そこで,本研究では,高密度報酬を付与し,RLに基づくパラダイムにおける探索を増幅するために,固有モチベーションギルド探索比N meThOd foR LLM推論(i-MENTOR)を提案する。
4つの公開データセットにわたる実験は、i-MENTORの有効性を示し、AIME 2024で22.23%改善した。
論文 参考訳(メタデータ) (2025-05-23T08:30:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。