論文の概要: Unlocking Exploration in RLVR: Uncertainty-aware Advantage Shaping for Deeper Reasoning
- arxiv url: http://arxiv.org/abs/2510.10649v1
- Date: Sun, 12 Oct 2025 15:06:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.048826
- Title: Unlocking Exploration in RLVR: Uncertainty-aware Advantage Shaping for Deeper Reasoning
- Title(参考訳): RLVRにおけるアンロック探索:より深い推論のための不確かさを意識したアドバンテージシェイピング
- Authors: Can Xie, Ruotong Pan, Xiangyu Wu, Yunfei Zhang, Jiayi Fu, Tingting Gao, Guorui Zhou,
- Abstract要約: 本研究では、モデルの内部不確実性信号を活用することにより、クレジット割り当てを洗練させるモデルフリー手法であるUnCertainty-aware Advantage Shaping(UCAS)を紹介する。
UCASは、まずモデル全体の自信を使って応答レベルの優位性を変調し、次に生のロジットの確実性に基づいてトークンレベルのペナルティを適用する。
分析の結果,UCASは高い報酬を得られるだけでなく,推論の多様性も向上し,エントロピー崩壊を緩和できることがわかった。
- 参考スコア(独自算出の注目度): 20.0162100611394
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning with Verifiable Rewards (RLVR) has shown significant promise for enhancing the reasoning capabilities of large language models (LLMs). However, prevailing algorithms like GRPO broadcast a uniform advantage signal across all tokens in a sequence. This coarse-grained approach overlooks the pivotal role of uncertain, high-stakes decisions during reasoning, leading to inefficient exploration and the well-documented problem of entropy collapse. To address this, we introduce UnCertainty-aware Advantage Shaping (UCAS), a model-free method that refines credit assignment by leveraging the model's internal uncertainty signals. UCAS operates in two stages: it first modulates the response-level advantage using the model's overall self-confidence, and then applies a token-level penalty based on raw logit certainty. This dual mechanism encourages exploration of high-uncertainty paths that yield correct answers while penalizing overconfident yet erroneous reasoning, effectively balancing the exploration-exploitation trade-off. Extensive experiments on five mathematical reasoning benchmarks show that UCAS significantly outperforms strong RLVR baselines across multiple model scales, including 1.5B and 7B. Our analysis confirms that UCAS not only achieves higher rewards but also promotes greater reasoning diversity and successfully mitigates entropy collapse.
- Abstract(参考訳): RLVR(Reinforcement Learning with Verifiable Rewards)は、大規模言語モデル(LLM)の推論能力を高めるための大きな可能性を示している。
しかし、GRPOのような一般的なアルゴリズムは、全てのトークンに対して一様で有利な信号をシーケンスでブロードキャストする。
この粗い粒度のアプローチは、推論中に不確実で高い決定を下す重要な役割を見落とし、非効率な探索とエントロピー崩壊の文書化された問題に繋がる。
この問題を解決するために、モデルの内部不確実性信号を活用することにより、クレジット割り当てを洗練させるモデルフリー手法であるUnCertainty-aware Advantage Shaping (UCAS)を導入する。
UCASは、まずモデル全体の自信を使って応答レベルの優位性を変調し、次に生のロジットの確実性に基づいてトークンレベルのペナルティを適用する。
この二重メカニズムは、不確実性の高い経路の探索を奨励し、正しい答えを得ると同時に、過度に信ずるが誤った推論を罰し、探索と探索のトレードオフを効果的にバランスさせる。
5つの数学的推論ベンチマークの大規模な実験は、UCASが1.5Bと7Bを含む複数のモデルスケールで強いRLVRベースラインを著しく上回っていることを示している。
分析の結果,UCASは高い報酬を得られるだけでなく,推論の多様性も向上し,エントロピー崩壊の軽減に成功していることがわかった。
関連論文リスト
- Mitigating Overthinking through Reasoning Shaping [39.521132754190155]
Group Relative Segment Penalization (GRSP) は、推論を正規化するためのステップレベル手法である。
GRSPは精度を著しく損なうことなく優れたトークン効率を実現する。
論文 参考訳(メタデータ) (2025-10-10T16:49:03Z) - Overthinking Reduction with Decoupled Rewards and Curriculum Data Scheduling [41.834250664485666]
大規模な推論モデルは、パフォーマンス上のメリットのない、過度に長い推論パスを生成します。
長さをペナライズする既存のソリューションは、しばしば失敗し、パフォーマンスが低下する。
我々は、現在長さの報酬に未適応な2つの欠陥の理論的発見に基づいて、新しいフレームワークDECSを紹介した。
論文 参考訳(メタデータ) (2025-09-30T06:04:43Z) - ConfClip: Confidence-Weighted and Clipped Reward for Reinforcement Learning in LLMs [32.13266235550995]
強化学習(RL)は、大規模言語モデル(LLM)の標準化の標準パラダイムとなっている。
人間の学習から得られた観察から着想を得て、検証可能な結果とモデル自身の信頼度推定を統合するRL手法を導入する。
論文 参考訳(メタデータ) (2025-09-22T13:00:35Z) - Sycophancy Mitigation Through Reinforcement Learning with Uncertainty-Aware Adaptive Reasoning Trajectories [58.988535279557546]
適応推論トラジェクトリを用いたtextbf sycophancy Mitigation を提案する。
SMARTは,分布外の入力に対して強い性能を維持しながら,サイコファンティクスの挙動を著しく低下させることを示した。
論文 参考訳(メタデータ) (2025-09-20T17:09:14Z) - CDE: Curiosity-Driven Exploration for Efficient Reinforcement Learning in Large Language Models [85.315711639214]
モデル固有の好奇心を利用して探索をガイドするフレームワークであるCuriosity-Driven Exploration (CDE)を紹介した。
アクターに対しては、生成された応答に対してパープレキシティを使用し、批判に対しては、マルチヘッドアーキテクチャからの値推定のばらつきを利用する。
理論的分析により,アクターのボーナスは本質的に過度に信頼された誤りを罰し,正しい反応の多様性を促進することが示唆された。
論文 参考訳(メタデータ) (2025-09-11T17:59:17Z) - CURE: Critical-Token-Guided Re-Concatenation for Entropy-Collapse Prevention [24.71056659948577]
本稿では,探索と利用のバランスをとる2段階フレームワークCURE(Critical-token-gUided Re Concatenation for Entropy-collapse Prevention)を紹介する。
CUREは6つのベンチマークで5%のパフォーマンス向上を実現し、エントロピーと精度の両方で最先端のパフォーマンスを確立する。
論文 参考訳(メタデータ) (2025-08-14T18:40:34Z) - Lost at the Beginning of Reasoning [82.18834329384514]
第1の推論ステップが最終予測に不当に大きな影響を与えることを示す。
本稿では、報酬モデルを利用して高品質な第1推論ステップを特定し、維持する効率的なサンプリング戦略を提案する。
モデル自己補正能力を体系的に評価するために、意図的に欠陥のある第1の推論ステップで構築された新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2025-06-27T09:53:57Z) - Trust, But Verify: A Self-Verification Approach to Reinforcement Learning with Verifiable Rewards [67.86091419220816]
大規模言語モデル(LLM)は複雑な推論において非常に有望である。
一般的な問題は表面的な自己回帰であり、モデルが自身の出力をしっかりと検証できない。
本稿では、RISE(Reinforce Reasoning with Self-Verification)という新しいオンラインRLフレームワークについて紹介する。
論文 参考訳(メタデータ) (2025-05-19T17:59:31Z) - ConCISE: Confidence-guided Compression in Step-by-step Efficient Reasoning [64.93140713419561]
大型推論モデル (LRM) は、Chain-of-Thought (CoT) による複雑な推論タスクで強く機能するが、しばしば冗長な出力に悩まされる。
既存の微調整ベースの圧縮手法は、ポストホックプルーニングを動作させるか、コヒーレンスを推論する破壊を危険にさらすか、サンプリングベースの選択に依存するかのいずれかである。
ConCISEは、簡潔な推論連鎖を生成するために設計されたフレームワークであり、信頼注入を統合して推論の信頼性を高める。
論文 参考訳(メタデータ) (2025-05-08T01:40:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。