論文の概要: Unlocking Exploration in RLVR: Uncertainty-aware Advantage Shaping for Deeper Reasoning
- arxiv url: http://arxiv.org/abs/2510.10649v1
- Date: Sun, 12 Oct 2025 15:06:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.048826
- Title: Unlocking Exploration in RLVR: Uncertainty-aware Advantage Shaping for Deeper Reasoning
- Title(参考訳): RLVRにおけるアンロック探索:より深い推論のための不確かさを意識したアドバンテージシェイピング
- Authors: Can Xie, Ruotong Pan, Xiangyu Wu, Yunfei Zhang, Jiayi Fu, Tingting Gao, Guorui Zhou,
- Abstract要約: 本研究では、モデルの内部不確実性信号を活用することにより、クレジット割り当てを洗練させるモデルフリー手法であるUnCertainty-aware Advantage Shaping(UCAS)を紹介する。
UCASは、まずモデル全体の自信を使って応答レベルの優位性を変調し、次に生のロジットの確実性に基づいてトークンレベルのペナルティを適用する。
分析の結果,UCASは高い報酬を得られるだけでなく,推論の多様性も向上し,エントロピー崩壊を緩和できることがわかった。
- 参考スコア(独自算出の注目度): 20.0162100611394
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning with Verifiable Rewards (RLVR) has shown significant promise for enhancing the reasoning capabilities of large language models (LLMs). However, prevailing algorithms like GRPO broadcast a uniform advantage signal across all tokens in a sequence. This coarse-grained approach overlooks the pivotal role of uncertain, high-stakes decisions during reasoning, leading to inefficient exploration and the well-documented problem of entropy collapse. To address this, we introduce UnCertainty-aware Advantage Shaping (UCAS), a model-free method that refines credit assignment by leveraging the model's internal uncertainty signals. UCAS operates in two stages: it first modulates the response-level advantage using the model's overall self-confidence, and then applies a token-level penalty based on raw logit certainty. This dual mechanism encourages exploration of high-uncertainty paths that yield correct answers while penalizing overconfident yet erroneous reasoning, effectively balancing the exploration-exploitation trade-off. Extensive experiments on five mathematical reasoning benchmarks show that UCAS significantly outperforms strong RLVR baselines across multiple model scales, including 1.5B and 7B. Our analysis confirms that UCAS not only achieves higher rewards but also promotes greater reasoning diversity and successfully mitigates entropy collapse.
- Abstract(参考訳): RLVR(Reinforcement Learning with Verifiable Rewards)は、大規模言語モデル(LLM)の推論能力を高めるための大きな可能性を示している。
しかし、GRPOのような一般的なアルゴリズムは、全てのトークンに対して一様で有利な信号をシーケンスでブロードキャストする。
この粗い粒度のアプローチは、推論中に不確実で高い決定を下す重要な役割を見落とし、非効率な探索とエントロピー崩壊の文書化された問題に繋がる。
この問題を解決するために、モデルの内部不確実性信号を活用することにより、クレジット割り当てを洗練させるモデルフリー手法であるUnCertainty-aware Advantage Shaping (UCAS)を導入する。
UCASは、まずモデル全体の自信を使って応答レベルの優位性を変調し、次に生のロジットの確実性に基づいてトークンレベルのペナルティを適用する。
この二重メカニズムは、不確実性の高い経路の探索を奨励し、正しい答えを得ると同時に、過度に信ずるが誤った推論を罰し、探索と探索のトレードオフを効果的にバランスさせる。
5つの数学的推論ベンチマークの大規模な実験は、UCASが1.5Bと7Bを含む複数のモデルスケールで強いRLVRベースラインを著しく上回っていることを示している。
分析の結果,UCASは高い報酬を得られるだけでなく,推論の多様性も向上し,エントロピー崩壊の軽減に成功していることがわかった。
関連論文リスト
- P2S: Probabilistic Process Supervision for General-Domain Reasoning Question Answering [51.04492568024515]
本稿では,プロセス報酬を微粒化するための新しいフレームワークである確率的プロセススーパービジョン(P2S)を紹介する。
P2Sは、個別の報酬モデルや人間に注釈を付けた推論ステップを必要とせずに、きめ細かいプロセス報酬を提供する。
論文 参考訳(メタデータ) (2026-01-28T14:35:20Z) - Outcome-Grounded Advantage Reshaping for Fine-Grained Credit Assignment in Mathematical Reasoning [60.00161035836637]
グループ相対政策最適化は、推論タスクのための有望な批判のない強化学習パラダイムとして登場した。
我々は,各トークンがモデルの最終回答にどの程度影響するかに基づいて,利益を再分配する,きめ細かい信用割当機構であるOutcome-grounded Advantage Reshaping (OAR)を紹介した。
OAR-Gは計算オーバーヘッドを無視して同等のゲインを達成し、どちらも強力なGRPOベースラインをはるかに上回っている。
論文 参考訳(メタデータ) (2026-01-12T10:48:02Z) - Reinforced Efficient Reasoning via Semantically Diverse Exploration [73.41112984160992]
検証可能な報酬(RLVR)による強化学習は,大規模言語モデル(LLM)の推論の強化に有効であることが証明された。
本研究では,LLMのための意味的多様性探索,すなわちROSEによる効率的な推論手法を提案する。
本手法は,意味エントロピーに基づく分岐戦略と$varepsilon$-exploration機構を組み込んだものである。
論文 参考訳(メタデータ) (2026-01-08T15:56:44Z) - Miner:Mining Intrinsic Mastery for Data-Efficient RL in Large Reasoning Models [40.61814017829362]
大規模推論モデルに対する現在の批判のないRL法は、正の同質なプロンプトのトレーニングにおいて深刻な非効率性に悩まされる。
UlineMine Ulineintrinsic Mastulineery (Miner) に対する超単純だが強力なソリューションを提案する。
マイナーは、政策の本質的な不確実性を自己監督的な報酬信号として再利用する。
論文 参考訳(メタデータ) (2026-01-08T08:52:37Z) - Adversarial Yet Cooperative: Multi-Perspective Reasoning in Retrieved-Augmented Language Models [72.4149653187766]
本稿ではAdrialversa Reasoning RAG(ARR)というReasoner-Verifierフレームワークを提案する。
ReasonerとVerifierは、回収された証拠を推論し、プロセス認識の利点によってガイドされながら、互いの論理を批判する。
複数のベンチマーク実験により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2026-01-08T06:57:03Z) - Exploration vs Exploitation: Rethinking RLVR through Clipping, Entropy, and Spurious Reward [33.74512650901766]
検証可能な報酬(RLVR)を用いた強化学習における探索・探索トレードオフについて検討する。
最近の研究は、RLVRがLarge Language Models (LLMs) において強力な数学的推論をもたらすことを示唆している。
本研究は、より効果的なRLVRトレーニングの原理として、スプリアス・リワード効果の背景にあるメカニズムを明らかにした。
論文 参考訳(メタデータ) (2025-12-18T18:59:27Z) - ICPO: Intrinsic Confidence-Driven Group Relative Preference Optimization for Efficient Reinforcement Learning [17.98065634130798]
固有信頼駆動型グループ相対選好最適化法(ICPO)を提案する。
ICPOは、複数の応答の相対生成確率を同一の入力プロンプトで比較することにより、各応答に対する優先優位スコアを算出する。
優先的優位性スコアは、粗大な報酬や報奨ノイズの問題を緩和するだけでなく、過度に信頼された誤りを効果的に抑制することを発見した。
論文 参考訳(メタデータ) (2025-11-26T03:10:15Z) - Mitigating Overthinking through Reasoning Shaping [39.521132754190155]
Group Relative Segment Penalization (GRSP) は、推論を正規化するためのステップレベル手法である。
GRSPは精度を著しく損なうことなく優れたトークン効率を実現する。
論文 参考訳(メタデータ) (2025-10-10T16:49:03Z) - Overthinking Reduction with Decoupled Rewards and Curriculum Data Scheduling [41.834250664485666]
大規模な推論モデルは、パフォーマンス上のメリットのない、過度に長い推論パスを生成します。
長さをペナライズする既存のソリューションは、しばしば失敗し、パフォーマンスが低下する。
我々は、現在長さの報酬に未適応な2つの欠陥の理論的発見に基づいて、新しいフレームワークDECSを紹介した。
論文 参考訳(メタデータ) (2025-09-30T06:04:43Z) - ConfClip: Confidence-Weighted and Clipped Reward for Reinforcement Learning in LLMs [32.13266235550995]
強化学習(RL)は、大規模言語モデル(LLM)の標準化の標準パラダイムとなっている。
人間の学習から得られた観察から着想を得て、検証可能な結果とモデル自身の信頼度推定を統合するRL手法を導入する。
論文 参考訳(メタデータ) (2025-09-22T13:00:35Z) - Sycophancy Mitigation Through Reinforcement Learning with Uncertainty-Aware Adaptive Reasoning Trajectories [58.988535279557546]
適応推論トラジェクトリを用いたtextbf sycophancy Mitigation を提案する。
SMARTは,分布外の入力に対して強い性能を維持しながら,サイコファンティクスの挙動を著しく低下させることを示した。
論文 参考訳(メタデータ) (2025-09-20T17:09:14Z) - CDE: Curiosity-Driven Exploration for Efficient Reinforcement Learning in Large Language Models [85.315711639214]
モデル固有の好奇心を利用して探索をガイドするフレームワークであるCuriosity-Driven Exploration (CDE)を紹介した。
アクターに対しては、生成された応答に対してパープレキシティを使用し、批判に対しては、マルチヘッドアーキテクチャからの値推定のばらつきを利用する。
理論的分析により,アクターのボーナスは本質的に過度に信頼された誤りを罰し,正しい反応の多様性を促進することが示唆された。
論文 参考訳(メタデータ) (2025-09-11T17:59:17Z) - CURE: Critical-Token-Guided Re-Concatenation for Entropy-Collapse Prevention [24.71056659948577]
本稿では,探索と利用のバランスをとる2段階フレームワークCURE(Critical-token-gUided Re Concatenation for Entropy-collapse Prevention)を紹介する。
CUREは6つのベンチマークで5%のパフォーマンス向上を実現し、エントロピーと精度の両方で最先端のパフォーマンスを確立する。
論文 参考訳(メタデータ) (2025-08-14T18:40:34Z) - Lost at the Beginning of Reasoning [82.18834329384514]
第1の推論ステップが最終予測に不当に大きな影響を与えることを示す。
本稿では、報酬モデルを利用して高品質な第1推論ステップを特定し、維持する効率的なサンプリング戦略を提案する。
モデル自己補正能力を体系的に評価するために、意図的に欠陥のある第1の推論ステップで構築された新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2025-06-27T09:53:57Z) - Trust, But Verify: A Self-Verification Approach to Reinforcement Learning with Verifiable Rewards [67.86091419220816]
大規模言語モデル(LLM)は複雑な推論において非常に有望である。
一般的な問題は表面的な自己回帰であり、モデルが自身の出力をしっかりと検証できない。
本稿では、RISE(Reinforce Reasoning with Self-Verification)という新しいオンラインRLフレームワークについて紹介する。
論文 参考訳(メタデータ) (2025-05-19T17:59:31Z) - ConCISE: Confidence-guided Compression in Step-by-step Efficient Reasoning [64.93140713419561]
大型推論モデル (LRM) は、Chain-of-Thought (CoT) による複雑な推論タスクで強く機能するが、しばしば冗長な出力に悩まされる。
既存の微調整ベースの圧縮手法は、ポストホックプルーニングを動作させるか、コヒーレンスを推論する破壊を危険にさらすか、サンプリングベースの選択に依存するかのいずれかである。
ConCISEは、簡潔な推論連鎖を生成するために設計されたフレームワークであり、信頼注入を統合して推論の信頼性を高める。
論文 参考訳(メタデータ) (2025-05-08T01:40:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。