論文の概要: Miner:Mining Intrinsic Mastery for Data-Efficient RL in Large Reasoning Models
- arxiv url: http://arxiv.org/abs/2601.04731v1
- Date: Thu, 08 Jan 2026 08:52:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:53.119954
- Title: Miner:Mining Intrinsic Mastery for Data-Efficient RL in Large Reasoning Models
- Title(参考訳): マイナー:大規模共振モデルにおけるデータ効率の良いRLの内在的知識のマイニング
- Authors: Shuyang Jiang, Yuhao Wang, Ya Zhang, Yanfeng Wang, Yu Wang,
- Abstract要約: 大規模推論モデルに対する現在の批判のないRL法は、正の同質なプロンプトのトレーニングにおいて深刻な非効率性に悩まされる。
UlineMine Ulineintrinsic Mastulineery (Miner) に対する超単純だが強力なソリューションを提案する。
マイナーは、政策の本質的な不確実性を自己監督的な報酬信号として再利用する。
- 参考スコア(独自算出の注目度): 40.61814017829362
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Current critic-free RL methods for large reasoning models suffer from severe inefficiency when training on positive homogeneous prompts (where all rollouts are correct), resulting in waste of rollouts due to zero advantage estimates. We introduce a radically simple yet powerful solution to \uline{M}ine \uline{in}trinsic mast\uline{er}y (Miner), that repurposes the policy's intrinsic uncertainty as a self-supervised reward signal, with no external supervision, auxiliary models, or additional inference cost. Our method pioneers two key innovations: (1) a token-level focal credit assignment mechanism that dynamically amplifies gradients on critical uncertain tokens while suppressing overconfident ones, and (2) adaptive advantage calibration to seamlessly integrate intrinsic and verifiable rewards. Evaluated across six reasoning benchmarks on Qwen3-4B and Qwen3-8B base models, Miner achieves state-of-the-art performance among the other four algorithms, yielding up to \textbf{4.58} absolute gains in Pass@1 and \textbf{6.66} gains in Pass@K compared to GRPO. Comparison with other methods targeted at exploration enhancement further discloses the superiority of the two newly proposed innovations. This demonstrates that latent uncertainty exploitation is both necessary and sufficient for efficient and scalable RL training of reasoning models.
- Abstract(参考訳): 大規模推論モデルに対する現在の批判のないRL法は、正の均質なプロンプト(全てのロールアウトが正しい)をトレーニングする際に深刻な非効率性に苦しむ。
我々は,本政策の本質的不確実性を自己監督型報酬信号として利用し,外部監視,補助モデル,追加推論コストを伴わない,極めて単純かつ強力な解法を,<uline{M}ine \uline{in}trinsic mast\uline{er}y (Miner) に導入する。
提案手法は,(1)重要な不確実なトークンの勾配を動的に増幅し,過信なトークンを抑えるトークンレベルの集中的信用割当機構,(2)本質的かつ検証可能な報酬をシームレスに統合するための適応的優位キャリブレーションという2つの重要なイノベーションを開拓する。
Minerは、Qwen3-4BとQwen3-8Bベースモデルの6つの推論ベンチマークで評価され、他の4つのアルゴリズムの中で最先端のパフォーマンスを実現し、Pass@1で \textbf{4.58} の絶対ゲインと、GRPOと比較してPass@Kで \textbf{6.66} のゲインを得る。
探索強化を目的とした他の手法との比較により、新たに提案された2つのイノベーションの優位性が明らかにされる。
このことは、潜在的不確実性利用が推論モデルの効率的かつスケーラブルなRLトレーニングに必要かつ十分であることを示している。
関連論文リスト
- Repulsor: Accelerating Generative Modeling with a Contrastive Memory Bank [65.00301565190824]
mnameは、外部エンコーダを必要としない、プラグアンドプレイのトレーニングフレームワークである。
mnameは400kのステップでtextbf2.40 の最先端 FID を達成し、同等のメソッドを著しく上回っている。
論文 参考訳(メタデータ) (2025-12-09T14:39:26Z) - ICPO: Intrinsic Confidence-Driven Group Relative Preference Optimization for Efficient Reinforcement Learning [17.98065634130798]
固有信頼駆動型グループ相対選好最適化法(ICPO)を提案する。
ICPOは、複数の応答の相対生成確率を同一の入力プロンプトで比較することにより、各応答に対する優先優位スコアを算出する。
優先的優位性スコアは、粗大な報酬や報奨ノイズの問題を緩和するだけでなく、過度に信頼された誤りを効果的に抑制することを発見した。
論文 参考訳(メタデータ) (2025-11-26T03:10:15Z) - Efficient Thought Space Exploration through Strategic Intervention [54.35208611253168]
本稿では,この知見を2つの相乗的コンポーネントを通して操作するHint-Practice Reasoning(HPR)フレームワークを提案する。
フレームワークの中核となる革新は、動的に介入点を識別する分散不整合低減(DIR)である。
算術的および常識的推論ベンチマークによる実験は、HPRの最先端の効率-精度トレードオフを実証している。
論文 参考訳(メタデータ) (2025-11-13T07:26:01Z) - Efficient Reasoning via Reward Model [24.105621725286497]
検証可能な報酬(RLVR)を用いた強化学習は、大規模言語モデル(LLM)の推論能力を高めることが示されている。
DeepSeek-R1 や OpenAI o1 のような LRM は、過剰または無関係な推論ステップを含む冗長な応答をしばしば生成する。
本稿では,結果報酬と簡潔度スコアとの間に明確な依存性を有する,CRF(Conciseness Reward Function)という新たな報酬定式化を導入する。
論文 参考訳(メタデータ) (2025-11-12T09:51:07Z) - PaTaRM: Bridging Pairwise and Pointwise Signals via Preference-Aware Task-Adaptive Reward Modeling [19.258007121955924]
Preference-Aware Task-Aware Reward Model (PaTaRM) は、Rest-Aware rewardメカニズムと動的ルーリック適応を統合した統合フレームワークである。
PaTaRMは、IFEvalとInFoBenchベンチマークで平均13.6%改善され、下流RLHFのパフォーマンスが向上する。
論文 参考訳(メタデータ) (2025-10-28T09:43:47Z) - Information-Theoretic Reward Modeling for Stable RLHF: Detecting and Mitigating Reward Hacking [78.69179041551014]
本稿では,インフォメーション・ボトルネックの原理に基づく情報理論報酬モデリングフレームワークを提案する。
InfoRMは、報酬の一般化を緩和するために、嗜好に無関係な情報をフィルタリングする。
IBLは分散レベルの正規化であり、そのような偏差を罰し、最適化の展望を効果的に拡張する。
論文 参考訳(メタデータ) (2025-10-15T15:51:59Z) - Unlocking Exploration in RLVR: Uncertainty-aware Advantage Shaping for Deeper Reasoning [20.0162100611394]
本研究では、モデルの内部不確実性信号を活用することにより、クレジット割り当てを洗練させるモデルフリー手法であるUnCertainty-aware Advantage Shaping(UCAS)を紹介する。
UCASは、まずモデル全体の自信を使って応答レベルの優位性を変調し、次に生のロジットの確実性に基づいてトークンレベルのペナルティを適用する。
分析の結果,UCASは高い報酬を得られるだけでなく,推論の多様性も向上し,エントロピー崩壊を緩和できることがわかった。
論文 参考訳(メタデータ) (2025-10-12T15:06:53Z) - Reinforced Latent Reasoning for LLM-based Recommendation [92.56166822197919]
大きな言語モデル(LLM)は、複雑な問題解決タスクにおいて印象的な推論能力を示している。
既存の手法は通常、明示的なチェーン・オブ・シント(CoT)データによる微調整に依存している。
本研究では, 明示的なCoT推論から, コンパクトで情報密度の高い潜伏推論へ移行する代替手法について検討する。
論文 参考訳(メタデータ) (2025-05-25T11:03:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。