論文の概要: Know When to Explore: Difficulty-Aware Certainty as a Guide for LLM Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2509.00125v1
- Date: Fri, 29 Aug 2025 08:57:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.097217
- Title: Know When to Explore: Difficulty-Aware Certainty as a Guide for LLM Reinforcement Learning
- Title(参考訳): LLM強化学習ガイドとしての難易度認識の確実性
- Authors: Ang Li, Zhihang Yuan, Yang Zhang, Shouda Liu, Yisen Wang,
- Abstract要約: DACE(Difficulty Aware Certainty guided Exploration)を紹介する。
政策の成功率に基づいて、探索的エクスプロイトのトレードオフをバランスさせる。
挑戦的な数学的推論ベンチマーク(AIME, MATH)の実験は、DACEが強いベースラインを著しく上回っていることを示している。
- 参考スコア(独自算出の注目度): 37.20632079882874
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning with Verifiable Feedback (RLVF) has become a key technique for enhancing the reasoning abilities of Large Language Models (LLMs). However, its reliance on sparse, outcome based rewards, which only indicate if a final answer is correct or not, fails to provide granular guidance on the reasoning process itself. This limitation hinders efficient learning, as the model cannot distinguish between high quality and inefficient solutions, nor can it learn effectively from different types of failures. To address this, we observe that an LLMs self-certainty often correlates with task difficulty and solution quality. We introduce Difficulty Aware Certainty guided Exploration (DACE), a novel RL algorithm that leverages this insight to dynamically balance the exploration exploitation trade-off. DACE assesses task difficulty online based on the policys success rate. It then uses this signal to modulate an intrinsic reward: for difficult tasks where the model is struggling, DACE encourages exploration by penalizing high certainty; for easier tasks, it encourages learning efficiency by rewarding high certainty. Experiments on challenging mathematical reasoning benchmarks (AIME, MATH) show that DACE significantly outperforms strong baselines. The DACE-trained models not only achieve higher accuracy but also demonstrate more robust performance when scaling test-time compute, validating that our adaptive approach fosters effective exploration without sacrificing precision.
- Abstract(参考訳): RLVF(Reinforcement Learning with Verifiable Feedback)は,Large Language Models (LLMs) の推論能力を高めるための重要な技術である。
しかしながら、最終的な答えが正しいかどうかのみを示す、スパース、結果に基づく報酬に依存しているため、推論プロセス自体に関する詳細なガイダンスが得られない。
この制限は、モデルが高品質なソリューションと非効率なソリューションを区別することができず、異なるタイプの障害から効果的に学習できないため、効率的な学習を妨げる。
この問題に対処するため,LLMの自己確実性は課題の難易度やソリューションの品質と相関することが多い。
本稿では、この知見を生かした新しいRLアルゴリズムであるDACE(Difficulty Aware Certainty Guided Exploration)を導入し、探索エクスプロイトトレードオフを動的にバランスさせる。
DACEは、政策成功率に基づいて、オンラインでタスクの難易度を評価する。
そして、この信号を使って本質的な報酬を変調する:モデルが苦労している困難なタスクに対して、DACEは高い確実性を罰することで探索を奨励する。
挑戦的な数学的推論ベンチマーク(AIME, MATH)の実験は、DACEが強いベースラインを著しく上回っていることを示している。
DACEで訓練されたモデルは、高い精度を達成するだけでなく、テスト時間計算のスケーリング時により堅牢な性能を示し、我々の適応的アプローチが精度を犠牲にすることなく効果的な探索を促進することを検証した。
関連論文リスト
- GHPO: Adaptive Guidance for Stable and Efficient LLM Reinforcement Learning [15.43938821214447]
RLVR(Reinforcement Learning with Verifiable Rewards)は、最近、大規模言語モデル(LLM)の自己改善を促進するための強力なパラダイムとして登場した。
本稿では,新しい困難に配慮した強化学習フレームワークであるGHPOについて紹介する。
GHPOは、適応的なプロンプトリファインメントを用いて、目標とするガイダンスを提供することにより、タスクの難易度を動的に校正する。
論文 参考訳(メタデータ) (2025-07-14T08:10:00Z) - Curriculum Reinforcement Learning from Easy to Hard Tasks Improves LLM Reasoning [52.32193550674408]
強化学習(RL)による言語モデルの推論能力の向上を目指す。
我々は,LLMが徐々に推論スキルを構築できるように,タスクを簡単から困難(E2H)にスケジュールすることを提案する。
E2H Reasonerは小型LLM(1.5B〜3B)の推論能力を著しく改善する
論文 参考訳(メタデータ) (2025-06-07T02:41:54Z) - Surrogate Signals from Format and Length: Reinforcement Learning for Solving Mathematical Problems without Ground Truth Answers [24.934432751910443]
本研究は,代用信号として形式と長さを応用し,数学的問題解決のためにLLMを訓練するものである。
本研究は,形式的正当性のみに着目した報奨関数が,初期の標準GRPOアルゴリズムに匹敵する性能向上をもたらすことを示す。
その結果、フォーマット長のサロゲート信号を利用するGRPOアプローチは、マッチするだけでなく、標準のGRPOアルゴリズムの性能を上回る。
論文 参考訳(メタデータ) (2025-05-26T02:56:22Z) - Towards Effective Evaluations and Comparisons for LLM Unlearning Methods [97.2995389188179]
本稿では,大規模言語モデルにおける機械学習評価の精度向上を図る。
評価指標の堅牢性と、競合する目標間のトレードオフという、2つの重要な課題に対処します。
論文 参考訳(メタデータ) (2024-06-13T14:41:00Z) - Inverse-RLignment: Large Language Model Alignment from Demonstrations through Inverse Reinforcement Learning [62.05713042908654]
本稿では,これらの課題を克服するために,高品質な実演データを活用する新しいアプローチであるAlignment from Demonstrations (AfD)を紹介する。
AfDをシーケンシャルな意思決定フレームワークで形式化し、報酬信号の欠如というユニークな課題を強調します。
そこで本研究では,AfD に適した報酬モデル上で補間を行う計算効率のよいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-24T15:13:53Z) - Enhancing Q-Learning with Large Language Model Heuristics [0.0]
大規模言語モデル(LLM)は、単純なタスクでゼロショット学習を達成できるが、推論速度の低下と時折幻覚に悩まされる。
我々は,LLMを幻覚として活用し,強化学習のためのQ関数の学習を支援するフレームワークであるtextbfLLM-guided Q-learningを提案する。
論文 参考訳(メタデータ) (2024-05-06T10:42:28Z) - MURAL: Meta-Learning Uncertainty-Aware Rewards for Outcome-Driven
Reinforcement Learning [65.52675802289775]
本研究では,不確かさを意識した分類器が,強化学習の難しさを解消できることを示す。
正規化最大度(NML)分布の計算法を提案する。
得られたアルゴリズムは、カウントベースの探索法と、報酬関数を学習するための先行アルゴリズムの両方に多くの興味深い関係を持つことを示す。
論文 参考訳(メタデータ) (2021-07-15T08:19:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。