論文の概要: Beyond High-Entropy Exploration: Correctness-Aware Low-Entropy Segment-Based Advantage Shaping for Reasoning LLMs
- arxiv url: http://arxiv.org/abs/2512.00908v1
- Date: Sun, 30 Nov 2025 14:19:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.49064
- Title: Beyond High-Entropy Exploration: Correctness-Aware Low-Entropy Segment-Based Advantage Shaping for Reasoning LLMs
- Title(参考訳): 高エントロピー探索を超えて:LLMのための低エントロピーセグメントに基づくアドバンテージシェイピング
- Authors: Xinzhu Chen, Xuesheng Li, Zhongxiang Sun, Weijie Yu,
- Abstract要約: RLVR(Reinforcement Learning with Verifiable Rewards)は、大規模言語モデルの推論能力向上のための中心的なアプローチとなっている。
低エントロピーセグメントに対してきめ細かな優位変調を行う,正当性を考慮した強化フレームワークであるLESSを提案する。
- 参考スコア(独自算出の注目度): 6.948242693954442
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning with Verifiable Rewards (RLVR) has become a central approach for improving the reasoning ability of large language models. Recent work studies RLVR through token entropy, arguing that high-entropy tokens drive exploration and should receive stronger updates. However, they overlook the fact that most of a reasoning trajectory consists of low-entropy segments that encode stable and reusable structural patterns. Through qualitative and quantitative analyses, we find that the overlap of low-entropy segments across correct responses strongly correlates with model accuracy, while overlaps involving incorrect responses exhibit stable but unproductive patterns. Motivated by these findings, we propose LESS, a correctness-aware reinforcement framework that performs fine-grained advantage modulation over low-entropy segments. LESS amplifies segments unique to correct responses, suppresses those unique to incorrect ones, and neutralizes segments shared by both, while preserving high-entropy exploration in the underlying RL algorithm. Instantiated on top of the popular GRPO, LESS consistently improves accuracy over strong RL baselines across three backbones and six math benchmarks, achieves stronger robustness of the performance floor.
- Abstract(参考訳): RLVR(Reinforcement Learning with Verifiable Rewards)は、大規模言語モデルの推論能力向上のための中心的なアプローチとなっている。
最近の研究は、トークンエントロピーを通してRLVRを研究し、高いエントロピートークンが探索を促進し、より強力な更新を受けるべきであると主張している。
しかし、ほとんどの推論軌道は、安定かつ再利用可能な構造パターンをエンコードする低エントロピーセグメントで構成されているという事実を見落としている。
定性的および定量的分析により, 正しい応答間の低エントロピーセグメントの重複はモデル精度と強く相関し, 誤った応答を含む重複は安定だが非生産的パターンを示すことがわかった。
これらの知見により,低エントロピーセグメントに対してきめ細かな優位変調を行う補正対応強化フレームワークであるLESSを提案する。
LESSは、正しい応答に固有のセグメントを増幅し、不正確なセグメントを抑圧し、基礎となるRLアルゴリズムで高いエントロピー探索を保ちながら、両方で共有されるセグメントを中和する。
人気の高いGRPOの上に構築されたLESSは、3つのバックボーンと6つの数学ベンチマークにわたる強力なRLベースラインよりも精度を一貫して改善し、パフォーマンスフロアの強い堅牢性を達成する。
関連論文リスト
- ICPO: Intrinsic Confidence-Driven Group Relative Preference Optimization for Efficient Reinforcement Learning [17.98065634130798]
固有信頼駆動型グループ相対選好最適化法(ICPO)を提案する。
ICPOは、複数の応答の相対生成確率を同一の入力プロンプトで比較することにより、各応答に対する優先優位スコアを算出する。
優先的優位性スコアは、粗大な報酬や報奨ノイズの問題を緩和するだけでなく、過度に信頼された誤りを効果的に抑制することを発見した。
論文 参考訳(メタデータ) (2025-11-26T03:10:15Z) - Revisiting Entropy in Reinforcement Learning for Large Reasoning Models [54.96908589622163]
検証可能な報酬(RLVR)を用いた強化学習で訓練した大規模言語モデルのエントロピーダイナミクスについて検討する。
以上の結果から,RLVRでトレーニングしたLDMのエントロピーに影響を及ぼす重要な要因として,非政治的更新数,トレーニングデータの多様性,最適化目標におけるクリッピング閾値が示唆された。
論文 参考訳(メタデータ) (2025-11-08T12:50:41Z) - Rediscovering Entropy Regularization: Adaptive Coefficient Unlocks Its Potential for LLM Reinforcement Learning [55.59724323303857]
本稿では,3つのコンポーネントによる探索と利用のバランスをとるフレームワークを提案する。
複数の数学的推論ベンチマークの実験は、AERが一貫してベースラインを上回り、推論精度と探索能力の両方を改善していることを示している。
論文 参考訳(メタデータ) (2025-10-13T03:10:26Z) - Stratified GRPO: Handling Structural Heterogeneity in Reinforcement Learning of LLM Search Agents [90.45197506653341]
大規模言語モデル(LLM)エージェントは、複雑なマルチステップ問題を解決するために、検索エンジンのような外部ツールに依存している。
サーチエージェントの軌道は構造的に不均一であり、サーチコールの数、配置、結果の変動は、根本的に異なる応答方向と報酬分布をもたらす。
1つのグローバルベースラインを使用する標準方針勾配法は、私たちが認識し、層間バイアスとして定式化するものに苦しむ。
本稿では,SAN (Stratified Advantage Normalization) の中心成分であるStratified GRPOを提案する。
論文 参考訳(メタデータ) (2025-10-07T17:59:13Z) - Mind the Backbone: Minimizing Backbone Distortion for Robust Object
Detection [52.355018626115346]
ドメインシフトに対して堅牢なオブジェクト検出器を構築することは、現実世界のアプリケーションにとって重要なことです。
我々は,ゆがみを特徴付けるバックボーンの脆弱性を測定する手段として,相対勾配ノルム(Relative Gradient Norm)を提案する。
両バックボーンのOOD堅牢性を高めるためのレシピを提案する。
論文 参考訳(メタデータ) (2023-03-26T14:50:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。