論文の概要: Rethinking Token-Level Credit Assignment in RLVR: A Polarity-Entropy Analysis
- arxiv url: http://arxiv.org/abs/2604.11056v1
- Date: Mon, 13 Apr 2026 06:32:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.364581
- Title: Rethinking Token-Level Credit Assignment in RLVR: A Polarity-Entropy Analysis
- Title(参考訳): RLVRにおけるトークンレベルクレジット割り当ての再考:極性エントロピー分析
- Authors: Yuhang He, Haodong Wu, Siyi Liu, Hongyu Ge, Hange Zhou, Keyi Wu, Zhuo Zheng, Qihong Lin, Zixin Zhong, Yongqi Zhang,
- Abstract要約: RLVRによる強化学習は大規模言語モデル(LLM)の推論能力を大幅に向上させた
我々は、報酬極性とトークンエントロピーのジョイントレンズを用いてこの問題を分析する。
トークンレベルの学習信号を変調するエントロピー・アウェア・ポリシー最適化(EAPO)を提案する。
- 参考スコア(独自算出の注目度): 33.07421874137999
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning with Verifiable Rewards (RLVR) has substantially improved the reasoning ability of Large Language Models (LLMs). However, its sparse outcome-based rewards pose a fundamental credit assignment problem. We analyze this problem through the joint lens of reward polarity and token entropy. Our diagnostic tool, the Four Quadrant Decomposition, isolates token updates by polarity and entropy, and controlled ablations show that reasoning improvements concentrate in the high-entropy quadrants. To justify this observation theoretically, we adapt Conditional Mutual Information to the autoregressive RLVR setting and prove that the credit a token can carry is upper-bounded by its entropy. This view yields testable predictions that reasoning gains arise primarily from high-entropy tokens, with unique roles for positive and negative updates. A gradient analysis of GRPO further reveals how uniform reward broadcast dilutes signal at high-entropy positions while over-crediting deterministic tokens. Grounded in these insights, we propose Entropy-Aware Policy Optimization (EAPO) that modulates token-level learning signals accordingly. Extensive experiments demonstrate that EAPO outperforms strong baselines across two model families.
- Abstract(参考訳): Reinforcement Learning with Verifiable Rewards (RLVR) は,Large Language Models (LLM) の推論能力を大幅に向上させた。
しかし、その粗末な結果に基づく報酬は、基本的な信用割当問題を引き起こす。
我々は、報酬極性とトークンエントロピーのジョイントレンズを用いてこの問題を分析する。
我々の診断ツールであるFour Quadrant Decompositionは、極性とエントロピーによるトークン更新を分離し、制御された改善は高エントロピー二次体に集中していることを示す。
この観察を理論的に正当化するために、条件付き相互情報を自己回帰RLVR設定に適応させ、トークンが持てるクレジットがエントロピーによって上界であることが証明する。
この見解は、推論のゲインは主に高エントロピートークンから発生し、正と負の更新にユニークな役割を持つという検証可能な予測をもたらす。
GRPOの勾配解析により、高エントロピー位置で均一に伝送するダイリュート信号が、決定論的トークンを過剰にクレディットしながらどのように振る舞うかが明らかになる。
これらの知見に基づいて,トークンレベルの学習信号を変調するエントロピー対応政策最適化(EAPO)を提案する。
大規模な実験により、EAPOは2つのモデルファミリーで強いベースラインを上回ります。
関連論文リスト
- ERPO: Token-Level Entropy-Regulated Policy Optimization for Large Reasoning Models [3.463914032107119]
グループ相対政策最適化(GRPO)は一般にすべてのトークンに対して一様でシーケンスレベルの利点を割り当てる。
本稿では,最適化の焦点を粗いシーケンスからきめ細かいトークンダイナミクスに移行するエントロピー制御ポリシ最適化(ERPO)を提案する。
論文 参考訳(メタデータ) (2026-03-30T09:20:25Z) - Beyond High-Entropy Exploration: Correctness-Aware Low-Entropy Segment-Based Advantage Shaping for Reasoning LLMs [6.948242693954442]
RLVR(Reinforcement Learning with Verifiable Rewards)は、大規模言語モデルの推論能力向上のための中心的なアプローチとなっている。
低エントロピーセグメントに対してきめ細かな優位変調を行う,正当性を考慮した強化フレームワークであるLESSを提案する。
論文 参考訳(メタデータ) (2025-11-30T14:19:36Z) - Revisiting Entropy in Reinforcement Learning for Large Reasoning Models [54.96908589622163]
検証可能な報酬(RLVR)を用いた強化学習で訓練した大規模言語モデルのエントロピーダイナミクスについて検討する。
以上の結果から,RLVRでトレーニングしたLDMのエントロピーに影響を及ぼす重要な要因として,非政治的更新数,トレーニングデータの多様性,最適化目標におけるクリッピング閾値が示唆された。
論文 参考訳(メタデータ) (2025-11-08T12:50:41Z) - Rediscovering Entropy Regularization: Adaptive Coefficient Unlocks Its Potential for LLM Reinforcement Learning [55.59724323303857]
本稿では,3つのコンポーネントによる探索と利用のバランスをとるフレームワークを提案する。
複数の数学的推論ベンチマークの実験は、AERが一貫してベースラインを上回り、推論精度と探索能力の両方を改善していることを示している。
論文 参考訳(メタデータ) (2025-10-13T03:10:26Z) - Beyond the 80/20 Rule: High-Entropy Minority Tokens Drive Effective Reinforcement Learning for LLM Reasoning [80.87085014818052]
RLVR(Reinforcement Learning with Verifiable Rewards)は,Large Language Models(LLM)の推論能力向上のための強力なアプローチとして登場した。
本研究では,トークンエントロピーパターンの新たな視点からRLVRの先駆的な探索を行う。
トークンのごく一部だけが高いエントロピーを示しており、これらのトークンは様々な推論経路に向けてモデルを操る重要なフォークとして機能する。
論文 参考訳(メタデータ) (2025-06-02T17:54:39Z) - Critical Tokens Matter: Token-Level Contrastive Estimation Enhances LLM's Reasoning Capability [53.51560766150442]
臨界トークンは推論軌道内の要素であり、誤った結果に大きな影響を及ぼす。
本稿では,これらのトークンをロールアウトサンプリングによって識別する新しいフレームワークを提案する。
クリティカルトークンの識別と置換がモデル精度を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-11-29T18:58:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。