論文の概要: Not All Tokens Learn Alike: Attention Entropy Reveals Heterogeneous Signals in RL Reasoning
- arxiv url: http://arxiv.org/abs/2605.07660v1
- Date: Fri, 08 May 2026 12:31:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:39.039878
- Title: Not All Tokens Learn Alike: Attention Entropy Reveals Heterogeneous Signals in RL Reasoning
- Title(参考訳): 注意のエントロピーがRL推論における異種信号の発見
- Authors: Gengyang Li, Zheng-Fan Wu, Siqi Bao, Yunfang Wu,
- Abstract要約: 強化学習に基づくポストトレーニングは、大規模言語モデルの推論能力を向上させるための重要なアプローチとなっている。
この研究は、各応答トークンに対する文脈支援の集中度や拡散度を測定する注意エントロピーを通して、それらの不均一性を研究する。
- 参考スコア(独自算出の注目度): 11.322734738973603
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement-learning-based post-training has become a key approach for improving the reasoning ability of large language models, but its token-level learning signals remain poorly understood. This work studies their heterogeneity through attention entropy, which measures how concentrated or diffuse the contextual support is for each response token. We first show that token-level RL objectives are sparsely estimable: uniformly random 20 percent token subsets preserve much of the full-token held-out performance, suggesting substantial redundancy in token-level updates. However, entropy-structured subsets behave very differently. Low-attention-entropy tokens, which we call anchors, rely on concentrated support, produce stable gradients aligned with full-token updates, and provide a reliable optimization backbone, but tend to plateau on harder benchmarks. High-attention-entropy tokens, which we call explorers, aggregate more diffuse context and induce larger but more volatile gradients. Explorer-only training is unstable on average, though rare successful runs suggest that these tokens may contain useful hard-reasoning signals when optimization remains stable. We support this anchor-explorer spectrum with evidence-gathering analyses, entropy dynamics, gradient-geometry diagnostics, and controls showing that position, predictive entropy, and loss normalization do not explain the observed asymmetry. Finally, a dynamic entropy-aware soft-reweighting intervention improves Qwen3-8B-Base from 34.39 to 37.40 held-out average in the strongest setting. These findings suggest that attention entropy reveals optimization-relevant structure in token-level RL signals, and that uniform token averaging can obscure meaningful heterogeneity in reasoning post-training.
- Abstract(参考訳): 強化学習に基づくポストトレーニングは,大規模言語モデルの推論能力向上の鍵となるアプローチとなっているが,トークンレベルの学習信号はあまり理解されていない。
この研究は、各応答トークンに対する文脈支援の集中度や拡散度を測定する注意エントロピーを通して、それらの不均一性を研究する。
トークンレベルのRLの目的は、一様にランダムに20パーセントのトークンサブセットが、完全なホールドアウト性能の多くを保持し、トークンレベルの更新にかなりの冗長性を示唆している。
しかし、エントロピー構造の部分集合は非常に異なる振る舞いをする。
アンカーと呼ばれる低アテンションエントロピートークンは、集中的なサポートに依存し、完全な更新と整合した安定した勾配を生成し、信頼性の高い最適化バックボーンを提供する。
私たちが探検家と呼ぶ高アテンションエントロピートークンは、より拡散したコンテキストを集約し、より大きく、より揮発的な勾配を誘導します。
エクスプローラーのみのトレーニングは平均的に不安定であるが、成功例は少ない。
我々は,このアンカー・サーベイラスペクトルを,エビデンス・ギャザリング解析,エントロピー力学,勾配・幾何学的診断,およびその位置,予測エントロピー,損失正規化が観察された非対称性を説明できないことを示す制御を用いて支援する。
最後に、ダイナミックエントロピーを意識したソフトリウェイト介入により、Qwen3-8Bベースが34.39から37.40に向上する。
これらの結果は,注目エントロピーがトークンレベルRL信号の最適化関連構造を明らかにし,一様トークン平均化がポストトレーニングの推論において意味のある不均一性を示すことを示唆している。
関連論文リスト
- Rethinking Token-Level Credit Assignment in RLVR: A Polarity-Entropy Analysis [33.07421874137999]
RLVRによる強化学習は大規模言語モデル(LLM)の推論能力を大幅に向上させた
我々は、報酬極性とトークンエントロピーのジョイントレンズを用いてこの問題を分析する。
トークンレベルの学習信号を変調するエントロピー・アウェア・ポリシー最適化(EAPO)を提案する。
論文 参考訳(メタデータ) (2026-04-13T06:32:49Z) - Early Decisions Matter: Proximity Bias and Initial Trajectory Shaping in Non-Autoregressive Diffusion Language Models [54.16797570104461]
拡散ベースの言語モデル (dLLMs) は自己回帰型言語モデルに代わる有望な代替品として登場した。
時間軸に沿った推論ダイナミクスを系統的に解析し, dLLMの非自己回帰復号化について検討した。
論文 参考訳(メタデータ) (2026-04-12T10:26:41Z) - STAPO: Stabilizing Reinforcement Learning for LLMs by Silencing Rare Spurious Tokens [38.425692691443764]
既存の強化学習(RL)ファインチューニング手法は、安定性を維持するためにエントロピー正則化と再重み付けに大きく依存している。
実際には、彼らはしばしば後期的なパフォーマンスの崩壊に悩まされ、推論品質の低下と不安定なトレーニングにつながります。
トレーニングの不安定性は、約0.01%の少量のトークンによって引き起こされる可能性がある。
安定かつ効果的な大規模モデル改良を促進するSTAPO(Spurious-Token-Aware Policy Optimization)を提案する。
論文 参考訳(メタデータ) (2026-02-17T14:46:48Z) - Probability-Entropy Calibration: An Elastic Indicator for Adaptive Fine-tuning [55.2818264614932]
RankTunerは確率エントロピーキャリブレーション信号、相対ランクインジケータを導入し、予測分布の下で接地トラストークンのランクと期待ランクを比較する。
逆インジケータはトークン単位の相対尺度として使用され、微調整の目的を再重み付けし、真に未学習のトークンを更新する。
論文 参考訳(メタデータ) (2026-02-02T07:27:19Z) - EDIS: Diagnosing LLM Reasoning via Entropy Dynamics [3.858418431840288]
生成過程における信頼の時空間的進化は,集計統計単独よりも豊かな情報をもたらすことを示す。
本稿では,エントロピー進化における不安定性を定量化するための軌道レベルの指標であるエントロピーダイナミクス不安定スコア(textbfEDIS)を紹介する。
論文 参考訳(メタデータ) (2026-02-01T15:43:50Z) - Attention Illuminates LLM Reasoning: The Preplan-and-Anchor Rhythm Enables Fine-Grained Policy Optimization [56.083511902353365]
強化学習(Reinforcement Learning, RL)は、一般的に、大規模言語モデルの全世代にわたって一様クレジットを適用する。
この研究は、LSMの内部論理を推論自体の機械的青写真として描画する特権基板として注意を向けている。
クリティカルノードに対するターゲットクレジット割り当てを動的に行う3つの新しいRL戦略を導入する。
論文 参考訳(メタデータ) (2025-10-15T13:49:51Z) - Emergent Hierarchical Reasoning in LLMs through Reinforcement Learning [56.496001894673235]
強化学習(RL)は,大規模言語モデル(LLM)の複雑な推論能力の向上に有効であることが証明された。
解析の結果,アハモーメント,長さスケーリング,エントロピーのダイナミクスといったファズリング現象は異なる現象ではなく,創発的推論階層の目印であることがわかった。
論文 参考訳(メタデータ) (2025-09-03T18:52:49Z) - Beyond the 80/20 Rule: High-Entropy Minority Tokens Drive Effective Reinforcement Learning for LLM Reasoning [80.87085014818052]
RLVR(Reinforcement Learning with Verifiable Rewards)は,Large Language Models(LLM)の推論能力向上のための強力なアプローチとして登場した。
本研究では,トークンエントロピーパターンの新たな視点からRLVRの先駆的な探索を行う。
トークンのごく一部だけが高いエントロピーを示しており、これらのトークンは様々な推論経路に向けてモデルを操る重要なフォークとして機能する。
論文 参考訳(メタデータ) (2025-06-02T17:54:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。