論文の概要: Rethinking Entropy Interventions in RLVR: An Entropy Change Perspective
- arxiv url: http://arxiv.org/abs/2510.10150v1
- Date: Sat, 11 Oct 2025 10:17:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.81225
- Title: Rethinking Entropy Interventions in RLVR: An Entropy Change Perspective
- Title(参考訳): RLVRにおけるエントロピー干渉の再考:エントロピー変化の視点から
- Authors: Zhezheng Hao, Hong Wang, Haoyang Liu, Jian Luo, Jiarui Yu, Hande Dong, Qiang Lin, Can Wang, Jiawei Chen,
- Abstract要約: エントロピー崩壊は政策の多様性の急激な喪失であり、探検と爆発の不均衡から起因し、一般化の欠如につながっている。
最近のエントロピー・インターベンション法は、色覚エントロピーの崩壊を防ぐことを目的としているが、その基盤となるメカニズムは明らかになっていない。
エントロピー変化を考慮した再重み付け方式,すなわち,再重み付け(STEER)によるトークンレベルのエントロピーチェンジEの安定化を提案する。
- 参考スコア(独自算出の注目度): 11.65148836911294
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Reinforcement Learning with Verifiable Rewards (RLVR) can enhance LLM reasoning, its training process poses a critical risk: entropy collapse. This phenomenon is a rapid loss of policy diversity, stemming from the exploration-exploitation imbalance and leading to a lack of generalization. Recent entropy-intervention methods aim to prevent \coloredtext{entropy collapse}, yet their underlying mechanisms remain unclear. In this paper, we conduct a quantitative analysis to reveal token-level entropy changes and how existing entropy intervention methods help avoid entropy collapse. Our findings point out a fundamental limitation of existing methods: they attempt to control entropy dynamics indirectly. By only affecting related factors, such as the advantage signal and generation probability, their effectiveness is inherently limited and could potentially fail. To address this limitation, we introduce an entropy-change-aware reweighting scheme, namely Stabilizing Token-level Entropy-changE via Reweighting (STEER), that adaptively stabilizes entropy dynamics through fine-grained token-level adjustments. Our approach mitigates over-exploitation while fostering robust exploration. Extensive experiments demonstrate that STEER significantly mitigates entropy collapse, stabilizes entropy dynamics, and achieves stronger downstream performance across various mathematical reasoning benchmarks \footnote{Our code is available at https://github.com/zz-haooo/STEER.
- Abstract(参考訳): Reinforcement Learning with Verifiable Rewards (RLVR)はLLM推論を強化することができるが、そのトレーニングプロセスはエントロピー崩壊という重大なリスクを引き起こす。
この現象は急激な政策の多様性の喪失であり、探検と爆発の不均衡から起因し、一般化の欠如につながっている。
近年のエントロピー・インターベンション法は \ Colortext{entropy collapse} の防止を目的としている。
本稿では,トークンレベルのエントロピー変化の定量的解析を行い,既存のエントロピー介入法がエントロピー崩壊の防止にどのように役立つかを明らかにする。
本研究は,エントロピー力学を間接的に制御しようとする既存手法の基本的な限界を指摘する。
有利な信号や生成確率のような関連する要因にのみ影響を与えることにより、その効果は本質的に制限され、潜在的に失敗する可能性がある。
この制限に対処するため、トークンレベルの微粒化によるエントロピーダイナミクスを適応的に安定化するエントロピーシフト対応再重み付け方式(STEER)を導入する。
私たちのアプローチは、堅牢な探査を奨励しながら過剰な探索を軽減します。
広範な実験により、STEERはエントロピーの崩壊を著しく軽減し、エントロピーのダイナミクスを安定化し、様々な数学的推論ベンチマークでより強力なダウンストリーム性能を達成することが示されている。
関連論文リスト
- Rediscovering Entropy Regularization: Adaptive Coefficient Unlocks Its Potential for LLM Reinforcement Learning [55.59724323303857]
本稿では,3つのコンポーネントによる探索と利用のバランスをとるフレームワークを提案する。
複数の数学的推論ベンチマークの実験は、AERが一貫してベースラインを上回り、推論精度と探索能力の両方を改善していることを示している。
論文 参考訳(メタデータ) (2025-10-13T03:10:26Z) - Arbitrary Entropy Policy Optimization: Entropy Is Controllable in Reinforcement Fine-tuning [36.00460460149206]
本稿では, エントロピーボーナスをREINFORCEポリシー勾配に置き換えることで, エントロピー崩壊を解消するArbitrary Entropy Policy Optimization (AEPO)を提案する。
AEPOは、ポリシー勾配を正規化として、分布を正規化として、REINFORCEを正規化として統合し、最適化を歪ませることなく正確なエントロピー制御を可能にする。
論文 参考訳(メタデータ) (2025-10-09T12:24:08Z) - State Entropy Regularization for Robust Reinforcement Learning [49.08983925413188]
状態エントロピー規則化は、構造的および空間的に相関した摂動に対するロバスト性を向上させることを示す。
このようなバリエーションは、伝達学習では一般的であるが、標準的な堅牢な強化学習法では見落とされがちである。
論文 参考訳(メタデータ) (2025-06-08T11:15:31Z) - The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models [99.98293908799731]
本稿では,LLMによる推論,すなわち政策エントロピーの崩壊において,RLのスケーリングの大きな障害を克服することを目的としている。
実際には、エントロピーHと下流性能Rの間の変換方程式R=-a*eH+bを確立する。
Clip-Cov と KL-Cov という2つの単純かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2025-05-28T17:38:45Z) - Entropy-Based Block Pruning for Efficient Large Language Models [81.18339597023187]
性能を維持しつつ効率を向上するエントロピー型プルーニング戦略を提案する。
経験的分析により、隠れ表現のエントロピーは初期ブロックでは減少するが、その後のほとんどのブロックでは徐々に増加することが明らかとなった。
論文 参考訳(メタデータ) (2025-04-04T03:42:34Z) - Action Redundancy in Reinforcement Learning [54.291331971813364]
遷移エントロピーはモデル依存遷移エントロピーと作用冗長性という2つの用語で記述できることを示す。
その結果,行動冗長性は強化学習の根本的な問題であることが示唆された。
論文 参考訳(メタデータ) (2021-02-22T19:47:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。