論文の概要: Rediscovering Entropy Regularization: Adaptive Coefficient Unlocks Its Potential for LLM Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2510.10959v2
- Date: Thu, 16 Oct 2025 08:13:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 14:17:28.086566
- Title: Rediscovering Entropy Regularization: Adaptive Coefficient Unlocks Its Potential for LLM Reinforcement Learning
- Title(参考訳): エントロピー正規化の再発見:適応係数はLLM強化学習の可能性を解き放つ
- Authors: Xiaoyun Zhang, Xiaojian Yuan, Di Huang, Wang You, Chen Hu, Jingqing Ruan, Kejiang Chen, Xing Hu,
- Abstract要約: 本稿では,3つのコンポーネントによる探索と利用のバランスをとるフレームワークを提案する。
複数の数学的推論ベンチマークの実験は、AERが一貫してベースラインを上回り、推論精度と探索能力の両方を改善していることを示している。
- 参考スコア(独自算出の注目度): 55.59724323303857
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reasoning ability has become a defining capability of Large Language Models (LLMs), with Reinforcement Learning with Verifiable Rewards (RLVR) emerging as a key paradigm to enhance it. However, RLVR training often suffers from policy entropy collapse, where the policy becomes overly deterministic, hindering exploration and limiting reasoning performance. While entropy regularization is a common remedy, its effectiveness is highly sensitive to the fixed coefficient, making it unstable across tasks and models. In this work, we revisit entropy regularization in RLVR and argue that its potential has been largely underestimated. Our analysis shows that (i) tasks of varying difficulty demand distinct exploration intensities, and (ii) balanced exploration may require the policy entropy to be maintained within a moderate range below its initial level. Therefore, we propose Adaptive Entropy Regularization (AER)--a framework that dynamically balances exploration and exploitation via three components: difficulty-aware coefficient allocation, initial-anchored target entropy, and dynamic global coefficient adjustment. Experiments on multiple mathematical reasoning benchmarks show that AER consistently outperforms baselines, improving both reasoning accuracy and exploration capability.
- Abstract(参考訳): Reinforcement Learning with Verifiable Rewards (RLVR) がそれを強化する重要なパラダイムとして登場している。
しかし、RLVRトレーニングは政策エントロピーの崩壊に悩まされ、政策は過度に決定論的になり、探索を妨げ、推論性能を制限する。
エントロピー正則化は一般的な治療法であるが、その有効性は固定係数に非常に敏感であり、タスクやモデル間で不安定である。
本研究では、RLVRにおけるエントロピー正則化を再検討し、そのポテンシャルは概ね過小評価されていると論じる。
私たちの分析は
一 難易度の異なる業務は、探究力の差分を要求し、
(二)バランスの取れた探検は、政策のエントロピーを当初の水準を下回る適度な範囲で維持する必要があるかもしれない。
そこで本稿では, 適応エントロピー正規化(AER)フレームワークを提案する。このフレームワークは, 探索と利用を3つのコンポーネント(難易度対応係数割り当て, 初期適応目標エントロピー, 動的大域係数調整)で動的にバランスする。
複数の数学的推論ベンチマークの実験は、AERが一貫してベースラインを上回り、推論精度と探索能力の両方を改善していることを示している。
関連論文リスト
- Rethinking Entropy Interventions in RLVR: An Entropy Change Perspective [11.65148836911294]
エントロピー崩壊は政策の多様性の急激な喪失であり、探検と爆発の不均衡から起因し、一般化の欠如につながっている。
最近のエントロピー・インターベンション法は、色覚エントロピーの崩壊を防ぐことを目的としているが、その基盤となるメカニズムは明らかになっていない。
エントロピー変化を考慮した再重み付け方式,すなわち,再重み付け(STEER)によるトークンレベルのエントロピーチェンジEの安定化を提案する。
論文 参考訳(メタデータ) (2025-10-11T10:17:38Z) - Pinpointing crucial steps: Attribution-based Credit Assignment for Verifiable Reinforcement Learning [5.880405013005892]
ACPOは、困難なカリキュラムを組み込んだ段階的なフレームワークである。
ACPOは、トラジェクティブセマンティックセグメンテーションと属性ベースの表現を用いて探索を改善する。
これは、各推論ステップの階層的寄与を正確に定量化する分解された報酬システムによる搾取を強化する。
論文 参考訳(メタデータ) (2025-10-10T01:22:55Z) - ARES: Multimodal Adaptive Reasoning via Difficulty-Aware Token-Level Entropy Shaping [54.37497695483689]
本稿では,タスクの難易度に基づいて探索作業を動的に割り当てる適応推論のための統合フレームワークであるARESを提案する。
単一トークンエントロピーはノイズが多いが,高いウィンドウエントロピー(HWE)トークンは推論クリティカルな瞬間を確実に捉えることができる。
In the Adaptive Cold-Start stage, we curate multimodal and textual data paired with reasoning traces of length proportional to problem difficulty。
第2段階では,HWEトークンを探索トリガとする適応エントロピーポリシー最適化(AEPO)を開発する。
論文 参考訳(メタデータ) (2025-10-09T17:03:28Z) - Rethinking Entropy Regularization in Large Reasoning Models [43.961667993429906]
検証可能な報酬(RLVR)による強化学習は、大きな推論モデル(LRM)の推論能力を高める上で大きな可能性を示している。
エントロピー崩壊と早期収束という重大な問題に悩まされている。
本稿では,SIREN(SelectIve entRopy rEgularizatioN)を提案する。
論文 参考訳(メタデータ) (2025-09-29T17:49:25Z) - EPO: Entropy-regularized Policy Optimization for LLM Agents Reinforcement Learning [15.529826552402769]
スパース報酬を伴うマルチターン環境におけるLLMエージェントの訓練は、強化学習の根本的な課題である。
この設定に特有のクリティカルな障害モード、すなわち探索・探索カスケードの障害を特定します。
本稿では,この障害サイクルを3つの相乗的メカニズムによって破る一般的なフレームワークであるエントロピー規則化政策最適化(EPO)を提案する。
論文 参考訳(メタデータ) (2025-09-26T16:51:44Z) - The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models [99.98293908799731]
本稿では,LLMによる推論,すなわち政策エントロピーの崩壊において,RLのスケーリングの大きな障害を克服することを目的としている。
実際には、エントロピーHと下流性能Rの間の変換方程式R=-a*eH+bを確立する。
Clip-Cov と KL-Cov という2つの単純かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2025-05-28T17:38:45Z) - Overcoming Non-stationary Dynamics with Evidential Proximal Policy Optimization [11.642505299142956]
非定常環境の継続的な制御は、深層強化学習アルゴリズムの大きな課題である。
政治上の強化学習を、明白な批評家と実践することは、これらの特性の両方を提供することを示す。
得られたアルゴリズムは、政策評価と政策改善の段階において、明らかな不確実性の不可欠な役割のために、$textit Evidential Proximal Policy Optimization (EPPO)$と命名する。
論文 参考訳(メタデータ) (2025-03-03T12:23:07Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。