論文の概要: Understanding and Preventing Entropy Collapse in RLVR with On-Policy Entropy Flow Optimization
- arxiv url: http://arxiv.org/abs/2605.11491v1
- Date: Tue, 12 May 2026 04:08:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.566067
- Title: Understanding and Preventing Entropy Collapse in RLVR with On-Policy Entropy Flow Optimization
- Title(参考訳): オンラインエントロピーフロー最適化を用いたRLVRにおけるエントロピー崩壊の理解と防止
- Authors: Huimin Xu, Shuai Zhao, Xiaobao Wu, Anh Tuan Luu,
- Abstract要約: 本研究では,エントロピー変化への寄与に応じて,エントロピー増加とエントロピー減少の更新を再スケールする適応的エントロピーフローバランス機構を提案する。
6つの数学的推論ベンチマークの実験は、OPEFOがトレーニングと最終的なパフォーマンスを改善することを示した。
- 参考スコア(独自算出の注目度): 53.75029276020459
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning with verifiable rewards (RLVR) has become an effective paradigm for improving the reasoning ability of large language models. However, widely used RLVR algorithms, such as GRPO, often suffer from entropy collapse, leading to premature determinism and unstable optimization. Existing remedies, including entropy regularization and ratio-based clipping heuristics, either control entropy in a coarse-grained manner or rely on approximate on-policy training. In this paper, we revisit entropy collapse from a token-level entropy flow perspective. Our analysis reveals that entropy-decreasing tokens consistently outweigh entropy-increasing ones, resulting in a severely imbalanced entropy flow. This perspective provides a unified explanation of entropy collapse in existing RLVR algorithms and highlights the importance of balancing entropy dynamics. Motivated by this analysis, we propose On-Policy Entropy Flow Optimization (OPEFO), an adaptive entropy flow balancing mechanism that rescales entropy-increasing and entropy-decreasing updates according to their contributions to entropy change, while remaining strict on-policy. Experiments on six mathematical reasoning benchmarks demonstrate that OPEFO improves training stability and final performance. We will release the code and models upon publication.
- Abstract(参考訳): 検証可能な報酬付き強化学習(RLVR)は,大規模言語モデルの推論能力向上に有効なパラダイムとなっている。
しかし、GRPOのような広く使われているRLVRアルゴリズムはエントロピーの崩壊に悩まされ、初期決定論と不安定な最適化につながった。
エントロピー正則化や比率に基づくクリッピングヒューリスティックスを含む既存の治療法は、エントロピーを粗い粒度で制御するか、あるいはほぼ政治の訓練に依存している。
本稿では,トークンレベルのエントロピーフローの観点からエントロピー崩壊を再考する。
分析の結果, エントロピー減少トークンはエントロピー増加トークンより一貫して優れており, 非常に不均衡なエントロピーフローとなることがわかった。
この視点は、既存のRLVRアルゴリズムにおけるエントロピー崩壊の統一的な説明を提供し、エントロピーダイナミクスのバランスの重要性を強調している。
この分析により, エントロピー変化への寄与に応じてエントロピー増加とエントロピー減少の更新を再スケールする適応的エントロピーフローバランス機構であるオン・ポリティ・エントロピーフロー最適化(OPEFO)を提案する。
6つの数学的推論ベンチマークの実験により、OPEFOはトレーニングの安定性と最終的なパフォーマンスを改善することが示された。
コードとモデルを公開時にリリースします。
関連論文リスト
- Entropy Polarity in Reinforcement Fine-Tuning: Direction, Asymmetry, and Control [77.8471519867791]
実験的に、エントロピー極性はエントロピーの変化を確実に予測することを示した。
本稿では、両極性分岐を保護し、有利な再重み付けによるエントロピー制御を実装するPAPO(Polarity-Aware Policy Optimization)を提案する。
論文 参考訳(メタデータ) (2026-05-12T08:47:05Z) - On the Entropy Dynamics in Reinforcement Fine-Tuning of Large Language Models [54.61810451777578]
エントロピーは、大きな言語モデルによって生成される出力の多様性を測定するための重要な指標となる。
近年の研究では、強化微調整における探究と利用のバランスを改善するために、エントロピーの監視と調整に重点を置いている。
論文 参考訳(メタデータ) (2026-02-03T11:14:58Z) - Revisiting Entropy in Reinforcement Learning for Large Reasoning Models [54.96908589622163]
検証可能な報酬(RLVR)を用いた強化学習で訓練した大規模言語モデルのエントロピーダイナミクスについて検討する。
以上の結果から,RLVRでトレーニングしたLDMのエントロピーに影響を及ぼす重要な要因として,非政治的更新数,トレーニングデータの多様性,最適化目標におけるクリッピング閾値が示唆された。
論文 参考訳(メタデータ) (2025-11-08T12:50:41Z) - Mind Your Entropy: From Maximum Entropy to Trajectory Entropy-Constrained RL [56.085103402298905]
本稿では,この2つの課題に対処する軌道エントロピー制約強化学習(TECRL)フレームワークを提案する。
このフレームワーク内では、まず報酬とエントロピーに関連する2つのQ-関数を個別に学習し、温度更新の影響を受けないクリーンで安定した値ターゲットを確保する。
我々は,3つの改良を加えて,最先端の分散型ソフトアクター批判を拡張して,現実的な非政治的アルゴリズムDSAC-Eを開発した。
論文 参考訳(メタデータ) (2025-10-25T09:17:47Z) - Rethinking Entropy Interventions in RLVR: An Entropy Change Perspective [11.65148836911294]
エントロピー崩壊は政策の多様性の急激な喪失であり、探検と爆発の不均衡から起因し、一般化の欠如につながっている。
最近のエントロピー・インターベンション法は、色覚エントロピーの崩壊を防ぐことを目的としているが、その基盤となるメカニズムは明らかになっていない。
エントロピー変化を考慮した再重み付け方式,すなわち,再重み付け(STEER)によるトークンレベルのエントロピーチェンジEの安定化を提案する。
論文 参考訳(メタデータ) (2025-10-11T10:17:38Z) - Arbitrary Entropy Policy Optimization: Entropy Is Controllable in Reinforcement Fine-tuning [36.00460460149206]
本稿では, エントロピーボーナスをREINFORCEポリシー勾配に置き換えることで, エントロピー崩壊を解消するArbitrary Entropy Policy Optimization (AEPO)を提案する。
AEPOは、ポリシー勾配を正規化として、分布を正規化として、REINFORCEを正規化として統合し、最適化を歪ませることなく正確なエントロピー制御を可能にする。
論文 参考訳(メタデータ) (2025-10-09T12:24:08Z) - The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models [99.98293908799731]
本稿では,LLMによる推論,すなわち政策エントロピーの崩壊において,RLのスケーリングの大きな障害を克服することを目的としている。
実際には、エントロピーHと下流性能Rの間の変換方程式R=-a*eH+bを確立する。
Clip-Cov と KL-Cov という2つの単純かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2025-05-28T17:38:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。