論文の概要: Flexible Entropy Control in RLVR with Gradient-Preserving Perspective
- arxiv url: http://arxiv.org/abs/2602.09782v1
- Date: Tue, 10 Feb 2026 13:42:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.551067
- Title: Flexible Entropy Control in RLVR with Gradient-Preserving Perspective
- Title(参考訳): 勾配保存を考慮したRLVRのフレキシブルエントロピー制御
- Authors: Kun Chen, Peng Shi, Fanfan Liu, Haibo Qiu, Zhixiong Zeng, Siqi Yang, Wenji Mao,
- Abstract要約: RLVR(Reinforcement Learning with Verifiable Rewards)は、Large Language Models(LLM)の推論能力を高める重要な手法として登場した。
本稿では, 勾配保存クリッピングの観点からRLのエントロピー制御を提案する。
エントロピーを正確に管理するための動的クリッピングしきい値を用いた新しい制御機構を提案する。
- 参考スコア(独自算出の注目度): 19.86794452199207
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning with Verifiable Rewards (RLVR) has emerged as a critical method for enhancing the reasoning capabilities of Large Language Models (LLMs). However, continuous training often leads to policy entropy collapse, characterized by a rapid decay in entropy that results in premature overconfidence, reduced output diversity, and vanishing gradient norms that inhibit learning. Gradient-Preserving Clipping is a primary factor influencing these dynamics, but existing mitigation strategies are largely static and lack a framework connecting clipping mechanisms to precise entropy control. This paper proposes reshaping entropy control in RL from the perspective of Gradient-Preserving Clipping. We first theoretically and empirically verify the contributions of specific importance sampling ratio regions to entropy growth and reduction. Leveraging these findings, we introduce a novel regulation mechanism using dynamic clipping threshold to precisely manage entropy. Furthermore, we design and evaluate dynamic entropy control strategies, including increase-then-decrease, decrease-increase-decrease, and oscillatory decay. Experimental results demonstrate that these strategies effectively mitigate entropy collapse, and achieve superior performance across multiple benchmarks.
- Abstract(参考訳): Reinforcement Learning with Verifiable Rewards (RLVR) は、Large Language Models (LLM) の推論能力を高める重要な手法として登場した。
しかし、継続的な訓練は、しばしば政策のエントロピーの崩壊を招き、エントロピーの急激な崩壊は、早すぎる過信、出力の多様性の低下、学習を妨げる勾配規範の消滅をもたらす。
勾配保存クリッピングはこれらの力学に影響を与える主要な要因であるが、既存の緩和戦略は大部分が静的であり、クリッピング機構と正確なエントロピー制御を結合するフレームワークが欠如している。
本稿では, 勾配保存クリッピングの観点からRLにおけるエントロピーの変形制御を提案する。
まず, エントロピー成長と還元に対する特定の重要サンプリング比領域の寄与を理論的, 実証的に検証した。
これらの知見を活かして,エントロピーを正確に管理するための動的クリッピングしきい値を用いた新しい制御機構を導入する。
さらに, 動的エントロピー制御戦略の設計と評価を行った。
実験により,これらの戦略はエントロピー崩壊を効果的に軽減し,複数のベンチマークにおいて優れた性能を発揮することが示された。
関連論文リスト
- On the Entropy Dynamics in Reinforcement Fine-Tuning of Large Language Models [54.61810451777578]
エントロピーは、大きな言語モデルによって生成される出力の多様性を測定するための重要な指標となる。
近年の研究では、強化微調整における探究と利用のバランスを改善するために、エントロピーの監視と調整に重点を置いている。
論文 参考訳(メタデータ) (2026-02-03T11:14:58Z) - Revisiting Entropy in Reinforcement Learning for Large Reasoning Models [54.96908589622163]
検証可能な報酬(RLVR)を用いた強化学習で訓練した大規模言語モデルのエントロピーダイナミクスについて検討する。
以上の結果から,RLVRでトレーニングしたLDMのエントロピーに影響を及ぼす重要な要因として,非政治的更新数,トレーニングデータの多様性,最適化目標におけるクリッピング閾値が示唆された。
論文 参考訳(メタデータ) (2025-11-08T12:50:41Z) - Rediscovering Entropy Regularization: Adaptive Coefficient Unlocks Its Potential for LLM Reinforcement Learning [55.59724323303857]
本稿では,3つのコンポーネントによる探索と利用のバランスをとるフレームワークを提案する。
複数の数学的推論ベンチマークの実験は、AERが一貫してベースラインを上回り、推論精度と探索能力の両方を改善していることを示している。
論文 参考訳(メタデータ) (2025-10-13T03:10:26Z) - Rethinking Entropy Interventions in RLVR: An Entropy Change Perspective [11.65148836911294]
エントロピー崩壊は政策の多様性の急激な喪失であり、探検と爆発の不均衡から起因し、一般化の欠如につながっている。
最近のエントロピー・インターベンション法は、色覚エントロピーの崩壊を防ぐことを目的としているが、その基盤となるメカニズムは明らかになっていない。
エントロピー変化を考慮した再重み付け方式,すなわち,再重み付け(STEER)によるトークンレベルのエントロピーチェンジEの安定化を提案する。
論文 参考訳(メタデータ) (2025-10-11T10:17:38Z) - Clip-Low Increases Entropy and Clip-High Decreases Entropy in Reinforcement Learning of Large Language Models [29.822717720666134]
PPOとGRPOのクリッピング機構がエントロピーのバイアスを引き起こすことを示す。
より積極的なクリップロー値では、RLVRトレーニングにおいてエントロピーを増加させ、探索を促進し、最終的にエントロピー崩壊を防ぐことができる。
論文 参考訳(メタデータ) (2025-09-30T11:33:15Z) - Decomposing the Entropy-Performance Exchange: The Missing Keys to Unlocking Effective Reinforcement Learning [106.68304931854038]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデル(LLM)の推論能力を高めるために広く用いられている。
我々は,RLVRのエントロピー・パフォーマンス交換機構を,異なるレベルの粒度で系統的に解析する。
分析の結果, 上昇段階において, 負のサンプルのエントロピー減少は効果的な推論パターンの学習を促進することが明らかとなった。
プラトー段階では、学習効率は、低エントロピーのサンプルに存在する高エントロピートークンと、シーケンスの終端に位置するトークンと強く相関する。
論文 参考訳(メタデータ) (2025-08-04T10:08:10Z) - The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models [99.98293908799731]
本稿では,LLMによる推論,すなわち政策エントロピーの崩壊において,RLのスケーリングの大きな障害を克服することを目的としている。
実際には、エントロピーHと下流性能Rの間の変換方程式R=-a*eH+bを確立する。
Clip-Cov と KL-Cov という2つの単純かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2025-05-28T17:38:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。