論文の概要: Revisiting Entropy in Reinforcement Learning for Large Reasoning Models
- arxiv url: http://arxiv.org/abs/2511.05993v1
- Date: Sat, 08 Nov 2025 12:50:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.70163
- Title: Revisiting Entropy in Reinforcement Learning for Large Reasoning Models
- Title(参考訳): 大規模推論モデルの強化学習におけるエントロピーの再検討
- Authors: Renren Jin, Pengzhi Gao, Yuqi Ren, Zhuowen Han, Tongxuan Zhang, Wuwei Huang, Wei Liu, Jian Luan, Deyi Xiong,
- Abstract要約: 検証可能な報酬(RLVR)を用いた強化学習で訓練した大規模言語モデルのエントロピーダイナミクスについて検討する。
以上の結果から,RLVRでトレーニングしたLDMのエントロピーに影響を及ぼす重要な要因として,非政治的更新数,トレーニングデータの多様性,最適化目標におけるクリッピング閾値が示唆された。
- 参考スコア(独自算出の注目度): 54.96908589622163
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning with verifiable rewards (RLVR) has emerged as a predominant approach for enhancing the reasoning capabilities of large language models (LLMs). However, the entropy of LLMs usually collapses during RLVR training, causing premature convergence to suboptimal local minima and hinder further performance improvement. Although various approaches have been proposed to mitigate entropy collapse, a comprehensive study of entropy in RLVR remains lacking. To address this gap, we conduct extensive experiments to investigate the entropy dynamics of LLMs trained with RLVR and analyze how model entropy correlates with response diversity, calibration, and performance across various benchmarks. Our findings reveal that the number of off-policy updates, the diversity of training data, and the clipping thresholds in the optimization objective are critical factors influencing the entropy of LLMs trained with RLVR. Moreover, we theoretically and empirically demonstrate that tokens with positive advantages are the primary contributors to entropy collapse, and that model entropy can be effectively regulated by adjusting the relative loss weights of tokens with positive and negative advantages during training.
- Abstract(参考訳): 検証可能な報酬(RLVR)による強化学習は,大規模言語モデル(LLM)の推論能力を高める主要なアプローチとして現れている。
しかし、LLMのエントロピーは、通常RLVRトレーニング中に崩壊し、早めに局所的最小値に収束し、さらなる性能向上を阻害する。
エントロピー崩壊を緩和するための様々なアプローチが提案されているが、RLVRにおけるエントロピーの包括的研究は依然として不十分である。
このギャップに対処するために、我々はRLVRで訓練されたLLMのエントロピーダイナミクスについて広範な実験を行い、モデルエントロピーが様々なベンチマークで応答の多様性、キャリブレーション、性能とどのように相関するかを分析した。
以上の結果から,RLVRでトレーニングしたLDMのエントロピーに影響を及ぼす重要な要因として,非政治的更新数,トレーニングデータの多様性,最適化目標におけるクリッピング閾値が示唆された。
さらに, 正の利点をもつトークンがエントロピー崩壊の主要な要因であり, モデルエントロピーは, トレーニング中のトークンの相対損失重みを正および負のアドバンテージで調整することにより, 効果的に制御できることを示した。
関連論文リスト
- Explore Data Left Behind in Reinforcement Learning for Reasoning Language Models [61.78513830395669]
RLVR(Reinforcement Learning with Verifiable Rewards)は,大規模言語モデル(LLM)の推論能力向上に有効な手法として登場した。
モデルがより長く、規模が大きくなるにつれて、トレーニングのプロンプトは残余のプロンプトになる。
政策最適化フレームワークにおける探索的残留確率(Explore Residual Prompts in Policy Optimization)を提案する。
論文 参考訳(メタデータ) (2025-11-06T20:40:27Z) - Efficient Reinforcement Learning for Large Language Models with Intrinsic Exploration [33.02780998281276]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデルの推論能力を改善した。
本研究は,RLVRにおけるデータ効率の向上に本質的なデータ特性の活用,すなわちトレーニング中のほぼ自由な利益をいかに生かすかを検討する。
論文 参考訳(メタデータ) (2025-11-02T04:16:47Z) - Rediscovering Entropy Regularization: Adaptive Coefficient Unlocks Its Potential for LLM Reinforcement Learning [55.59724323303857]
本稿では,3つのコンポーネントによる探索と利用のバランスをとるフレームワークを提案する。
複数の数学的推論ベンチマークの実験は、AERが一貫してベースラインを上回り、推論精度と探索能力の両方を改善していることを示している。
論文 参考訳(メタデータ) (2025-10-13T03:10:26Z) - Clip-Low Increases Entropy and Clip-High Decreases Entropy in Reinforcement Learning of Large Language Models [29.822717720666134]
PPOとGRPOのクリッピング機構がエントロピーのバイアスを引き起こすことを示す。
より積極的なクリップロー値では、RLVRトレーニングにおいてエントロピーを増加させ、探索を促進し、最終的にエントロピー崩壊を防ぐことができる。
論文 参考訳(メタデータ) (2025-09-30T11:33:15Z) - Decomposing the Entropy-Performance Exchange: The Missing Keys to Unlocking Effective Reinforcement Learning [106.68304931854038]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデル(LLM)の推論能力を高めるために広く用いられている。
我々は,RLVRのエントロピー・パフォーマンス交換機構を,異なるレベルの粒度で系統的に解析する。
分析の結果, 上昇段階において, 負のサンプルのエントロピー減少は効果的な推論パターンの学習を促進することが明らかとなった。
プラトー段階では、学習効率は、低エントロピーのサンプルに存在する高エントロピートークンと、シーケンスの終端に位置するトークンと強く相関する。
論文 参考訳(メタデータ) (2025-08-04T10:08:10Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。