論文の概要: The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models
- arxiv url: http://arxiv.org/abs/2505.22617v1
- Date: Wed, 28 May 2025 17:38:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.76743
- Title: The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models
- Title(参考訳): 推論言語モデルのための強化学習のエントロピーメカニズム
- Authors: Ganqu Cui, Yuchen Zhang, Jiacheng Chen, Lifan Yuan, Zhi Wang, Yuxin Zuo, Haozhan Li, Yuchen Fan, Huayu Chen, Weize Chen, Zhiyuan Liu, Hao Peng, Lei Bai, Wanli Ouyang, Yu Cheng, Bowen Zhou, Ning Ding,
- Abstract要約: 本稿では,LLMによる推論,すなわち政策エントロピーの崩壊において,RLのスケーリングの大きな障害を克服することを目的としている。
実際には、エントロピーHと下流性能Rの間の変換方程式R=-a*eH+bを確立する。
Clip-Cov と KL-Cov という2つの単純かつ効果的な手法を提案する。
- 参考スコア(独自算出の注目度): 99.98293908799731
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper aims to overcome a major obstacle in scaling RL for reasoning with LLMs, namely the collapse of policy entropy. Such phenomenon is consistently observed across vast RL runs without entropy intervention, where the policy entropy dropped sharply at the early training stage, this diminished exploratory ability is always accompanied with the saturation of policy performance. In practice, we establish a transformation equation R=-a*e^H+b between entropy H and downstream performance R. This empirical law strongly indicates that, the policy performance is traded from policy entropy, thus bottlenecked by its exhaustion, and the ceiling is fully predictable H=0, R=-a+b. Our finding necessitates entropy management for continuous exploration toward scaling compute for RL. To this end, we investigate entropy dynamics both theoretically and empirically. Our derivation highlights that, the change in policy entropy is driven by the covariance between action probability and the change in logits, which is proportional to its advantage when using Policy Gradient-like algorithms. Empirical study shows that, the values of covariance term and entropy differences matched exactly, supporting the theoretical conclusion. Moreover, the covariance term stays mostly positive throughout training, further explaining why policy entropy would decrease monotonically. Through understanding the mechanism behind entropy dynamics, we motivate to control entropy by restricting the update of high-covariance tokens. Specifically, we propose two simple yet effective techniques, namely Clip-Cov and KL-Cov, which clip and apply KL penalty to tokens with high covariances respectively. Experiments show that these methods encourage exploration, thus helping policy escape entropy collapse and achieve better downstream performance.
- Abstract(参考訳): 本稿では,LLMによる推論,すなわち政策エントロピーの崩壊において,RLのスケーリングの大きな障害を克服することを目的としている。
このような現象は、エントロピー介入のない広大なRL走行において一貫して観察され、初期の訓練段階でポリシーエントロピーが急降下し、この探索能力の低下は、常に政策性能の飽和を伴う。
この実証法則は、政策性能は政策エントロピーから引き離され、その疲労によってボトルネックとなり、天井は完全に予測可能なH=0, R=-a+bであることが強く示している。
我々の発見は、RLの計算のスケーリングに向けた継続的な探索にエントロピー管理を必要とする。
この目的のために、理論的にも経験的にもエントロピー力学を調査する。
我々の導出によれば、政策エントロピーの変化は、行動確率とロジットの変化の共分散によって引き起こされる。
実証的研究により、共分散項とエントロピー差の値は正確に一致し、理論的な結論を支持することが示されている。
さらに、共分散項はトレーニングを通して主に肯定的であり、政策エントロピーが単調に減少する理由を説明する。
エントロピー力学の背後にあるメカニズムを理解することによって、高共分散トークンの更新を制限することにより、エントロピーを制御する動機付けを行う。
具体的には,Clip-Cov と KL-Cov の2つの単純かつ効果的な手法を提案する。
実験の結果、これらの手法は探索を奨励し、政策のエントロピー崩壊を回避し、下流のパフォーマンスを向上させることが示されている。
関連論文リスト
- Diffusion-based Reinforcement Learning via Q-weighted Variational Policy Optimization [55.97310586039358]
拡散モデルは強化学習(Reinforcement Learning, RL)において、その強力な表現力と多モード性に対して広く注目を集めている。
モデルなし拡散に基づくオンラインRLアルゴリズムQ-weighted Variational Policy Optimization (QVPO)を提案する。
具体的には、ある条件下でのオンラインRLにおける政策目標の厳密な下限を証明できるQ重み付き変動損失を導入する。
また,オンラインインタラクションにおける拡散ポリシのばらつきを低減し,サンプル効率を向上させるための効率的な行動ポリシーも開発している。
論文 参考訳(メタデータ) (2024-05-25T10:45:46Z) - On the Global Convergence of Policy Gradient in Average Reward Markov
Decision Processes [50.68789924454235]
我々は、平均報酬マルコフ決定過程(MDP)の文脈における政策勾配の最初の有限時間大域収束解析を示す。
我々の分析によると、ポリシー勾配は、$Oleft(frac1Tright)$のサブリニアレートで最適ポリシーに収束し、$Oleft(log(T)right)$ regretに変換され、$T$は反復数を表す。
論文 参考訳(メタデータ) (2024-03-11T15:25:03Z) - Predictable Reinforcement Learning Dynamics through Entropy Rate Minimization [16.335645061396455]
強化学習(RL)では、エージェントは予測可能な行動を示すインセンティブを持たない。
予測可能性を考慮したRL(predictability-Aware RL)と呼ばれるRLエージェントの予測可能な振る舞いを誘導する新しい手法を提案する。
提案手法は,標準割引報酬と負のエントロピー率の線形結合を最大化することにより,最適性を予測可能性と引き換えに行う。
論文 参考訳(メタデータ) (2023-11-30T16:53:32Z) - Optimal scheduling of entropy regulariser for continuous-time
linear-quadratic reinforcement learning [9.779769486156631]
ここで、エージェントは最適な緩和ポリシーに従って分散されたノイズ制御を生成することで環境と相互作用する。
この探索-探索トレードオフはエントロピー正則化の強さによって決定される。
どちらの学習アルゴリズムも、$mathcalO(sqrtN)$(対数係数まで)を$N$のエピソードよりも高く、文献から最もよく知られた結果と一致することを証明している。
論文 参考訳(メタデータ) (2022-08-08T23:36:40Z) - Action Redundancy in Reinforcement Learning [54.291331971813364]
遷移エントロピーはモデル依存遷移エントロピーと作用冗長性という2つの用語で記述できることを示す。
その結果,行動冗長性は強化学習の根本的な問題であることが示唆された。
論文 参考訳(メタデータ) (2021-02-22T19:47:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。