論文の概要: A Comparative Theoretical Analysis of Entropy Control Methods in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2604.09676v1
- Date: Thu, 02 Apr 2026 18:52:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-19 19:09:11.618287
- Title: A Comparative Theoretical Analysis of Entropy Control Methods in Reinforcement Learning
- Title(参考訳): 強化学習におけるエントロピー制御法の比較理論的解析
- Authors: Ming Lei, Christophe Baehr,
- Abstract要約: 強化学習(RL)は、大規模言語モデル(LLM)における推論の強化の鍵となるアプローチとなっている。
本稿では、従来のエントロピー正規化と、最近提案された共分散に基づくメカニズムの2つのエントロピー制御戦略の比較理論的解析を行う。
- 参考スコア(独自算出の注目度): 3.002731187735679
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Reinforcement learning (RL) has become a key approach for enhancing reasoning in large language models (LLMs), yet scalable training is often hindered by the rapid collapse of policy entropy, which leads to premature convergence and performance saturation. This paper provides a comparative theoretical analysis of two entropy control strategies: traditional entropy regularization and the recently proposed covariance-based mechanism. We establish a unified framework for entropy dynamics under softmax parameterization, showing that entropy change is governed by the covariance between log-probabilities and logit updates. Our analysis reveals that traditional entropy regularization introduces a dense, persistent bias that modifies the stationary condition, leading to suboptimal policies, while covariance-based methods selectively regularize a sparse subset of high-covariance tokens and achieve asymptotic unbiasedness when the regularization coefficient is annealed. These results provide principled guidelines for entropy control in LLM posttraining, with implications for scaling RL to larger models and more complex reasoning tasks.
- Abstract(参考訳): 強化学習(RL)は、大規模言語モデル(LLM)における推論を強化する重要なアプローチとなっているが、スケーラブルなトレーニングは、しばしばポリシーエントロピーの急激な崩壊によって妨げられ、早めの収束と性能飽和につながる。
本稿では、従来のエントロピー正規化と、最近提案された共分散に基づくメカニズムの2つのエントロピー制御戦略の比較理論的解析を行う。
ソフトマックスパラメータ化の下でエントロピーダイナミクスの統一フレームワークを構築し,ログ確率とロジット更新の共分散によってエントロピー変化が制御されることを示す。
解析の結果,従来のエントロピー正則化は定常状態を変化させる密度の強い永続バイアスを導入し,最適条件を導出する一方で,共分散に基づく手法は,高共分散トークンのスパース部分集合を選択的に正規化し,正規化係数が熱処理された場合の漸近的不偏性を実現する。
これらの結果から,LLM後処理におけるエントロピー制御の原則的ガイドラインが得られた。
関連論文リスト
- Flexible Entropy Control in RLVR with Gradient-Preserving Perspective [19.86794452199207]
RLVR(Reinforcement Learning with Verifiable Rewards)は、Large Language Models(LLM)の推論能力を高める重要な手法として登場した。
本稿では, 勾配保存クリッピングの観点からRLのエントロピー制御を提案する。
エントロピーを正確に管理するための動的クリッピングしきい値を用いた新しい制御機構を提案する。
論文 参考訳(メタデータ) (2026-02-10T13:42:12Z) - On the Entropy Dynamics in Reinforcement Fine-Tuning of Large Language Models [54.61810451777578]
エントロピーは、大きな言語モデルによって生成される出力の多様性を測定するための重要な指標となる。
近年の研究では、強化微調整における探究と利用のバランスを改善するために、エントロピーの監視と調整に重点を置いている。
論文 参考訳(メタデータ) (2026-02-03T11:14:58Z) - The Procrustean Bed of Time Series: The Optimization Bias of Point-wise Loss [53.542743390809356]
本稿では,最適化バイアス(EOB)の期待に関する第一原理解析を提案する。
時間列が決定論的で構造化されるほど、ポイントワイドの損失関数によるバイアスがより厳しくなる。
本稿では,DFTとDWTの両原理を同時に実現する具体的ソリューションを提案する。
論文 参考訳(メタデータ) (2025-12-21T06:08:22Z) - Revisiting Entropy in Reinforcement Learning for Large Reasoning Models [54.96908589622163]
検証可能な報酬(RLVR)を用いた強化学習で訓練した大規模言語モデルのエントロピーダイナミクスについて検討する。
以上の結果から,RLVRでトレーニングしたLDMのエントロピーに影響を及ぼす重要な要因として,非政治的更新数,トレーニングデータの多様性,最適化目標におけるクリッピング閾値が示唆された。
論文 参考訳(メタデータ) (2025-11-08T12:50:41Z) - State Entropy Regularization for Robust Reinforcement Learning [49.08983925413188]
状態エントロピー規則化は、構造的および空間的に相関した摂動に対するロバスト性を向上させることを示す。
このようなバリエーションは、伝達学習では一般的であるが、標準的な堅牢な強化学習法では見落とされがちである。
論文 参考訳(メタデータ) (2025-06-08T11:15:31Z) - The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models [99.98293908799731]
本稿では,LLMによる推論,すなわち政策エントロピーの崩壊において,RLのスケーリングの大きな障害を克服することを目的としている。
実際には、エントロピーHと下流性能Rの間の変換方程式R=-a*eH+bを確立する。
Clip-Cov と KL-Cov という2つの単純かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2025-05-28T17:38:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。