論文の概要: On Entropy Control in LLM-RL Algorithms
- arxiv url: http://arxiv.org/abs/2509.03493v1
- Date: Wed, 03 Sep 2025 17:23:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 21:40:46.606681
- Title: On Entropy Control in LLM-RL Algorithms
- Title(参考訳): LLM-RLアルゴリズムにおけるエントロピー制御について
- Authors: Han Shen,
- Abstract要約: LLM-RL設定におけるエントロピーボーナスの問題について検討した。
自動調整係数を持つ新しいクランプ型エントロピーボーナスを利用するエントロピー制御法であるAEntを提案する。
AEntは、異なるベースモデルとデータセットの下で数学推論タスクでテストされており、AEntがベースラインを一貫して上回ることが観察されている。
- 参考スコア(独自算出の注目度): 10.71946318944523
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For RL algorithms, appropriate entropy control is crucial to their effectiveness. To control the policy entropy, a commonly used method is entropy regularization, which is adopted in various popular RL algorithms including PPO, SAC and A3C. Although entropy regularization proves effective in robotic and games RL conventionally, studies found that it gives weak to no gains in LLM-RL training. In this work, we study the issues of entropy bonus in LLM-RL setting. Specifically, we first argue that the conventional entropy regularization suffers from the LLM's extremely large response space and the sparsity of the optimal outputs. As a remedy, we propose AEnt, an entropy control method that utilizes a new clamped entropy bonus with an automatically adjusted coefficient. The clamped entropy is evaluated with the re-normalized policy defined on certain smaller token space, which encourages exploration within a more compact response set. In addition, the algorithm automatically adjusts entropy coefficient according to the clamped entropy value, effectively controlling the entropy-induced bias while leveraging the entropy's benefits. AEnt is tested in math-reasoning tasks under different base models and datasets, and it is observed that AEnt outperforms the baselines consistently across multiple benchmarks.
- Abstract(参考訳): RLアルゴリズムでは、適切なエントロピー制御が有効性に不可欠である。
ポリシエントロピーを制御するために、よく使われる手法はエントロピー正規化であり、PPO、SAC、A3Cといった一般的なRLアルゴリズムで採用されている。
エントロピー正則化は従来のロボットゲームやゲームRLでは有効であったが、LLM-RLトレーニングでは利得が弱かった。
本研究では,LLM-RL設定におけるエントロピーボーナスの問題について検討する。
具体的には、従来のエントロピー正則化は、LLMの極端に大きな応答空間と最適出力の空間に悩まされていることを最初に論じる。
そこで本稿では, 自動調整係数を持つ新しいクランプ型エントロピーボーナスを用いたエントロピー制御手法であるAEntを提案する。
クランプされたエントロピーは、より小さなトークン空間上で定義された再正規化ポリシーで評価され、よりコンパクトな応答集合内での探索が促進される。
さらに、アルゴリズムは、クランプされたエントロピー値に応じてエントロピー係数を自動的に調整し、エントロピーの利点を活用しつつ、エントロピー誘発バイアスを効果的に制御する。
AEntは、異なるベースモデルとデータセットの下での数学推論タスクでテストされており、AEntが複数のベンチマークでベースラインを一貫して上回ることが観察されている。
関連論文リスト
- The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models [99.98293908799731]
本稿では,LLMによる推論,すなわち政策エントロピーの崩壊において,RLのスケーリングの大きな障害を克服することを目的としている。
実際には、エントロピーHと下流性能Rの間の変換方程式R=-a*eH+bを確立する。
Clip-Cov と KL-Cov という2つの単純かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2025-05-28T17:38:45Z) - Efficient Learning of POMDPs with Known Observation Model in Average-Reward Setting [56.92178753201331]
我々は,POMDPパラメータを信念に基づくポリシを用いて収集したサンプルから学習することのできる観測・認識スペクトル(OAS)推定手法を提案する。
提案するOAS-UCRLアルゴリズムに対して,OASプロシージャの整合性を示し,$mathcalO(sqrtT log(T)$の残差保証を証明した。
論文 参考訳(メタデータ) (2024-10-02T08:46:34Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Predictable Reinforcement Learning Dynamics through Entropy Rate Minimization [16.335645061396455]
強化学習(RL)では、エージェントは予測可能な行動を示すインセンティブを持たない。
予測可能性を考慮したRL(predictability-Aware RL)と呼ばれるRLエージェントの予測可能な振る舞いを誘導する新しい手法を提案する。
提案手法は,標準割引報酬と負のエントロピー率の線形結合を最大化することにより,最適性を予測可能性と引き換えに行う。
論文 参考訳(メタデータ) (2023-11-30T16:53:32Z) - Optimal scheduling of entropy regulariser for continuous-time
linear-quadratic reinforcement learning [9.779769486156631]
ここで、エージェントは最適な緩和ポリシーに従って分散されたノイズ制御を生成することで環境と相互作用する。
この探索-探索トレードオフはエントロピー正則化の強さによって決定される。
どちらの学習アルゴリズムも、$mathcalO(sqrtN)$(対数係数まで)を$N$のエピソードよりも高く、文献から最もよく知られた結果と一致することを証明している。
論文 参考訳(メタデータ) (2022-08-08T23:36:40Z) - State Entropy Maximization with Random Encoders for Efficient
Exploration [162.39202927681484]
近年,深層補強学習(rl)におけるサンプル効率向上のための手法が提案されている。
本稿では,状態エントロピーを本質的な報酬として利用する探索手法であるRandoms for Efficient Exploration (RE3)を提案する。
特に、ランダムエンコーダを用いて、状態エントロピーを安定かつ計算効率の良い方法で推定できることが判明した。
論文 参考訳(メタデータ) (2021-02-18T15:45:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。