論文の概要: Mind Your Entropy: From Maximum Entropy to Trajectory Entropy-Constrained RL
- arxiv url: http://arxiv.org/abs/2511.11592v1
- Date: Sat, 25 Oct 2025 09:17:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-23 18:31:12.258725
- Title: Mind Your Entropy: From Maximum Entropy to Trajectory Entropy-Constrained RL
- Title(参考訳): エントロピーの心:最大エントロピーから軌道エントロピー制約RLへ
- Authors: Guojian Zhan, Likun Wang, Pengcheng Wang, Feihong Zhang, Jingliang Duan, Masayoshi Tomizuka, Shengbo Eben Li,
- Abstract要約: 本稿では,この2つの課題に対処する軌道エントロピー制約強化学習(TECRL)フレームワークを提案する。
このフレームワーク内では、まず報酬とエントロピーに関連する2つのQ-関数を個別に学習し、温度更新の影響を受けないクリーンで安定した値ターゲットを確保する。
我々は,3つの改良を加えて,最先端の分散型ソフトアクター批判を拡張して,現実的な非政治的アルゴリズムDSAC-Eを開発した。
- 参考スコア(独自算出の注目度): 56.085103402298905
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Maximum entropy has become a mainstream off-policy reinforcement learning (RL) framework for balancing exploitation and exploration. However, two bottlenecks still limit further performance improvement: (1) non-stationary Q-value estimation caused by jointly injecting entropy and updating its weighting parameter, i.e., temperature; and (2) short-sighted local entropy tuning that adjusts temperature only according to the current single-step entropy, without considering the effect of cumulative entropy over time. In this paper, we extends maximum entropy framework by proposing a trajectory entropy-constrained reinforcement learning (TECRL) framework to address these two challenges. Within this framework, we first separately learn two Q-functions, one associated with reward and the other with entropy, ensuring clean and stable value targets unaffected by temperature updates. Then, the dedicated entropy Q-function, explicitly quantifying the expected cumulative entropy, enables us to enforce a trajectory entropy constraint and consequently control the policy long-term stochasticity. Building on this TECRL framework, we develop a practical off-policy algorithm, DSAC-E, by extending the state-of-the-art distributional soft actor-critic with three refinements (DSAC-T). Empirical results on the OpenAI Gym benchmark demonstrate that our DSAC-E can achieve higher returns and better stability.
- Abstract(参考訳): 最大エントロピーは、搾取と探索のバランスをとるために、政治外の強化学習(RL)フレームワークとして主流になっている。
しかし、2つのボトルネックは、(1)エントロピーを共同注入し、その重み付けパラメータ、すなわち温度を更新することによる非定常Q値推定、(2)現在の単一ステップエントロピーに応じて温度を調整し、累積エントロピーの影響を考慮せずに時間とともに調整することによる、さらなるパフォーマンス向上を制限している。
本稿では,この2つの課題に対処する軌道エントロピー制約強化学習(TECRL)フレームワークを提案することにより,最大エントロピーフレームワークを拡張した。
このフレームワーク内では、まず報酬とエントロピーに関連する2つのQ-関数を個別に学習し、温度更新の影響を受けないクリーンで安定した値ターゲットを確保する。
そして、期待される累積エントロピーを明示的に定量化する専用エントロピーQ-函数は、軌道エントロピー制約を強制することができ、その結果、長期確率性を制御する。
このTECRLフレームワーク上に構築したDSAC-Eは,3つの改良(DSAC-T)を伴って,最先端の分散型ソフトアクタ批判を拡張して,実用的なオフポリティクスアルゴリズムであるDSAC-Eを開発する。
OpenAI Gymベンチマークの実証結果は、私たちのDSAC-Eがより高いリターンとより良い安定性を達成できることを示している。
関連論文リスト
- Agentic Entropy-Balanced Policy Optimization [114.90524574220764]
エージェント強化学習(Agentic RL)は,Webエージェントの多ターン,長期ツール利用能力の活性化に大きく貢献している。
RLアルゴリズムはエントロピーの誘導の下で、高不確実性ツールコールステップを自律的に探索するが、エントロピー信号への過度な依存は、さらなる制約を課す可能性がある。
本稿では,エージェント・エントロピー・バランサード・ポリシー最適化(AEPO, Agentic Entropy-Balanced Policy Optimization)を提案する。
論文 参考訳(メタデータ) (2025-10-16T10:40:52Z) - Rediscovering Entropy Regularization: Adaptive Coefficient Unlocks Its Potential for LLM Reinforcement Learning [55.59724323303857]
本稿では,3つのコンポーネントによる探索と利用のバランスをとるフレームワークを提案する。
複数の数学的推論ベンチマークの実験は、AERが一貫してベースラインを上回り、推論精度と探索能力の両方を改善していることを示している。
論文 参考訳(メタデータ) (2025-10-13T03:10:26Z) - Rethinking Entropy Interventions in RLVR: An Entropy Change Perspective [11.65148836911294]
エントロピー崩壊は政策の多様性の急激な喪失であり、探検と爆発の不均衡から起因し、一般化の欠如につながっている。
最近のエントロピー・インターベンション法は、色覚エントロピーの崩壊を防ぐことを目的としているが、その基盤となるメカニズムは明らかになっていない。
エントロピー変化を考慮した再重み付け方式,すなわち,再重み付け(STEER)によるトークンレベルのエントロピーチェンジEの安定化を提案する。
論文 参考訳(メタデータ) (2025-10-11T10:17:38Z) - Arbitrary Entropy Policy Optimization: Entropy Is Controllable in Reinforcement Fine-tuning [36.00460460149206]
本稿では, エントロピーボーナスをREINFORCEポリシー勾配に置き換えることで, エントロピー崩壊を解消するArbitrary Entropy Policy Optimization (AEPO)を提案する。
AEPOは、ポリシー勾配を正規化として、分布を正規化として、REINFORCEを正規化として統合し、最適化を歪ませることなく正確なエントロピー制御を可能にする。
論文 参考訳(メタデータ) (2025-10-09T12:24:08Z) - The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models [99.98293908799731]
本稿では,LLMによる推論,すなわち政策エントロピーの崩壊において,RLのスケーリングの大きな障害を克服することを目的としている。
実際には、エントロピーHと下流性能Rの間の変換方程式R=-a*eH+bを確立する。
Clip-Cov と KL-Cov という2つの単純かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2025-05-28T17:38:45Z) - Action Redundancy in Reinforcement Learning [54.291331971813364]
遷移エントロピーはモデル依存遷移エントロピーと作用冗長性という2つの用語で記述できることを示す。
その結果,行動冗長性は強化学習の根本的な問題であることが示唆された。
論文 参考訳(メタデータ) (2021-02-22T19:47:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。