論文の概要: EPO: Entropy-regularized Policy Optimization for LLM Agents Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2509.22576v1
- Date: Fri, 26 Sep 2025 16:51:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.5999
- Title: EPO: Entropy-regularized Policy Optimization for LLM Agents Reinforcement Learning
- Title(参考訳): EPO: LLMエージェント強化学習のためのエントロピー規則化政策最適化
- Authors: Xu Wujiang, Wentian Zhao, Zhenting Wang, Li Yu-Jhe, Jin Can, Jin Mingyu, Mei Kai, Wan Kun, Metaxas Dimitris,
- Abstract要約: スパース報酬を伴うマルチターン環境におけるLLMエージェントの訓練は、強化学習の根本的な課題である。
この設定に特有のクリティカルな障害モード、すなわち探索・探索カスケードの障害を特定します。
本稿では,この障害サイクルを3つの相乗的メカニズムによって破る一般的なフレームワークであるエントロピー規則化政策最適化(EPO)を提案する。
- 参考スコア(独自算出の注目度): 15.529826552402769
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training LLM agents in multi-turn environments with sparse rewards, where completing a single task requires 30+ turns of interaction within an episode, presents a fundamental challenge for reinforcement learning. We identify a critical failure mode unique to this setting: the exploration-exploitation cascade failure. This cascade begins with early-stage policy premature convergence, where sparse feedback causes agents to commit to flawed, low-entropy strategies. Subsequently, agents enter late-stage policy collapse, where conventional entropy regularization becomes counterproductive, promoting chaotic exploration that destabilizes training. We propose Entropy-regularized Policy Optimization (EPO), a general framework that breaks this failure cycle through three synergistic mechanisms: (1) adopting entropy regularization in multi-turn settings to enhance exploration, (2) an entropy smoothing regularizer that bounds policy entropy within historical averages to prevent abrupt fluctuations, and (3) adaptive phase-based weighting that balances exploration and exploitation across training. Our analysis justifies that EPO guarantees monotonically decreasing entropy variance while maintaining convergence. EPO achieves up to 152% performance improvement on ScienceWorld and up to 19.8% on ALFWorld. Our work demonstrates that multi-turn sparse-reward settings require fundamentally different entropy control than traditional RL, with broad implications for LLM agent training.
- Abstract(参考訳): 一つのタスクを完了させるには、エピソード内で30回以上のインタラクションが必要なマルチターン環境において、LLMエージェントを訓練することは、強化学習の根本的な課題である。
この設定に特有のクリティカルな障害モード、すなわち探索・探索カスケードの障害を特定します。
このケースケードは、未熟なフィードバックによってエージェントが欠陥のある低エントロピー戦略にコミットする、早期の政策早期収束から始まります。
その後、エージェントは後期の政策崩壊に突入し、従来のエントロピー規則化は非生産的になり、トレーニングを不安定にするカオス探索を促進する。
本研究では,この障害サイクルを3つの相乗的メカニズムによって破る一般的なフレームワークであるエントロピー正規化(EPO)を提案する。(1)多ターン設定におけるエントロピー正規化の採用による探索の強化,(2)急激な変動を防止するために,歴史的平均内でポリシーエントロピーを束縛するエントロピー平滑化正規化(EPO),(3)訓練間の探索と利用のバランスをとる適応位相に基づく重み付けである。
EPOは収束を維持しながら単調にエントロピーの分散を減少させる。
EPOはScienceWorldで最大152%、ALFWorldで最大19.8%の性能向上を達成した。
我々の研究は、マルチターンスパース・リワード設定が従来のRLと根本的に異なるエントロピー制御を必要とすることを示した。
関連論文リスト
- Learn the Ropes, Then Trust the Wins: Self-imitation with Progressive Exploration for Agentic Reinforcement Learning [41.90621652673528]
エージェントLLMを学習するためのカリキュラムベースの自己アニメーション学習(SIL)レシピであるSPEARを提案する。
具体的には,本手法は,本質的な報奨を生かして,技術レベルの探究を促進するためのカリキュラムを取り入れている。
さらにトレーニングを安定させるために、リプレイバッファでの経験の利点を再検討し、潜在的ポリシードリフトに対処する。
論文 参考訳(メタデータ) (2025-09-26T17:20:38Z) - HAEPO: History-Aggregated Exploratory Policy Optimization [4.782714372521615]
本稿では,ヒストリーアグリゲート探索政策最適化(HAEPO)を紹介する。
HAEPOは各軌道を対数確率の和に圧縮し、軌道にプラケット・リュックソフトマックスを適用する。
実証的には、HAEPOは急速に収束し、徹底的に探索し、真の報酬と密接に一致し、PPO、GRPO、DPOと同等以上の堅牢な学習行動を示す。
論文 参考訳(メタデータ) (2025-08-26T09:59:44Z) - On-Policy RL with Optimal Reward Baseline [109.47676554514193]
On-Policy RL with Optimal reward baseline (OPO) は、新しい簡易強化学習アルゴリズムである。
OPOは、訓練プロセスを実証的に安定化し、探索を強化する、正確なオンライントレーニングの重要性を強調している。
その結果、OPOの優れた性能と訓練安定性を、追加のモデルや正規化条件なしで示すことができた。
論文 参考訳(メタデータ) (2025-05-29T15:58:04Z) - The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models [99.98293908799731]
本稿では,LLMによる推論,すなわち政策エントロピーの崩壊において,RLのスケーリングの大きな障害を克服することを目的としている。
実際には、エントロピーHと下流性能Rの間の変換方程式R=-a*eH+bを確立する。
Clip-Cov と KL-Cov という2つの単純かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2025-05-28T17:38:45Z) - PPO-BR: Dual-Signal Entropy-Reward Adaptation for Trust Region Policy Optimization [0.0]
PPO-BRは、新しい探索と収束信号を単一の信頼領域に融合することで、パラダイム適応RLを確立する。
この研究は、位相認識学習における重要なギャップを埋め、ロボット手術のような安全クリティカルなシステムへの現実世界の展開を可能にする。
論文 参考訳(メタデータ) (2025-05-23T10:30:58Z) - Survival of the Fittest: Evolutionary Adaptation of Policies for Environmental Shifts [0.15889427269227555]
進化ゲーム理論(EGT)にインスパイアされた適応的再学習アルゴリズムを開発する。
ERPOは、ポリシー適応の高速化、平均報酬の向上、およびポリシー適応の計算コストの削減を示す。
論文 参考訳(メタデータ) (2024-10-22T09:29:53Z) - WARP: On the Benefits of Weight Averaged Rewarded Policies [66.95013068137115]
ウェイトアベレード・リワード・ポリシー(WARP)という新しいアライメント戦略を導入する。
WARPは重量空間のポリシーを3つの異なる段階でマージする。
GEMMAポリシによる実験では、WARPが品質とアライメントを改善し、他のオープンソースLLMよりも優れています。
論文 参考訳(メタデータ) (2024-06-24T16:24:34Z) - Robust Policy Optimization in Deep Reinforcement Learning [16.999444076456268]
連続的な行動領域では、パラメータ化された行動分布は容易に探索の制御を可能にする。
特に,摂動分布を利用したロバストポリシ最適化(RPO)アルゴリズムを提案する。
我々は,DeepMind Control,OpenAI Gym,Pybullet,IsaacGymの各種連続制御タスクについて評価を行った。
論文 参考訳(メタデータ) (2022-12-14T22:43:56Z) - Faster Last-iterate Convergence of Policy Optimization in Zero-Sum
Markov Games [63.60117916422867]
本稿では,対戦型マルチエージェントRLの最も基本的な設定,すなわち2プレーヤゼロサムマルコフゲームに焦点を当てる。
両エージェントから対称更新を施した単一ループポリシー最適化手法を提案し,この手法はエントロピー規則化楽観的乗算重み更新法(OMWU)によって更新される。
我々の収束結果は、最もよく知られた複雑性を改善し、競合するマルコフゲームにおけるポリシー最適化をよりよく理解する。
論文 参考訳(メタデータ) (2022-10-03T16:05:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。