論文の概要: Agentic Entropy-Balanced Policy Optimization
- arxiv url: http://arxiv.org/abs/2510.14545v1
- Date: Thu, 16 Oct 2025 10:40:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.821676
- Title: Agentic Entropy-Balanced Policy Optimization
- Title(参考訳): エージェントエントロピーベースポリシー最適化
- Authors: Guanting Dong, Licheng Bao, Zhongyuan Wang, Kangzhi Zhao, Xiaoxi Li, Jiajie Jin, Jinghan Yang, Hangyu Mao, Fuzheng Zhang, Kun Gai, Guorui Zhou, Yutao Zhu, Ji-Rong Wen, Zhicheng Dou,
- Abstract要約: エージェント強化学習(Agentic RL)は,Webエージェントの多ターン,長期ツール利用能力の活性化に大きく貢献している。
RLアルゴリズムはエントロピーの誘導の下で、高不確実性ツールコールステップを自律的に探索するが、エントロピー信号への過度な依存は、さらなる制約を課す可能性がある。
本稿では,エージェント・エントロピー・バランサード・ポリシー最適化(AEPO, Agentic Entropy-Balanced Policy Optimization)を提案する。
- 参考スコア(独自算出の注目度): 114.90524574220764
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, Agentic Reinforcement Learning (Agentic RL) has made significant progress in incentivizing the multi-turn, long-horizon tool-use capabilities of web agents. While mainstream agentic RL algorithms autonomously explore high-uncertainty tool-call steps under the guidance of entropy, excessive reliance on entropy signals can impose further constraints, leading to the training collapse. In this paper, we delve into the challenges caused by entropy and propose the Agentic Entropy-Balanced Policy Optimization (AEPO), an agentic RL algorithm designed to balance entropy in both the rollout and policy update phases. AEPO comprises two core components: (1) a dynamic entropy-balanced rollout mechanism that adaptively allocate global and branch sampling budget through entropy pre-monitoring, while imposing a branch penalty on consecutive high-entropy tool-call steps to prevent over-branching issues; and (2) Entropy-Balanced Policy Optimization that inserts a stop-gradient operation into the high-entropy clipping term to preserve and properly rescale gradients on high-entropy tokens, while incorporating entropy-aware advantage estimation to prioritize learning on high-uncertainty tokens. Results across 14 challenging datasets show that AEPO consistently outperforms 7 mainstream RL algorithms. With just 1K RL samples, Qwen3-14B with AEPO achieves impressive results: 47.6% on GAIA, 11.2% on Humanity's Last Exam, and 43.0% on WebWalker for Pass@1; 65.0% on GAIA, 26.0% on Humanity's Last Exam, and 70.0% on WebWalker for Pass@5. Further analysis reveals that AEPO improves rollout sampling diversity while maintaining stable policy entropy, facilitating scalable web agent training.
- Abstract(参考訳): 近年,エージェント強化学習 (Agentic RL) は,Webエージェントの多ターン・長距離ツール利用能力の向上に大きく貢献している。
主流のエージェントRLアルゴリズムはエントロピーの指導の下で自律的に高い不確実性ツールコールステップを探索するが、エントロピー信号への過度な依存はさらなる制約を課し、トレーニングの崩壊につながる。
本稿では,エントロピーによる課題を掘り下げ,ロールアウトとポリシー更新の両段階においてエントロピーのバランスをとるために設計されたエージェントRLアルゴリズムであるエージェントエントロピー・バランサード・ポリシー最適化(AEPO)を提案する。
AEPOは,(1)大域的および分枝的サンプリング予算をエントロピー前監視を通じて適応的に割り当てる動的エントロピーバランスのロールアウト機構と,(2)高エントロピークリッピング項に停止段階の操作を挿入して高エントロピートークンの勾配を保存し,適切に再スケールするエントロピーバランサードポリシー最適化と,(2)高アントロピートークンの学習を優先するエントロピーアウェア・アドバンスト推定を取り入れた。
14の挑戦的なデータセットに対する結果は、AEPOが7つの主流RLアルゴリズムを一貫して上回っていることを示している。
GAIAの47.6%、Humanityの11.2%、Pass@1のWebWalkerの43.0%、GAIAの65.0%、HumanityのLast Examの26.0%、Pass@5のWebWalkerの70.0%である。
さらに分析した結果、AEPOは安定したポリシーエントロピーを維持しつつ、ロールアウトサンプリングの多様性を改善し、スケーラブルなWebエージェントのトレーニングを容易にすることが明らかになった。
関連論文リスト
- STAPO: Stabilizing Reinforcement Learning for LLMs by Silencing Rare Spurious Tokens [38.425692691443764]
既存の強化学習(RL)ファインチューニング手法は、安定性を維持するためにエントロピー正則化と再重み付けに大きく依存している。
実際には、彼らはしばしば後期的なパフォーマンスの崩壊に悩まされ、推論品質の低下と不安定なトレーニングにつながります。
トレーニングの不安定性は、約0.01%の少量のトークンによって引き起こされる可能性がある。
安定かつ効果的な大規模モデル改良を促進するSTAPO(Spurious-Token-Aware Policy Optimization)を提案する。
論文 参考訳(メタデータ) (2026-02-17T14:46:48Z) - AEGPO: Adaptive Entropy-Guided Policy Optimization for Diffusion Models [54.56296715999545]
人間のフィードバックからの強化学習は、拡散とフローモデルの整合性を示す。
GRPOのような政策最適化手法は、非効率で静的なサンプリング戦略に悩まされている。
適応エントロピー誘導政策最適化(Adaptive Entropy-Guided Policy Optimization, AEGPO)を提案する。
論文 参考訳(メタデータ) (2026-02-06T16:09:50Z) - Entropy-Gated Selective Policy Optimization:Token-Level Gradient Allocation for Hybrid Training of Large Language Models [18.084251607403406]
大規模言語モデルのハイブリッドトレーニング手法は、専門家によるデモンストレーションにおける教師付き微調整(SFT)とモデルロールアウトにおける強化学習(RL)を組み合わせる。
本稿では,トークンレベル勾配変調によるサンプルレベル混合を拡張する3段階フレームワークであるEntropy Gated Selective Policy Optimization (EGSPO)を提案する。
EGSPOは数学的推論ベンチマークにおいて一貫した改善を達成し、AIMEでは3.8%、CHORD phiベースラインでは2.9%、計算オーバーヘッドは3.4%に留まった。
論文 参考訳(メタデータ) (2026-02-03T09:38:21Z) - Mind Your Entropy: From Maximum Entropy to Trajectory Entropy-Constrained RL [56.085103402298905]
本稿では,この2つの課題に対処する軌道エントロピー制約強化学習(TECRL)フレームワークを提案する。
このフレームワーク内では、まず報酬とエントロピーに関連する2つのQ-関数を個別に学習し、温度更新の影響を受けないクリーンで安定した値ターゲットを確保する。
我々は,3つの改良を加えて,最先端の分散型ソフトアクター批判を拡張して,現実的な非政治的アルゴリズムDSAC-Eを開発した。
論文 参考訳(メタデータ) (2025-10-25T09:17:47Z) - BAPO: Stabilizing Off-Policy Reinforcement Learning for LLMs via Balanced Policy Optimization with Adaptive Clipping [69.74252624161652]
適応クリッピング(BAPO)を用いたBAlanced Policy Optimizationを提案する。
BAPOはクリッピングバウンダリを動的に調整し、適応的に正と負のコントリビューションを再バランスさせ、エントロピーを保持し、RL最適化を安定化させる。
AIME 2024とAIME 2025ベンチマークでは、7B BAPOモデルがSkyWork-OR1-7Bのようなオープンソースモデルを上回っています。
論文 参考訳(メタデータ) (2025-10-21T12:55:04Z) - Rediscovering Entropy Regularization: Adaptive Coefficient Unlocks Its Potential for LLM Reinforcement Learning [55.59724323303857]
本稿では,3つのコンポーネントによる探索と利用のバランスをとるフレームワークを提案する。
複数の数学的推論ベンチマークの実験は、AERが一貫してベースラインを上回り、推論精度と探索能力の両方を改善していることを示している。
論文 参考訳(メタデータ) (2025-10-13T03:10:26Z) - Arbitrary Entropy Policy Optimization: Entropy Is Controllable in Reinforcement Fine-tuning [36.00460460149206]
本稿では, エントロピーボーナスをREINFORCEポリシー勾配に置き換えることで, エントロピー崩壊を解消するArbitrary Entropy Policy Optimization (AEPO)を提案する。
AEPOは、ポリシー勾配を正規化として、分布を正規化として、REINFORCEを正規化として統合し、最適化を歪ませることなく正確なエントロピー制御を可能にする。
論文 参考訳(メタデータ) (2025-10-09T12:24:08Z) - EPO: Entropy-regularized Policy Optimization for LLM Agents Reinforcement Learning [15.529826552402769]
スパース報酬を伴うマルチターン環境におけるLLMエージェントの訓練は、強化学習の根本的な課題である。
この設定に特有のクリティカルな障害モード、すなわち探索・探索カスケードの障害を特定します。
本稿では,この障害サイクルを3つの相乗的メカニズムによって破る一般的なフレームワークであるエントロピー規則化政策最適化(EPO)を提案する。
論文 参考訳(メタデータ) (2025-09-26T16:51:44Z) - ResT: Reshaping Token-Level Policy Gradients for Tool-Use Large Language Models [62.82372407840088]
大規模言語モデル(LLM)は受動的生成を超越し、外部ツールを呼び出すことで目標指向エージェントとして機能する。
textbfReshaped textbfToken-level policy gradients (textbfResT) for tool-use task。
textbfResTは最先端の結果を達成し、以前のメソッドを最大8.76%$で上回っている。
論文 参考訳(メタデータ) (2025-09-26T03:38:27Z) - SEEA-R1: Tree-Structured Reinforcement Fine-Tuning for Self-Evolving Embodied Agents [58.174206358223415]
自己進化型エボダイドエージェント(SeEA-R1)は、自己進化型エボダイドエージェント用に設計された最初の強化微細調整フレームワークである。
本研究は,SEEA-R1が自律適応と報酬駆動型自己進化をサポートすることを示す。
論文 参考訳(メタデータ) (2025-06-26T18:00:07Z) - Beyond the 80/20 Rule: High-Entropy Minority Tokens Drive Effective Reinforcement Learning for LLM Reasoning [80.87085014818052]
RLVR(Reinforcement Learning with Verifiable Rewards)は,Large Language Models(LLM)の推論能力向上のための強力なアプローチとして登場した。
本研究では,トークンエントロピーパターンの新たな視点からRLVRの先駆的な探索を行う。
トークンのごく一部だけが高いエントロピーを示しており、これらのトークンは様々な推論経路に向けてモデルを操る重要なフォークとして機能する。
論文 参考訳(メタデータ) (2025-06-02T17:54:39Z) - The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models [99.98293908799731]
本稿では,LLMによる推論,すなわち政策エントロピーの崩壊において,RLのスケーリングの大きな障害を克服することを目的としている。
実際には、エントロピーHと下流性能Rの間の変換方程式R=-a*eH+bを確立する。
Clip-Cov と KL-Cov という2つの単純かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2025-05-28T17:38:45Z) - Predictable Reinforcement Learning Dynamics through Entropy Rate Minimization [16.335645061396455]
強化学習(RL)では、エージェントは予測可能な行動を示すインセンティブを持たない。
予測可能性を考慮したRL(predictability-Aware RL)と呼ばれるRLエージェントの予測可能な振る舞いを誘導する新しい手法を提案する。
提案手法は,標準割引報酬と負のエントロピー率の線形結合を最大化することにより,最適性を予測可能性と引き換えに行う。
論文 参考訳(メタデータ) (2023-11-30T16:53:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。