論文の概要: APEX: Autonomous Policy Exploration for Self-Evolving LLM Agents
- arxiv url: http://arxiv.org/abs/2605.21240v1
- Date: Wed, 20 May 2026 14:29:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.723887
- Title: APEX: Autonomous Policy Exploration for Self-Evolving LLM Agents
- Title(参考訳): APEX:自己進化型LLMエージェントの自律的政策探索
- Authors: Yibo Li, Jiashuo Yang, Zhi Zheng, Zhiyuan Hu, Yuan Sui, Shizun Wang, Yufei He, Bryan Hooi,
- Abstract要約: 自己進化型エージェントは、モデルウェイト更新を必要とせず、エピソード間でメモリとリフレクションを蓄積することによって学習する。
メモリが大きくなるにつれて、行動は慣れ親しんだハイリワードルーチンに集中し、より良い選択肢を発見する機会を減らす。
戦略マップを通じて明確な戦略空間を構築し維持する自律的政策展開(APEX)を提案する。
- 参考スコア(独自算出の注目度): 54.213455157510445
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM agents have shown strong performance across a wide range of complex tasks, including interactive environments that require long-horizon decision making. But these agents cannot learn on the fly at test time. Self-evolving agents address this by accumulating memory and reflection across episodes rather than requiring model-weight updates. However, these agents often suffer from exploration collapse: as memory grows, behavior concentrates around familiar high-reward routines, reducing the chance of discovering better alternatives. To address this problem, we propose Autonomous Policy EXploration (APEX), which builds and maintains an explicit strategy space through a strategy map-a directed acyclic graph of milestones with prerequisite dependency edges. In APEX, Fork Discovery expands the map with evidence-grounded unexplored directions, while Policy Selection balances exploration and exploitation during planning. Evaluated on nine Jericho text-adventure games and WebArena, a realistic web interaction benchmark, APEX outperforms all baselines. Extensive ablations validate each component's contribution and demonstrate robustness across diverse settings, demonstrating APEX's effectiveness for sustained exploration in self-evolving agents.
- Abstract(参考訳): LLMエージェントは、長期の意思決定を必要とする対話型環境を含む、幅広い複雑なタスクにおいて、強いパフォーマンスを示してきた。
しかし、これらのエージェントはテスト時にその場で学ぶことはできない。
自己進化エージェントは、モデルウェイト更新を必要とせず、エピソード間でメモリとリフレクションを蓄積することで、この問題に対処する。
しかし、これらのエージェントは探索の崩壊に悩まされることが多く、記憶が成長するにつれて、行動は慣れ親しんだハイリワードルーチンに集中し、より良い代替手段を発見する可能性を減らす。
この問題に対処するため,我々は,予め必要となる依存関係エッジを持つマイルストーンの有向非循環グラフを用いて,明確な戦略空間を構築し,維持する自律的ポリシエクスプロレーション(APEX)を提案する。
APEXでは、フォークディスカバリー(Fork Discovery)がエビデンスに基づく未探索の方向で地図を拡張し、ポリシー選択は計画中の探索と搾取のバランスを取る。
9つのJerrichoテキストアドベンチャーゲームと、現実的なWebインタラクションベンチマークであるWebArenaで評価されたAPEXは、すべてのベースラインを上回っている。
広範囲にわたるアブレーションは、各コンポーネントの貢献を検証し、多様な設定にまたがる堅牢さを示し、APEXが自己進化剤の持続的な探索に有効であることを証明している。
関連論文リスト
- Learning to Explore: Scaling Agentic Reasoning via Exploration-Aware Policy Optimization [14.566152113959555]
既存の手法の鍵となる制限は、通常、未分化の探査戦略を採用することである。
本研究では,LLMエージェントが不確実性が高い場合にのみ適応的に探索できる探索対応強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-05-09T14:44:18Z) - AIPO: Learning to Reason from Active Interaction [54.10819421625103]
AIPOは、ポリシーモデルが、推論ボトルネックに遭遇するときに、3つの機能的協調エージェントを積極的に相談することを可能にする。
AIPOは推論性能を継続的に改善し、異なるポリシーモデルとRLVRアルゴリズムをまたいで堅牢に一般化し、ポリシーモデルの推論能力境界を効果的に拡張する。
論文 参考訳(メタデータ) (2026-05-08T19:06:55Z) - Your Agent is More Brittle Than You Think: Uncovering Indirect Injection Vulnerabilities in Agentic LLMs [32.38053469964495]
システム間インタラクションを含む拡張されたアクションスペースは、深刻なセキュリティ上の問題を引き起こす。
悪意のある命令をサードパーティのコンテンツ内に隠蔽するIPIは、データ流出などの不正なアクションをトリガーする。
9個のLPMバックボーンにまたがる4つの高度なIPI攻撃ベクトルに対する6つの防御戦略を評価した。
論文 参考訳(メタデータ) (2026-04-04T21:27:04Z) - OdysseyArena: Benchmarking Large Language Models For Long-Horizon, Active and Inductive Interactions [66.84396313837765]
我々はOdysseyArenaを紹介した。OdysseyArenaは、長期的、活動的、誘導的相互作用におけるエージェント評価を再中心化する。
エージェントの誘導効率と長期発見を測る120のタスクセットを提供する。
また,OdysseyArena-Challengeを極端相互作用地平線上での応力-試験剤の安定性について紹介する。
論文 参考訳(メタデータ) (2026-02-05T16:31:43Z) - The Landscape of Agentic Reinforcement Learning for LLMs: A Survey [103.32591749156416]
エージェント強化学習(Agentic RL)の出現は、大規模言語モデル(LLM RL)に適用された従来の強化学習からパラダイムシフトを示している。
本研究では, LLM-RLの縮退した単段階マルコフ決定過程(MDPs)と, エージェントRLを定義する部分可観測マルコフ決定過程(POMDPs)とを対比することにより, この概念シフトを定式化する。
論文 参考訳(メタデータ) (2025-09-02T17:46:26Z) - Imagine, Initialize, and Explore: An Effective Exploration Method in
Multi-Agent Reinforcement Learning [27.81925751697255]
複雑なシナリオにおける効率的なマルチエージェント探索法を提案する。
我々は、状態、観察、プロンプト、行動、報酬が自己回帰的に予測されるシーケンスモデリング問題として想像を定式化する。
臨界状態のエージェントを初期化することにより、IIEは潜在的に重要な未探索領域を発見する可能性を大幅に高める。
論文 参考訳(メタデータ) (2024-02-28T01:45:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。