論文の概要: Learning to Explore: Scaling Agentic Reasoning via Exploration-Aware Policy Optimization
- arxiv url: http://arxiv.org/abs/2605.08978v2
- Date: Tue, 12 May 2026 02:23:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 18:21:06.938724
- Title: Learning to Explore: Scaling Agentic Reasoning via Exploration-Aware Policy Optimization
- Title(参考訳): 探索のための学習:探索-認識ポリシー最適化によるエージェント推論のスケーリング
- Authors: Xingyuan Hua, Sheng Yue, Ju Ren,
- Abstract要約: 既存の手法の鍵となる制限は、通常、未分化の探査戦略を採用することである。
本研究では,LLMエージェントが不確実性が高い場合にのみ適応的に探索できる探索対応強化学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 14.566152113959555
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in agentic test-time scaling allow models to gather environmental feedback before committing to final actions. A key limitation of existing methods is that they typically employ undifferentiated exploration strategies, lacking the ability to adaptively distinguish when exploration is truly required. In this paper, we propose an exploration-aware reinforcement learning framework that enables LLM agents to adaptively explore only when uncertainty is high. Our method introduces a fine-grained reward function via variational inference that explicitly evaluates exploratory actions by estimating their potential to improve future decision-making, together with an exploration-aware grouping mechanism that separates exploratory actions from task-completion actions during optimization. By targeting informational gaps, this design allows agents to explore selectively and transition to execution as soon as the task context is clear. Empirically, we demonstrate that our approach achieves consistent improvements across a range of challenging text-based and GUI-based agent benchmarks. Code is available at https://github.com/HansenHua/EAPO-ICML26 and models are available at https://huggingface.co/hansenhua/EAPO-ICML26.
- Abstract(参考訳): エージェントテストタイムスケーリングの最近の進歩は、最終的な行動にコミットする前に、モデルが環境フィードバックを収集することを可能にする。
既存の手法の鍵となる制限は、通常、未分化の探査戦略を採用しており、探査が本当に必要なときに適応的に区別する能力が欠如していることである。
本稿では,LLMエージェントが不確実性が高い場合にのみ適応的に探索できる探索対応強化学習フレームワークを提案する。
提案手法では,探索行動とタスク補完動作とを分離した探索型グループ化機構とともに,探索行動が将来の意思決定を改善する可能性を推定し,探索行動を明確に評価する変動推論による細粒度報酬関数を提案する。
この設計では、情報ギャップをターゲットとすることにより、タスクコンテキストが明確になったらすぐに、エージェントが選択的に探索し、実行に移行することができる。
実験により,本手法はテキストベースおよびGUIベースのエージェントベンチマークにおいて,一貫した改善を実現することを示す。
コードはhttps://github.com/HansenHua/EAPO-ICML26で、モデルはhttps://huggingface.co/hansenhua/EAPO-ICML26で入手できる。
関連論文リスト
- Poly-EPO: Training Exploratory Reasoning Models [62.82992914206963]
本稿では,学習後言語モデル(LM)の枠組みについて,楽観的な探索を明示的に奨励し,探索と搾取の相乗効果を促進する。
本稿では,この枠組みを探索と利用を明確に相乗化するための目的として,ポリクロミック探索政策最適化(Poly-EPO)を提案する。
論文 参考訳(メタデータ) (2026-04-19T22:54:19Z) - Exploration and Exploitation Errors Are Measurable for Language Model Agents [52.95061000593404]
言語モデル(LM)エージェントは、複雑なオープン化された決定タスクにますます使われています。
コア要件は、問題空間を探索し、獲得した知識を効果的に活用する能力である。
実践的なAIシナリオにインスパイアされた制御可能な環境を設計する。
論文 参考訳(メタデータ) (2026-04-14T17:59:57Z) - Multi-Agent LLMs for Adaptive Acquisition in Bayesian Optimization [2.6954666679827137]
本稿では,Large Language Models (LLM) が探索・探索戦略をどのように構築し,適応するかを示す。
本稿では,探索・探索制御を戦略的政策仲介と戦術的候補生成に分解する多エージェントフレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-30T20:05:30Z) - Novelty-Driven Target-Space Discovery in Automated Electron and Scanning Probe Microscopy [0.5805874695844994]
我々は、ターゲット空間における発見をガイドするディープラーニングBEACONフレームワークを開発した。
このベンチマークフレームワークは、発見駆動アルゴリズムを評価する基盤を提供する。
関連するノートブックが利用可能で、ユーザはベンチマークを再現し、テストし、メソッドを自身の機器やデータセットに適応することができる。
論文 参考訳(メタデータ) (2026-03-17T16:04:20Z) - From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Imagine, Initialize, and Explore: An Effective Exploration Method in
Multi-Agent Reinforcement Learning [27.81925751697255]
複雑なシナリオにおける効率的なマルチエージェント探索法を提案する。
我々は、状態、観察、プロンプト、行動、報酬が自己回帰的に予測されるシーケンスモデリング問題として想像を定式化する。
臨界状態のエージェントを初期化することにより、IIEは潜在的に重要な未探索領域を発見する可能性を大幅に高める。
論文 参考訳(メタデータ) (2024-02-28T01:45:01Z) - LASER: LLM Agent with State-Space Exploration for Web Navigation [57.802977310392755]
大規模言語モデル(LLM)は、Webナビゲーションのようなインタラクティブな意思決定タスクにうまく適応している。
以前のメソッドでは、モデルに対して前方のみの実行モードを暗黙的に仮定しており、そこでは、オンコンテキストの例として、オラクルのトラジェクトリのみを提供する。
本稿では,対話型タスクを状態空間探索としてモデル化することを提案する。
論文 参考訳(メタデータ) (2023-09-15T05:44:08Z) - Sequential Transfer in Reinforcement Learning with a Generative Model [48.40219742217783]
本稿では,従来の課題から知識を移譲することで,新たな課題を学習する際のサンプルの複雑さを軽減する方法について述べる。
この種の事前知識を使用することのメリットを明確に示すために,PAC境界のサンプル複雑性を導出する。
簡単なシミュレートされた領域における理論的な発見を実証的に検証する。
論文 参考訳(メタデータ) (2020-07-01T19:53:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。