論文の概要: Look Before You Leap: Autonomous Exploration for LLM Agents
- arxiv url: http://arxiv.org/abs/2605.16143v1
- Date: Fri, 15 May 2026 16:24:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-18 21:22:26.368594
- Title: Look Before You Leap: Autonomous Exploration for LLM Agents
- Title(参考訳): Leap: LLMエージェントの自律的な探索
- Authors: Ziang Ye, Wentao Shi, Yuxin Liu, Yu Wang, Zhengzhou Cai, Yaorui Shi, Qi Gu, Xunliang Cai, Fuli Feng,
- Abstract要約: 大規模言語モデルに基づくエージェントは、未熟な環境において、未熟な利用のために失敗することが多い。
我々は,自律探査を適応エージェント構築の重要かつ未探索の能力とみなす。
- 参考スコア(独自算出の注目度): 46.001025916022066
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large language model based agents often fail in unfamiliar environments due to premature exploitation: a tendency to act on prior knowledge before acquiring sufficient environment-specific information. We identify autonomous exploration as a critical yet underexplored capability for building adaptive agents. To formalize and quantify this capability, we introduce Exploration Checkpoint Coverage, a verifiable metric that measures how broadly an agent discovers key states, objects, and affordances. Our systematic evaluation reveals that agents trained with standard task-oriented reinforcement learning consistently exhibit narrow and repetitive behaviors that impede downstream performance. To address this limitation, we develop a training strategy that interleaves task-execution rollouts and exploration rollouts, with each type of rollout optimized by its corresponding verifiable reward. Building on this training strategy, we propose the Explore-then-Act paradigm, which decouples information-gathering from task execution: agents first utilize an interaction budget to acquire grounded environmental knowledge, then leverage it for task resolution. Our results demonstrate that learning to systematically explore is imperative for building generalizable and real-world-ready agents.
- Abstract(参考訳): 大規模言語モデルに基づくエージェントは、十分に環境固有の情報を得る前に、事前知識に作用する傾向にある、未熟な環境で失敗することが多い。
我々は,自律探査を適応エージェント構築の重要かつ未探索の能力とみなす。
この機能を形式化し、定量化するために、エージェントがキー状態、オブジェクト、およびアベイランスをいかに広く発見するかを測定する検証可能な指標であるExploration Checkpoint Coverageを導入する。
システム評価の結果,標準タスク指向強化学習で訓練されたエージェントは,下流のパフォーマンスを阻害する狭小かつ反復的な動作を一貫して示していることが明らかとなった。
この制限に対処するため、我々はタスク実行ロールアウトと探索ロールアウトをインターリーブするトレーニング戦略を開発し、各ロールアウトは、その検証可能な報酬によって最適化される。
このトレーニング戦略に基づいて,情報収集とタスク実行を分離するExplore-then-Actパラダイムを提案する。
この結果から,システム的に探索する学習は,汎用的で現実的なエージェント構築に不可欠であることが示唆された。
関連論文リスト
- Temporal Representations for Exploration: Learning Complex Exploratory Behavior without Extrinsic Rewards [39.328230174948025]
本研究では,時間的コントラスト表現を利用して探索をガイドする探索手法を提案する。
このような表現は, 移動, 操作, 組込みAIタスクにおいて, 複雑な探索 x の学習を可能にすることを実証する。
論文 参考訳(メタデータ) (2026-03-02T15:55:27Z) - Unsupervised Learning of Efficient Exploration: Pre-training Adaptive Policies via Self-Imposed Goals [0.0]
教師なし事前学習は、強化学習エージェントに事前知識を付与し、下流タスクでの学習を加速することができる。
本稿では,文脈内学習者と対向目標生成戦略を組み合わせた教師なしメタ学習手法ULEEを提案する。
論文 参考訳(メタデータ) (2026-01-27T17:10:29Z) - Agent Learning via Early Experience [93.83579011718858]
言語エージェントの長期的な目標は、彼ら自身の経験から学び、改善することであり、最終的には複雑な現実世界のタスクにおいて人間より優れています。
現在のエージェントのほとんどは、専門家データによる教師付き微調整に依存しており、スケールと一般化が不十分である。
本研究では,(1)環境力学における政策の基盤として収集された状態を利用するインプリシット・ワールド・モデリング,(2)エージェントが最適な行動から学習し,推論と意思決定を改善するための自己回帰という2つの手法について検討する。
論文 参考訳(メタデータ) (2025-10-09T17:59:17Z) - Curriculum-Based Multi-Tier Semantic Exploration via Deep Reinforcement Learning [1.8374319565577155]
本稿では,資源効率の良い意味探索を目的とした新しいDeep Reinforcement Learningアーキテクチャを提案する。
重要な方法論的貢献は、層状報酬関数によるビジョンランゲージモデル(VLM)の共通センスの統合である。
本研究では,本エージェントがオブジェクト発見率を大幅に向上し,セマンティックにリッチな領域へ効果的にナビゲートする学習能力を開発したことを示す。
論文 参考訳(メタデータ) (2025-09-11T11:10:08Z) - Agentic Knowledgeable Self-awareness [79.25908923383776]
KnowSelfはデータ中心のアプローチで、人間のような知識のある自己認識を持つエージェントを応用する。
我々の実験により、KnowSelfは、外部知識を最小限に使用して、様々なタスクやモデルにおいて、様々な強力なベースラインを達成できることが実証された。
論文 参考訳(メタデータ) (2025-04-04T16:03:38Z) - Reinforcement Learning with Prototypical Representations [114.35801511501639]
Proto-RLは、プロトタイプ表現を通じて表現学習と探索を結び付ける自己監督型フレームワークである。
これらのプロトタイプは、エージェントの探索経験の要約と同時に、観察を表す基盤としても機能する。
これにより、困難な連続制御タスクのセットで最新の下流ポリシー学習が可能になります。
論文 参考訳(メタデータ) (2021-02-22T18:56:34Z) - Planning to Explore via Self-Supervised World Models [120.31359262226758]
Plan2Exploreは自己監督型強化学習エージェントである。
我々は、自己監督型探索と、新しいタスクへの迅速な適応に対する新しいアプローチを提案する。
Plan2Exploreは、訓練の監督やタスク固有の相互作用がなければ、自己監督型の探査方法よりも優れている。
論文 参考訳(メタデータ) (2020-05-12T17:59:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。