論文の概要: Exploration and Exploitation Errors Are Measurable for Language Model Agents
- arxiv url: http://arxiv.org/abs/2604.13151v1
- Date: Tue, 14 Apr 2026 17:59:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-16 20:38:32.230254
- Title: Exploration and Exploitation Errors Are Measurable for Language Model Agents
- Title(参考訳): 言語モデルエージェントのための探索・爆発誤差の測定
- Authors: Jaden Park, Jungtaek Kim, Jongwon Jeong, Robert D. Nowak, Kangwook Lee, Yong Jae Lee,
- Abstract要約: 言語モデル(LM)エージェントは、複雑なオープン化された決定タスクにますます使われています。
コア要件は、問題空間を探索し、獲得した知識を効果的に活用する能力である。
実践的なAIシナリオにインスパイアされた制御可能な環境を設計する。
- 参考スコア(独自算出の注目度): 52.95061000593404
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Language Model (LM) agents are increasingly used in complex open-ended decision-making tasks, from AI coding to physical AI. A core requirement in these settings is the ability to both explore the problem space and exploit acquired knowledge effectively. However, systematically distinguishing and quantifying exploration and exploitation from observed actions without access to the agent's internal policy remains challenging. To address this, we design controllable environments inspired by practical embodied AI scenarios. Each environment consists of a partially observable 2D grid map and an unknown task Directed Acyclic Graph (DAG). The map generation can be programmatically adjusted to emphasize exploration or exploitation difficulty. To enable policy-agnostic evaluation, we design a metric to quantify exploration and exploitation errors from agent's actions. We evaluate a variety of frontier LM agents and find that even state-of-the-art models struggle on our task, with different models exhibiting distinct failure modes. We further observe that reasoning models solve the task more effectively and show both exploration and exploitation can be significantly improved through minimal harness engineering. We release our code \href{https://github.com/jjj-madison/measurable-explore-exploit}{here}.
- Abstract(参考訳): 言語モデル(LM)エージェントは、AIコーディングから物理AIに至るまで、複雑なオープンエンド意思決定タスクでますます使用されている。
これらの設定の中核となる要件は、問題空間を探索し、獲得した知識を効果的に活用する能力である。
しかし、エージェントの内部方針にアクセスすることなく、観察された行動から探索と搾取を体系的に区別し、定量化することは依然として困難である。
これを解決するために,実践的なAIシナリオにインスパイアされた制御可能な環境を設計する。
各環境は、部分的に観測可能な2Dグリッドマップと未知のタスクであるDirected Acyclic Graph (DAG)で構成されている。
地図生成は、探索や搾取の難しさを強調するためにプログラム的に調整することができる。
政策に依存しない評価を可能にするために,エージェントの行動から探索および搾取エラーを定量化する指標を設計する。
我々は、様々なフロンティアLMエージェントを評価し、最先端モデルでさえタスクに苦労し、異なるモデルが異なる障害モードを示すことを発見した。
さらに、推論モデルによりタスクをより効果的に解決し、最小限のハーネス工学により探索と搾取の両方を著しく改善できることを示す。
私たちは、コード href{https://github.com/jj-madison/measurable-explore-exploit}{here} をリリースします。
関連論文リスト
- Decoupling Exploration and Policy Optimization: Uncertainty Guided Tree Search for Hard Exploration [12.531650952835493]
本稿では,探査段階におけるRLの活用と回避を明確に分離する新たなパラダイムを提案する。
政策最適化のオーバーヘッドを取り除くことにより,本手法は,ハードなAtariベンチマーク上での本質的なモチベーションベースラインよりも,桁違いに効率よく探索する。
得られた軌跡を既存の教師付き後方学習アルゴリズムを用いて,展開可能なポリシに抽出できることを実証した。
論文 参考訳(メタデータ) (2026-03-23T17:56:52Z) - What Do LLM Agents Know About Their World? Task2Quiz: A Paradigm for Studying Environment Understanding [50.35012849818872]
大規模言語モデル(LLM)エージェントは、複雑な意思決定やツール使用タスクにおいて顕著な能力を示した。
本研究では,タスク実行と世界状態理解の分離を目的とした決定論的かつ自動評価パラダイムであるTask-to-Quiz(T2Q)を提案する。
実験の結果,タスク成功は環境理解の指標として不十分な場合が多く,現在の記憶機構はエージェントが環境の基底モデルを取得するのに有効ではないことが明らかとなった。
論文 参考訳(メタデータ) (2026-01-14T14:09:11Z) - Hell or High Water: Evaluating Agentic Recovery from External Failures [19.402114652658206]
我々は,言語エージェントが目的を達成するための代替手段をいかに探すかを研究するために,特殊エージェント計画ベンチマークを開発する。
私たちのベンチマークでは、突然利用不能になった関数など、ワークフロー内の外部障害にエージェントが直面しています。
全体として,言語エージェントは環境フィードバックに応じて,バックアップ計画の定式化と実行に苦慮している。
論文 参考訳(メタデータ) (2025-08-14T19:21:09Z) - Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。
しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。
人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:49:25Z) - Latent Exploration for Reinforcement Learning [87.42776741119653]
強化学習では、エージェントは環境を探索し、相互作用することでポリシーを学ぶ。
LATent TIme-Correlated Exploration (Lattice)を提案する。
論文 参考訳(メタデータ) (2023-05-31T17:40:43Z) - Agent Spaces [0.0]
我々は探索を、エージェント自体を爆発的に修正する行為として定義する。
強化学習における多くの重要な構造は、エージェント空間の収束によって引き起こされるトポロジーの下でうまく振る舞うことを示す。
論文 参考訳(メタデータ) (2021-11-11T01:12:17Z) - Deep Reinforcement Learning for Adaptive Exploration of Unknown
Environments [6.90777229452271]
私達はUAVのための1つのステップで調査および搾取間のトレードオフに適応的な調査のアプローチを開発します。
提案手法では, 環境マップを小型でトラクタブルな地図に分解するために, マップセグメンテーション手法を用いる。
その結果,本提案手法は,ランダムに生成された環境をナビゲートし,ベースラインと比較してAoIを短時間でカバーできることが示された。
論文 参考訳(メタデータ) (2021-05-04T16:29:44Z) - Batch Exploration with Examples for Scalable Robotic Reinforcement
Learning [63.552788688544254]
BEE(Batch Exploration with Examples)は、重要状態の画像の少ない数の人間がガイドする状態空間の関連領域を探索する。
BEEは、シミュレーションと本物のフランカロボットの両方で、視覚ベースの操作に挑戦することができる。
論文 参考訳(メタデータ) (2020-10-22T17:49:25Z) - Improving Target-driven Visual Navigation with Attention on 3D Spatial
Relationships [52.72020203771489]
3次元屋内シーンにおける深部強化学習(DRL)を用いた目標駆動型視覚ナビゲーションについて検討した。
提案手法は視覚特徴と3次元空間表現を組み合わせてナビゲーションポリシーを学習する。
AI2-THORで実施した我々の実験は、SRとSPLの指標において、モデルがベースラインを上回っていることを示している。
論文 参考訳(メタデータ) (2020-04-29T08:46:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。