論文の概要: Environment Maps: Structured Environmental Representations for Long-Horizon Agents
- arxiv url: http://arxiv.org/abs/2603.23610v3
- Date: Fri, 27 Mar 2026 03:53:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-30 21:49:48.139996
- Title: Environment Maps: Structured Environmental Representations for Long-Horizon Agents
- Title(参考訳): 環境地図:長軸エージェントのための構造的環境表現
- Authors: Yenchia Feng, Chirag Sharma, Karime Maamari,
- Abstract要約: 環境マップは、カスケードエラーと環境を緩和する永続的でエージェントに依存しない表現である。
環境地図を備えたエージェントは28.2%の成功率を達成する。
モデルと環境の間の構造化されたインターフェースを提供することにより、環境マップは長期計画のための永続的な基盤を確立する。
- 参考スコア(独自算出の注目度): 2.064612766965483
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although large language models (LLMs) have advanced rapidly, robust automation of complex software workflows remains an open problem. In long-horizon settings, agents frequently suffer from cascading errors and environmental stochasticity; a single misstep in a dynamic interface can lead to task failure, resulting in hallucinations or trial-and-error. This paper introduces $\textit{Environment Maps}$: a persistent, agent-agnostic representation that mitigates these failures by consolidating heterogeneous evidence, such as screen recordings and execution traces, into a structured graph. The representation consists of four core components: (1) Contexts (abstracted locations), (2) Actions (parameterized affordances), (3) Workflows (observed trajectories), and (4) Tacit Knowledge (domain definitions and reusable procedures). We evaluate this framework on the WebArena benchmark across five domains. Agents equipped with environment maps achieve a 28.2% success rate, nearly doubling the performance of baselines limited to session-bound context (14.2%) and outperforming agents that have access to the raw trajectory data used to generate the environment maps (23.3%). By providing a structured interface between the model and the environment, Environment Maps establish a persistent foundation for long-horizon planning that is human-interpretable, editable, and incrementally refinable.
- Abstract(参考訳): 大規模言語モデル(LLM)は急速に進歩しているが、複雑なソフトウェアワークフローの堅牢な自動化は依然としてオープンな問題である。
ロングホライゾン環境では、エージェントはしばしばカスケードエラーや環境確率に悩まされ、動的なインターフェースの1つのミスステップはタスクの失敗を招き、幻覚や試行錯誤を引き起こす。
本稿では,スクリーン記録や実行トレースなどの不均一な証拠を構造化グラフに統合することにより,これらの障害を緩和する永続的エージェント非依存表現について紹介する。
この表現は、(1)コンテキスト(抽出された場所)、(2)アクション(パラメータ化された余裕)、(3)ワークフロー(観測された軌道)、(4)暗黙の知識(ドメイン定義と再利用可能な手順)の4つのコアコンポーネントから構成される。
我々はこのフレームワークを5つのドメインにわたるWebArenaベンチマークで評価する。
環境マップを備えたエージェントは28.2%の成功率を実現し、セッションバウンドコンテキスト(14.2%)に制限されたベースラインのパフォーマンスと、環境マップを生成するために使用される生の軌跡データ(23.3%)にアクセス可能なパフォーマンスのエージェント(23.3%)をほぼ倍増させる。
モデルと環境の間の構造化されたインターフェースを提供することにより、環境マップは人間に解釈可能で、編集可能で、漸進的に再定義可能な、長期計画のための永続的な基盤を確立する。
関連論文リスト
- Dynamic analysis enhances issue resolution [53.50448142467294]
DAIRA(Dynamic Analysis-enhanced Issue Resolution Agent)は、エージェントの推論サイクルに動的解析を組み込む自動修復フレームワークである。
テストトレース駆動の方法論によって駆動されるDAIRAは、軽量モニタを使用して重要なランタイムデータを抽出する。
Gemini 3 Flash Previewを使用すると、DAIRAは新たな最先端(SOTA)パフォーマンスを確立し、SWE-bench Verifiedデータセットで79.4%の解像度を達成する。
論文 参考訳(メタデータ) (2026-03-23T14:48:54Z) - SignNav: Leveraging Signage for Semantic Visual Navigation in Large-Scale Indoor Environments [57.79171900005793]
人間は、大規模屋内環境内の目的地に向かうために、手話によって提供される意味的ヒントを日常的に活用する。
本稿では,手話からの意味的ヒントを解釈し,現在の観察に基づくその後の行動の推論を行うための,新しい具体的ナビゲーションタスクSignNavを紹介する。
空間認識モジュールは物理的世界へのサインの意味的ヒントを基盤として,時間認識モジュールは歴史的状態と現在の観測との長距離依存性を捉えている。
論文 参考訳(メタデータ) (2026-03-17T06:36:26Z) - CORPGEN: Simulating Corporate Environments with Autonomous Digital Employees in Multi-Horizon Task Environments [1.6153514666902042]
実際の組織的な作業には、インターリーブ、依存関係、優先順位付けを伴って、多くの並行した長期タスクを管理する必要があります。
マルチ水平タスク環境(MHTEs: Multi-Horizon Task Environments: MHTEs): 数十のインターリーブタスクでコヒーレントな実行を必要とする問題クラス。
負荷が25%から100%になるにつれて、ベースラインCUAが16.7%から8.7%に低下する4つの障害モードを特定します。
マルチ水平ゴールアライメントのための階層的計画を通じて,これらの障害に対処するアーキテクチャに依存しないフレームワークであるCorpGenを提案する。
論文 参考訳(メタデータ) (2026-02-15T16:54:34Z) - INHerit-SG: Incremental Hierarchical Semantic Scene Graphs with RAG-Style Retrieval [32.38739911399099]
INHerit-SGは、複雑な環境で解釈可能な人間の意図的推論をサポートするセマンティックなシーングラフである。
イベントトリガーマップ更新メカニズムは、意味のあるセマンティックイベントが発生した場合にのみグラフを再編成する。
この明示的な解釈可能性により、複雑な検索の成功率と信頼性が向上し、システムはより広範なヒューマンインタラクションタスクに適応できる。
論文 参考訳(メタデータ) (2026-02-13T14:45:55Z) - AgentSkiller: Scaling Generalist Agent Intelligence through Semantically Integrated Cross-Domain Data Synthesis [30.512393568258105]
大規模言語モデルエージェントは、ツールを介して現実世界の問題を解決する可能性を実証するが、汎用的な知性は、質の低い長期データによってボトルネックとなる。
本稿では,現実的なセマンティックなドメイン間でのマルチターンインタラクションデータを合成する,完全に自動化されたフレームワークであるAgentSkillerを提案する。
論文 参考訳(メタデータ) (2026-02-10T03:21:42Z) - ProAct: Agentic Lookahead in Interactive Environments [56.50613398808361]
ProActは、2段階のトレーニングパラダイムを通じて、エージェントが正確なルックアヘッド推論を内部化することを可能にするフレームワークである。
そこでは,環境に基づく探索から得られたトラジェクトリの微調整をエージェントが行うGLAD(Grounded LookAhead Distillation)を紹介する。
また,政策段階のアルゴリズムを改良する補助値推定器であるモンテカルロ批判(MC-Critic)を提案する。
論文 参考訳(メタデータ) (2026-02-05T05:45:16Z) - Grounded Test-Time Adaptation for LLM Agents [75.62784644919803]
大規模言語モデル(LLM)ベースのエージェントは、新規で複雑な環境への一般化に苦慮している。
環境特化情報を活用することで, LLMエージェントを適応するための2つの戦略を提案する。
論文 参考訳(メタデータ) (2025-11-06T22:24:35Z) - ARE: Scaling Up Agent Environments and Evaluations [22.98982051873728]
本稿では,スケーラブルな環境構築のための研究プラットフォームであるMeta Agents Research Environments (ARE)を紹介する。
AREは、複雑で多様な環境を構築するための単純な抽象化を提供する。
また、AREで構築され、汎用エージェント能力を測定するために設計されたベンチマークであるGaia2を提案する。
論文 参考訳(メタデータ) (2025-09-21T16:59:45Z) - Agent-Environment Alignment via Automated Interface Generation [10.469261669159367]
大言語モデル(LLM)エージェントは、対話的な意思決定タスクにおいて印象的な推論能力を示している。
エージェントの内部の期待と、発行されたアクションの影響と、環境における実際の状態遷移との間には、しばしばミスマッチが発生します。
我々は,環境の静的情報とエージェントに返されるステップワイズ観測の両方を強化するインタフェースであるtextbfALIGNを提案する。
論文 参考訳(メタデータ) (2025-05-27T11:44:50Z) - RICE: Refining Instance Masks in Cluttered Environments with Graph
Neural Networks [53.15260967235835]
本稿では,インスタンスマスクのグラフベース表現を利用して,そのような手法の出力を改良する新しいフレームワークを提案する。
我々は、セグメンテーションにスマートな摂動をサンプリングできるディープネットワークと、オブジェクト間の関係をエンコード可能なグラフニューラルネットワークを訓練し、セグメンテーションを評価する。
本稿では,本手法によって生成された不確実性推定を用いてマニピュレータを誘導し,乱れたシーンを効率的に理解するアプリケーションについて紹介する。
論文 参考訳(メタデータ) (2021-06-29T20:29:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。