論文の概要: MAP: A Map-then-Act Paradigm for Long-Horizon Interactive Agent Reasoning
- arxiv url: http://arxiv.org/abs/2605.13037v1
- Date: Wed, 13 May 2026 05:46:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:27.833
- Title: MAP: A Map-then-Act Paradigm for Long-Horizon Interactive Agent Reasoning
- Title(参考訳): MAP:長距離対話型エージェント推論のためのMap-then-Actパラダイム
- Authors: Yuxin Liu, Ziang Ye, Yueqing Sun, Mingye Zhu, Jinwei Xiao, Zhuowen Han, Qi GU, Xunliang Cai, Lei Zhang,
- Abstract要約: 現在の対話型LCMエージェントは、事前に確立されるのではなく、実行中に環境理解がリアクティブに取得される、目標条件の段階的計画に依存している。
そこで我々は,環境理解を実践前に変化させるプラグイン・アンド・プレイ・フレームワークであるMap-then-Act Paradigm(MAP)を提案する。
- 参考スコア(独自算出の注目度): 17.654019494830546
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current interactive LLM agents rely on goal-conditioned stepwise planning, where environmental understanding is acquired reactively during execution rather than established beforehand. This temporal inversion leads to Delayed Environmental Perception: agents must infer environmental constraints through trial-and-error, resulting in an Epistemic Bottleneck that traps them in inefficient failure cycles. Inspired by human affordance perception and cognitive map theory, we propose the Map-then-Act Paradigm (MAP), a plug-and-play framework that shifts environment understanding before execution. MAP consists of three stages: (1) Global Exploration, acquiring environment-general priors; (2) Task-Specific Mapping, constructing a structured cognitive map; and (3) Knowledge-Augmented Execution, solving tasks grounded on the map. Experiments show consistent gains across benchmarks and LLMs. On ARC-AGI-3, MAP enables frontier models to surpass near-zero baseline performance in 22 of 25 game environments. We further introduce MAP-2K, a dataset of map-then-act trajectories, and show that training on it outperforms expert execution traces, suggesting that understanding environments is more fundamental than imitation.
- Abstract(参考訳): 現在の対話型LCMエージェントは、事前に確立されるのではなく、実行中に環境理解がリアクティブに取得される、目標条件の段階的計画に依存している。
エージェントは試行錯誤によって環境制約を推測しなければなりません。その結果、エピステミック・ボトルネックは、それらを非効率な障害サイクルにトラップします。
そこで我々は,環境理解を実践前に変化させるプラグイン・アンド・プレイ・フレームワークであるMap-then-Act Paradigm(MAP)を提案する。
MAPは,(1)グローバル探索,環境一般の事前の獲得,(2)タスク特化マッピング,構造化認知マップの構築,(3)知識強化実行,地図に基づく課題の解決の3段階から構成される。
実験では、ベンチマークとLLM間で一貫した利得を示している。
ARC-AGI-3では、MAPは25のゲーム環境のうち22のゲーム環境においてフロンティアモデルがほぼゼロに近いベースライン性能を超えることができる。
さらに、MAP-2K(map-then-act trajectories)のデータセットを導入し、そのトレーニングが専門家の実行トレースを上回っていることを示し、環境の理解が模倣よりも根本的であることを示唆した。
関連論文リスト
- HELP: HyperNode Expansion and Logical Path-Guided Evidence Localization for Accurate and Efficient GraphRAG [53.30561659838455]
大きな言語モデル(LLM)は、しばしば固有の知識境界と幻覚に苦しむ。
Retrieval-Augmented Generation (RAG) は、マルチホップ推論に不可欠な構造的相互依存性をしばしば見落としている。
ヘルプは、複数の単純でマルチホップなQAベンチマークで競合性能を達成し、グラフベースのRAGベースラインよりも28.8$times$のスピードアップを実現している。
論文 参考訳(メタデータ) (2026-02-24T14:05:29Z) - What Do LLM Agents Know About Their World? Task2Quiz: A Paradigm for Studying Environment Understanding [50.35012849818872]
大規模言語モデル(LLM)エージェントは、複雑な意思決定やツール使用タスクにおいて顕著な能力を示した。
本研究では,タスク実行と世界状態理解の分離を目的とした決定論的かつ自動評価パラダイムであるTask-to-Quiz(T2Q)を提案する。
実験の結果,タスク成功は環境理解の指標として不十分な場合が多く,現在の記憶機構はエージェントが環境の基底モデルを取得するのに有効ではないことが明らかとなった。
論文 参考訳(メタデータ) (2026-01-14T14:09:11Z) - PEACE: Empowering Geologic Map Holistic Understanding with MLLMs [64.58959634712215]
地質図は地質学の基本的な図として、地球の地下と地表の構造と構成に関する重要な洞察を提供する。
その重要性にもかかわらず、現在のマルチモーダル大言語モデル(MLLM)は地質図の理解に乏しいことが多い。
このギャップを定量化するために、地質地図理解においてMLLMを評価するための最初のベンチマークであるGeoMap-Benchを構築した。
論文 参考訳(メタデータ) (2025-01-10T18:59:42Z) - E2Map: Experience-and-Emotion Map for Self-Reflective Robot Navigation with Language Models [16.50787220881633]
大規模言語モデル(LLM)は、言語命令を実行するためのエンボディエージェントを誘導する大きな可能性を示している。
既存の手法は主に静的環境向けに設計されており、エージェント自身の経験を生かして初期計画を洗練しない。
本研究は,LLMの知識とエージェントの現実世界の経験を統合した経験・感情マップ(E2Map)を紹介する。
論文 参考訳(メタデータ) (2024-09-16T06:35:18Z) - MapGPT: Map-Guided Prompting with Adaptive Path Planning for Vision-and-Language Navigation [73.81268591484198]
GPTを装備した身体的エージェントは、様々なタスクにまたがる異常な意思決定と一般化能力を示した。
本稿では,グローバルな探索を促進するオンライン言語地図を提供するMapGPTという,地図誘導型GPTエージェントについて紹介する。
本設計の利点を生かして,地図に基づく多段階経路計画を行うエージェントを支援する適応型計画手法を提案する。
論文 参考訳(メタデータ) (2024-01-14T15:34:48Z) - Weakly-Supervised Multi-Granularity Map Learning for Vision-and-Language
Navigation [87.52136927091712]
我々は,ロボットエージェントが言語指導によって記述された経路をたどって,環境の中をナビゲートするよう訓練する,現実的かつ困難な問題に対処する。
高精度かつ効率的なナビゲーションを実現するためには,環境オブジェクトの空間的位置と意味情報の両方を正確に表現した地図を構築することが重要である。
より包括的にオブジェクトを表現するために,オブジェクトの細粒度(色,テクスチャなど)とセマンティッククラスの両方を含む多粒度マップを提案する。
論文 参考訳(メタデータ) (2022-10-14T04:23:27Z) - Deep Reinforcement Learning for Adaptive Exploration of Unknown
Environments [6.90777229452271]
私達はUAVのための1つのステップで調査および搾取間のトレードオフに適応的な調査のアプローチを開発します。
提案手法では, 環境マップを小型でトラクタブルな地図に分解するために, マップセグメンテーション手法を用いる。
その結果,本提案手法は,ランダムに生成された環境をナビゲートし,ベースラインと比較してAoIを短時間でカバーできることが示された。
論文 参考訳(メタデータ) (2021-05-04T16:29:44Z) - Occupancy Anticipation for Efficient Exploration and Navigation [97.17517060585875]
そこで我々は,エージェントが自我中心のRGB-D観測を用いて,その占有状態を可視領域を超えて推定する,占有予測を提案する。
エゴセントリックなビューとトップダウンマップの両方でコンテキストを活用することで、私たちのモデルは環境のより広いマップを予測できます。
われわれのアプローチは、2020 Habitat PointNav Challengeの優勝だ。
論文 参考訳(メタデータ) (2020-08-21T03:16:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。