論文の概要: Thinking on Maps: How Foundation Model Agents Explore, Remember, and Reason Map Environments
- arxiv url: http://arxiv.org/abs/2512.24504v2
- Date: Thu, 01 Jan 2026 21:35:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-05 13:15:27.765488
- Title: Thinking on Maps: How Foundation Model Agents Explore, Remember, and Reason Map Environments
- Title(参考訳): マップを考える - ファンデーションモデルエージェントがマップ環境を探索し、思い出し、理解する方法
- Authors: Zhiwei Wei, Yuxing Liu, Hua Liao, Wenjia Xu,
- Abstract要約: 地図環境は、空間構造を表現するための基本的な媒体であり、基礎モデル(FM)エージェントがそのような環境でどのように理解し、どのように振る舞うかを理解することは、信頼できる地図ベースの推論と応用を可能にするために重要である。
本研究では,FMエージェントがシンボルマップ環境においてどのように探索し,記憶し,理性を示すかを分析するための対話型評価フレームワークを提案する。
- 参考スコア(独自算出の注目度): 10.485672302572368
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Map environments provide a fundamental medium for representing spatial structure. Understanding how foundation model (FM) agents understand and act in such environments is therefore critical for enabling reliable map-based reasoning and applications. However, most existing evaluations of spatial ability in FMs rely on static map inputs or text-based queries, overlooking the interactive and experience-driven nature of spatial understanding.In this paper, we propose an interactive evaluation framework to analyze how FM agents explore, remember, and reason in symbolic map environments. Agents incrementally explore partially observable grid-based maps consisting of roads, intersections, and points of interest (POIs), receiving only local observations at each step. Spatial understanding is then evaluated using six kinds of spatial tasks. By systematically varying exploration strategies, memory representations, and reasoning schemes across multiple foundation models, we reveal distinct functional roles of these components. Exploration primarily affects experience acquisition but has a limited impact on final reasoning accuracy. In contrast, memory representation plays a central role in consolidating spatial experience, with structured memories particularly sequential and graph-based representations, substantially improving performance on structure-intensive tasks such as path planning. Reasoning schemes further shape how stored spatial knowledge is used, with advanced prompts supporting more effective multi-step inference. We further observe that spatial reasoning performance saturates across model versions and scales beyond a certain capability threshold, indicating that improvements in map-based spatial understanding require mechanisms tailored to spatial representation and reasoning rather than scaling alone.
- Abstract(参考訳): 地図環境は空間構造を表現するための基本的な媒体を提供する。
したがって、基礎モデル(FM)エージェントがそのような環境でどのように理解し、どのように振舞うかを理解することは、信頼できるマップベースの推論とアプリケーションを実現するために重要である。
しかし,従来のFMの空間能力評価では,静的な地図入力やテキストベースのクエリに頼り,空間理解の対話的・経験的特性を見越して,FMエージェントの探索・記憶・理性分析を行うインタラクティブな評価フレームワークを提案する。
エージェントは、道路、交差点、関心点(POI)からなる部分的に観測可能なグリッドベースの地図を段階的に探索し、各ステップでのみ局所的な観測を受ける。
空間的理解は6種類の空間的タスクを用いて評価される。
複数の基礎モデルにまたがる探索戦略,記憶表現,推論スキームを体系的に変化させることで,これらの構成要素の異なる機能的役割を明らかにする。
探索は主に経験獲得に影響を与えるが、最終的な推論精度には制限がある。
対照的に、メモリ表現は空間的体験の統合において中心的な役割を担い、特に構造化記憶は連続的かつグラフに基づく表現であり、パス計画のような構造集約的なタスクのパフォーマンスを大幅に向上させる。
推論スキームは空間知識の格納方法をさらに形成し、より効果的な多段階推論をサポートする。
さらに, 空間的推論性能は, モデルバージョン間で飽和し, 特定の能力閾値を超えてスケールすることが観察され, 地図に基づく空間的理解の改善には, 単独でスケールするのではなく, 空間的表現や推論に適した機構が必要であることが示唆された。
関連論文リスト
- Multimodal Spatial Reasoning in the Large Model Era: A Survey and Benchmarks [108.15756345836901]
大規模モデルを用いたマルチモーダル空間推論タスクの包括的レビューを行う。
我々は、視覚言語ナビゲーションやアクションモデルを含む、具体的AIの進歩についてレビューする。
我々は,新しいセンサによる空間的理解に寄与する音声やエゴセントリックビデオなどの新たなモダリティを考察する。
論文 参考訳(メタデータ) (2025-10-29T17:55:43Z) - EvoEmpirBench: Dynamic Spatial Reasoning with Agent-ExpVer [5.855255212938064]
空間的理解と適応計画におけるモデルの能力を評価する2つの動的空間的ベンチマークを導入する。
実験の結果、我々のベンチマークは、動的空間推論と長期記憶における主流モデルの鍵となる限界を明らかにしている。
論文 参考訳(メタデータ) (2025-09-16T06:21:38Z) - Enhancing Spatial Reasoning in Multimodal Large Language Models through Reasoning-based Segmentation [50.81551581148339]
本稿では、推論に基づくセグメンテーションフレームワークRelevant Reasoning(R$2$S)を紹介する。
推論に基づくセグメンテーションデータセットである3D ReasonSegについても紹介する。
どちらの実験も、R$2$Sと3D ReasonSegは、空間的推論能力の強い3D点雲知覚を効果的に達成することを示した。
論文 参考訳(メタデータ) (2025-06-29T06:58:08Z) - FindAnything: Open-Vocabulary and Object-Centric Mapping for Robot Exploration in Any Environment [16.987872206495897]
FindAnythingは、視覚言語情報を高密度のボリュームサブマップに組み込むオープンワールドマッピングフレームワークである。
当社のシステムは,MAVなどのリソース制約されたデバイスにデプロイされる最初のシステムである。
論文 参考訳(メタデータ) (2025-04-11T15:12:05Z) - From Text to Space: Mapping Abstract Spatial Models in LLMs during a Grid-World Navigation Task [0.0]
グリッドワールドナビゲーションタスクにおける大規模言語モデル(LLM)の性能と内部アクティベーションに及ぼすテキストベース空間表現の影響について検討する。
実験の結果, 空間のカルデシアン表現は, モデルサイズに比例して高い成功率と経路効率が得られることがわかった。
この研究は、LLMが空間情報をどのように処理するかの理解を深め、より解釈可能で堅牢なエージェントAIシステムの開発に有用な洞察を提供する。
論文 参考訳(メタデータ) (2025-02-23T19:09:01Z) - SpaRC and SpaRP: Spatial Reasoning Characterization and Path Generation for Understanding Spatial Reasoning Capability of Large Language Models [70.01883340129204]
空間推論は 生物学的と人工知能の両方において 重要な要素です
本稿では,現在最先端の大規模言語モデル (LLM) の空間的推論能力について包括的に検討する。
論文 参考訳(メタデータ) (2024-06-07T01:06:34Z) - Hierarchical Spatial Proximity Reasoning for Vision-and-Language Navigation [1.2473780585666772]
多くのVision-and-Language Navigation (VLN)アルゴリズムは、視覚的常識の欠如と限られた推論能力のために不正確な決定をする傾向がある。
本稿では,階層的空間近接の知識基盤構築を支援するために,階層的空間近接推論(HSPR)手法を提案する。
我々は、REVERIE、SOON、R2R、R4Rなどの公開データセットで実験を行い、我々のアプローチを検証する。
論文 参考訳(メタデータ) (2024-03-18T07:51:22Z) - Mapping High-level Semantic Regions in Indoor Environments without
Object Recognition [50.624970503498226]
本研究では,屋内環境における埋め込みナビゲーションによる意味領域マッピング手法を提案する。
地域識別を実現するために,視覚言語モデルを用いて地図作成のためのシーン情報を提供する。
グローバルなフレームにエゴセントリックなシーン理解を投影することにより、提案手法は各場所の可能な領域ラベル上の分布としてのセマンティックマップを生成する。
論文 参考訳(メタデータ) (2024-03-11T18:09:50Z) - Spatial Pyramid Based Graph Reasoning for Semantic Segmentation [67.47159595239798]
セマンティックセグメンテーションタスクにグラフ畳み込みを適用し、改良されたラプラシアンを提案する。
グラフ推論は、空間ピラミッドとして構成された元の特徴空間で直接実行される。
計算とメモリのオーバーヘッドの利点で同等のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2020-03-23T12:28:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。