論文の概要: Do LLMs Build Spatial World Models? Evidence from Grid-World Maze Tasks
- arxiv url: http://arxiv.org/abs/2604.10690v1
- Date: Sun, 12 Apr 2026 15:30:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.175086
- Title: Do LLMs Build Spatial World Models? Evidence from Grid-World Maze Tasks
- Title(参考訳): LLMは空間的世界モデルを構築するか? : グリッドワールド迷路課題からの証拠
- Authors: Weijiang Li, Yilin Zhu, Rajarshi Das, Parijat Dube,
- Abstract要約: 迷路タスクによる大規模言語モデルの空間的理解を体系的に評価する。
計画能力に関する仮定に挑戦する空間的推論における大きな相違点を明らかにする。
これらの結果は,空間的抽象化を必要とするアプリケーションに基礎モデルを配置する上で重要な意味を持つ。
- 参考スコア(独自算出の注目度): 4.8901522421148735
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Foundation models have shown remarkable performance across diverse tasks, yet their ability to construct internal spatial world models for reasoning and planning remains unclear. We systematically evaluate the spatial understanding of large language models through maze tasks, a controlled testing context requiring multi-step planning and spatial abstraction. Across comprehensive experiments with Gemini-2.5-Flash, GPT-5-mini, Claude-Haiku-4.5, and DeepSeek-Chat, we uncover significant discrepancies in spatial reasoning that challenge assumptions about LLM planning capabilities. Using chain-of-thought prompting, Gemini achieves 80-86% accuracy on smaller mazes (5x5 to 7x7 grids) with tokenized adjacency representations, but performance collapses to 16-34% with visual grid formats, which is a 2-5x difference, suggesting representation-dependent rather than format-invariant spatial reasoning. We further probe spatial understanding through sequential proximity questions and compositional distance comparisons. Despite achieving 96-99% semantic coverage in reasoning traces, models fail to leverage this understanding for consistent spatial computations, indicating that they treat each question independently rather than building cumulative spatial knowledge. Our findings based on the maze-solving tasks suggest that LLMs do not develop robust spatial world models, but rather exhibit representation-specific and prompting-dependent reasoning that succeeds only under narrow conditions. These results have critical implications for deploying foundation models in applications requiring spatial abstraction.
- Abstract(参考訳): 基礎モデルは様々なタスクにおいて顕著な性能を示してきたが、推論と計画のための内部空間世界モデルを構築する能力は未だ不明である。
迷路タスク,多段階計画と空間抽象を必要とする制御されたテストコンテキストを通じて,大規模言語モデルの空間的理解を体系的に評価する。
Gemini-2.5-Flash、GPT-5-mini、Claude-Haiku-4.5、DeepSeek-Chatによる総合的な実験により、LLM計画能力に関する仮定に挑戦する空間的推論における大きな違いが明らかになった。
チェーン・オブ・シークレットのプロンプトを用いて、Geminiはトークン化された隣接表現を持つ小さな迷路(5x5から7x7グリッド)に対して80~86%の精度を達成するが、視覚グリッドフォーマットでは16~34%に低下する。
さらに、逐次近接質問と合成距離比較を通して空間的理解を探索する。
トレースの推論において96-99%のセマンティックカバレッジを達成したにもかかわらず、モデルは、この理解を一貫した空間計算に活用することができず、累積的な空間知識を構築するのではなく、各質問を独立して扱うことを示唆している。
迷路解決タスクに基づく研究結果から, LLM は空間空間モデルの構築ではなく, 狭い条件下でのみ成功し, 表現に特有であり, プロンプトに依存した推論が可能であることが示唆された。
これらの結果は,空間的抽象化を必要とするアプリケーションに基礎モデルを配置する上で重要な意味を持つ。
関連論文リスト
- From Indoor to Open World: Revealing the Spatial Reasoning Gap in MLLMs [65.04549036809557]
我々は、ステレオカメラ、LiDAR、IMU/GPSセンサーで撮影された歩行者の視線映像から構築したベンチマークを紹介する。
このデータセットは、計量的に正確な3D情報を提供し、空間的推論質問の自動生成を可能にする。
評価の結果、構造化屋内ベンチマークで観測された性能向上は、オープンワールド環境では消滅することが明らかとなった。
論文 参考訳(メタデータ) (2025-12-22T18:58:12Z) - SpatialThinker: Reinforcing 3D Reasoning in Multimodal LLMs via Spatial Rewards [37.39035418889281]
構造的空間接地と多段階推論を統合するためにRLで訓練された3D対応MLLMであるSpatialThinkerを紹介する。
このモデルは,タスク関連オブジェクトと空間関係のシーングラフを構築し,密集した空間報酬による回答への推論を行うことにより,人間のような空間知覚をシミュレートする。
論文 参考訳(メタデータ) (2025-11-10T18:52:47Z) - Stuck in the Matrix: Probing Spatial Reasoning in Large Language Models [0.0]
本稿では,大言語モデル(LLM)のテキスト入力に対する空間的推論能力について検討する。
これらのモデルは, グリッド型環境下での空間的推論と多段階問題の解法の両方で検証された。
論文 参考訳(メタデータ) (2025-10-23T04:32:46Z) - FloorplanQA: A Benchmark for Spatial Reasoning in LLMs using Structured Representations [78.65988445433844]
FloorplanQAは、大規模言語モデルにおける空間的推論を評価するための診断ベンチマークである。
このベンチマークでは、距離測定、可視性、経路探索、制約空間内のオブジェクト配置など、中核的な空間的タスクをカバーしている。
論文 参考訳(メタデータ) (2025-07-10T11:16:48Z) - SpatialScore: Towards Unified Evaluation for Multimodal Spatial Understanding [64.15606979785355]
マルチモーダル大規模言語モデル(MLLM)は,質問応答タスクにおいて顕著な成功を収めているが,空間的理解能力は乏しい。
既存のMLLMは3次元空間認識と理解能力を持っているか?
論文 参考訳(メタデータ) (2025-05-22T17:59:03Z) - EmbodiedVSR: Dynamic Scene Graph-Guided Chain-of-Thought Reasoning for Visual Spatial Tasks [24.41705039390567]
EmbodiedVSR (Embodied Visual Space Reasoning) は動的シーングラフ誘導型Chain-of-Thought (CoT)推論を統合する新しいフレームワークである。
本手法はタスク固有の微調整なしでゼロショット空間推論を可能にする。
実験により,我々のフレームワークは,既存のMLLM法よりも精度と推論コヒーレンスにおいて優れていることが示された。
論文 参考訳(メタデータ) (2025-03-14T05:06:07Z) - Sparkle: Mastering Basic Spatial Capabilities in Vision Language Models Elicits Generalization to Spatial Reasoning [36.588008658084895]
視覚言語モデル(VLM)は多くのタスクでうまく機能するが、しばしば空間的推論では失敗する。
評価の結果, 現状のVLMでは, 複合空間問題に対する不正確な答えが得られていることがわかった。
VLMにおける2次元空間推論は,基本空間能力のみに基づいて訓練することで向上する。
論文 参考訳(メタデータ) (2024-10-21T16:26:09Z) - SpaRC and SpaRP: Spatial Reasoning Characterization and Path Generation for Understanding Spatial Reasoning Capability of Large Language Models [70.01883340129204]
空間推論は 生物学的と人工知能の両方において 重要な要素です
本稿では,現在最先端の大規模言語モデル (LLM) の空間的推論能力について包括的に検討する。
論文 参考訳(メタデータ) (2024-06-07T01:06:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。