論文の概要: Stuck in the Matrix: Probing Spatial Reasoning in Large Language Models
- arxiv url: http://arxiv.org/abs/2510.20198v1
- Date: Thu, 23 Oct 2025 04:32:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:17.328277
- Title: Stuck in the Matrix: Probing Spatial Reasoning in Large Language Models
- Title(参考訳): Stuck in the Matrix: Probing spatial Reasoning in Large Language Models
- Authors: Maggie Bai, Ava Kim Cohen, Eleanor Koss, Charlie Lichtenbaum,
- Abstract要約: 本稿では,大言語モデル(LLM)のテキスト入力に対する空間的推論能力について検討する。
これらのモデルは, グリッド型環境下での空間的推論と多段階問題の解法の両方で検証された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper explores the spatial reasoning capability of large language models (LLMs) over textual input through a suite of five tasks aimed at probing their spatial understanding and computational abilities. The models were tested on both fundamental spatial reasoning and multi-step problem-solving within structured grid-based environments using tasks such as quadrant identification, geometric transformations, distance evaluation, word searches, and tile sliding. Each task was scaled in complexity through increasing grid dimensions, requiring models to extend beyond simple pattern recognition into abstract spatial reasoning. Our results reveal that while LLMs demonstrate moderate success in all tasks with small complexity and size, performance drops off rapidly as scale increases, with an average loss in accuracy of 42.7%, and reaching as high as 84%. Every test that began with over 50% accuracy showed a loss of at least 48%, illustrating the consistent nature of the deterioration. Furthermore, their struggles with scaling complexity hint at a lack of robust spatial representations in their underlying architectures. This paper underscores the gap between linguistic and spatial reasoning in LLMs, offering insights into their current limitations, and laying the groundwork for future integrative benchmarks at the intersection of language and geometry.
- Abstract(参考訳): 本稿では,大規模言語モデル(LLM)のテキスト入力に対する空間的推論能力について,その空間的理解と計算能力の検証を目的とした5つのタスクスイートを通して検討する。
これらのモデルは, 二次同定, 幾何変換, 距離評価, 単語探索, タイルスライディングといったタスクを用いて, グリッド型環境における基本的空間推論と多段階問題解決の両面から検証した。
各タスクはグリッド次元を拡大することで複雑さを増し、単純なパターン認識を超えて抽象的な空間的推論へとモデルを拡張する必要があった。
以上の結果から, LLMは規模が大きくなるにつれて性能が低下し, 平均精度は42.7%, 最大84%に達した。
50%以上の精度で開始されたすべての試験は、少なくとも48%の損失を示し、劣化の一貫性のある性質を示した。
さらに、スケーリングの複雑さに対する彼らの苦労は、基盤となるアーキテクチャにおける堅牢な空間表現の欠如を示唆している。
本稿では,LLMにおける言語的推論と空間的推論のギャップを浮き彫りにして,その限界に対する洞察を提供し,言語と幾何学の交点における将来の統合的ベンチマークの基盤となるものについて述べる。
関連論文リスト
- MazeEval: A Benchmark for Testing Sequential Decision-Making in Language Models [0.0679877553227375]
本稿では,大規模言語モデルにおける純粋空間推論の分離と評価を目的としたベンチマークであるMazeEvalを紹介する。
我々は,英語とアイスランド語で同一の迷路にまたがる8つの最先端LLMを評価し,空間能力の言語間移動を評価する。
論文 参考訳(メタデータ) (2025-07-27T19:33:45Z) - FloorplanQA: A Benchmark for Spatial Reasoning in LLMs using Structured Representations [78.65988445433844]
FloorplanQAは、大規模言語モデルにおける空間的推論を評価するための診断ベンチマークである。
このベンチマークでは、距離測定、可視性、経路探索、制約空間内のオブジェクト配置など、中核的な空間的タスクをカバーしている。
論文 参考訳(メタデータ) (2025-07-10T11:16:48Z) - SIRI-Bench: Challenging VLMs' Spatial Intelligence through Complex Reasoning Tasks [51.774165536666864]
SIRI-Benchは視覚言語モデルの構造的空間知性を評価するためのベンチマークである。
Benchは9000の動画検索用三脚で構成されており、各問題はリアルな3Dシーンに埋め込まれている。
実験結果から,最先端のVLMはSIRI-Benchでかなり苦労し,構造的空間推論の課題を浮き彫りにした。
論文 参考訳(メタデータ) (2025-06-17T13:40:00Z) - Jigsaw-Puzzles: From Seeing to Understanding to Reasoning in Vision-Language Models [12.945689517235264]
Jigsaw-Puzzlesは空間的複雑さの高い1,100個の慎重にキュレートされた実世界の画像からなる新しいベンチマークである。
このデータセットに基づいて、視覚言語モデルの空間知覚、構造的理解、推論能力を厳格に評価する5つのタスクを設計する。
その結果、最強モデルであるGemini-2.5-Proでさえ、全体的な精度は77.14%に過ぎず、特にオーダージェネレーションタスクでは性能が劣っていることがわかった。
論文 参考訳(メタデータ) (2025-05-27T05:17:41Z) - SpatialScore: Towards Unified Evaluation for Multimodal Spatial Understanding [64.15606979785355]
マルチモーダル大規模言語モデル(MLLM)は,質問応答タスクにおいて顕著な成功を収めているが,空間的理解能力は乏しい。
既存のMLLMは3次元空間認識と理解能力を持っているか?
論文 参考訳(メタデータ) (2025-05-22T17:59:03Z) - Learning Spatial-Semantic Features for Robust Video Object Segmentation [108.045326229865]
本稿では,空間意味的特徴と識別的オブジェクトクエリを学習する,ロバストなビデオオブジェクトセグメンテーションフレームワークを提案する。
DAVIS 2017 test (textbf87.8%)、YoutubeVOS 2019 (textbf88.1%)、MOSE val (textbf74.0%)、LVOS test (textbf73.0%)を含むベンチマークデータセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-07-10T15:36:00Z) - SpaRC and SpaRP: Spatial Reasoning Characterization and Path Generation for Understanding Spatial Reasoning Capability of Large Language Models [70.01883340129204]
空間推論は 生物学的と人工知能の両方において 重要な要素です
本稿では,現在最先端の大規模言語モデル (LLM) の空間的推論能力について包括的に検討する。
論文 参考訳(メタデータ) (2024-06-07T01:06:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。