論文の概要: SpatialText: A Pure-Text Cognitive Benchmark for Spatial Understanding in Large Language Models
- arxiv url: http://arxiv.org/abs/2603.03002v1
- Date: Tue, 03 Mar 2026 13:52:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.82587
- Title: SpatialText: A Pure-Text Cognitive Benchmark for Spatial Understanding in Large Language Models
- Title(参考訳): 空間テキスト:大規模言語モデルにおける空間理解のための純粋テキスト認知ベンチマーク
- Authors: Peiyao Jiang, Zequn Qin, Xi Li,
- Abstract要約: 遺伝的空間推論は、コヒーレントな内部空間表現の構築と操作能力に依存している。
既存のベンチマークでは、この固有の空間認識を統計言語から分離することができない。
本研究では理論駆動型診断フレームワークであるSpatialTextを紹介する。
- 参考スコア(独自算出の注目度): 12.26174714418171
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Genuine spatial reasoning relies on the capacity to construct and manipulate coherent internal spatial representations, often conceptualized as mental models, rather than merely processing surface linguistic associations. While large language models exhibit advanced capabilities across various domains, existing benchmarks fail to isolate this intrinsic spatial cognition from statistical language heuristics. Furthermore, multimodal evaluations frequently conflate genuine spatial reasoning with visual perception. To systematically investigate whether models construct flexible spatial mental models, we introduce SpatialText, a theory-driven diagnostic framework. Rather than functioning simply as a dataset, SpatialText isolates text-based spatial reasoning through a dual-source methodology. It integrates human-annotated descriptions of real 3D indoor environments, which capture natural ambiguities, perspective shifts, and functional relations, with code-generated, logically precise scenes designed to probe formal spatial deduction and epistemic boundaries. Systematic evaluation across state-of-the-art models reveals fundamental representational limitations. Although models demonstrate proficiency in retrieving explicit spatial facts and operating within global, allocentric coordinate systems, they exhibit critical failures in egocentric perspective transformation and local reference frame reasoning. These systematic errors provide strong evidence that current models rely heavily on linguistic co-occurrence heuristics rather than constructing coherent, verifiable internal spatial representations. SpatialText thus serves as a rigorous instrument for diagnosing the cognitive boundaries of artificial spatial intelligence.
- Abstract(参考訳): 遺伝的空間推論は、単に表面言語的関連を処理するのではなく、しばしば精神モデルとして概念化されたコヒーレントな内部空間表現を構築し、操作する能力に依存している。
大規模言語モデルは様々な領域にわたって高度な能力を示すが、既存のベンチマークでは統計言語ヒューリスティックスから本質的な空間認識を分離することができない。
さらに、マルチモーダル評価は、真の空間的推論と視覚的知覚を両立させることが多い。
フレキシブルな空間的メンタルモデルを構築するかどうかを体系的に検討するため,理論駆動型診断フレームワークであるSpatialTextを導入する。
単にデータセットとして機能するのではなく、SpatialTextは、デュアルソースの方法論を通じてテキストベースの空間推論を分離する。
自然の曖昧さ、視点の変化、機能的関係をとらえるリアルな3D屋内環境の人間による記述と、形式的な空間的推論とてんかんの境界を探索するためのコード生成で論理的に正確なシーンを統合する。
最先端モデルにおける体系的評価は、基本的な表現的限界を示す。
モデルは空間的事実を抽出し、グローバルでアロセントリックな座標系で操作する能力を示すが、エゴセントリックな視点変換と局所的な参照フレーム推論において重要な失敗を示す。
これらの体系的な誤りは、現在のモデルはコヒーレントで検証可能な内部空間表現を構築するのではなく、言語的共起ヒューリスティックに大きく依存しているという強い証拠を与える。
従って、SpatialTextは、人工知能の認知的境界を診断するための厳密な道具として機能する。
関連論文リスト
- Thinking with Blueprints: Assisting Vision-Language Models in Spatial Reasoning via Structured Object Representation [52.605647992080485]
空間的推論は視覚的知覚から意味的理解へと視覚言語モデルを前進させる。
物体中心の青写真という認知概念を空間的推論に統合する。
我々の手法は既存の視覚言語モデルより一貫して優れている。
論文 参考訳(メタデータ) (2026-01-05T10:38:26Z) - SpatialDreamer: Incentivizing Spatial Reasoning via Active Mental Imagery [64.67498968405327]
SpaceDreamerは、活発な探索のクローズループプロセスを通じて空間推論を可能にする強化学習フレームワークである。
GeoPOは、整合性幾何制約を伴う木構造サンプリングとステップレベルの報酬推定を導入している。
論文 参考訳(メタデータ) (2025-12-08T17:20:50Z) - Imagine in Space: Exploring the Frontier of Spatial Intelligence and Reasoning Efficiency in Vision Language Models [23.12717700882611]
空間的推論は人間の認知の基本的な構成要素です
現在の大規模言語モデル(LLM)と視覚言語モデル(VLM)は、論理的推論、問題解決、意思決定にまたがる顕著な推論能力を示している。
我々は空間状態の内部シミュレーションである想像力が空間世界モデルにおける支配的な推論機構であると仮定する。
論文 参考訳(メタデータ) (2025-11-16T03:09:55Z) - LTD-Bench: Evaluating Large Language Models by Letting Them Draw [57.237152905238084]
LTD-Benchは、大規模言語モデル(LLM)のブレークスルーベンチマークである。
LLMの評価を抽象的なスコアから直接観察可能な視覚出力に変換する。
LTD-Benchの視覚出力は強力な診断分析を可能にし、モデル類似性を調べるための潜在的アプローチを提供する。
論文 参考訳(メタデータ) (2025-11-04T08:11:23Z) - Reinforcing Spatial Reasoning in Vision-Language Models with Interwoven Thinking and Visual Drawing [62.447497430479174]
空間における推論への描画は、視覚空間における基本的な描画操作を通じてLVLMを推論できる新しいパラダイムである。
我々のモデルはVILASRと呼ばれ、様々な空間推論ベンチマークで既存の手法より一貫して優れています。
論文 参考訳(メタデータ) (2025-06-11T17:41:50Z) - Mind the Gap: Benchmarking Spatial Reasoning in Vision-Language Models [14.442394137843923]
本稿では,まず空間的推論のコア要素を記述した詳細な分析を行う。
次に、これらのモデルの性能を、合成画像と実画像の両方で評価する。
論文 参考訳(メタデータ) (2025-03-25T14:34:06Z) - SPHERE: Unveiling Spatial Blind Spots in Vision-Language Models Through Hierarchical Evaluation [7.659514491338669]
現在の視覚言語モデルは、基本的な空間的手がかりを把握できるが、人間のような理解や現実世界の応用に必要な多次元空間的推論に苦慮している。
我々は,新しい人間注釈付きデータセットをサポートする階層的評価フレームワークであるSPHEREを開発した。
最先端モデルのベンチマーク評価では、特に距離と近接性についての推論において、重大な欠陥が示される。
論文 参考訳(メタデータ) (2024-12-17T09:10:55Z) - Neuro-symbolic Training for Reasoning over Spatial Language [17.901249830817882]
最先端の言語モデルでさえ、テキストよりも空間的推論に苦しむ。
これは、一般化可能性に必要な適切な抽象化レベルを達成できないためである。
本稿では,空間論理規則を制約として活用するニューロシンボリックな手法を用いた学習言語モデルを提案する。
論文 参考訳(メタデータ) (2024-06-19T20:47:36Z) - Reframing Spatial Reasoning Evaluation in Language Models: A Real-World Simulation Benchmark for Qualitative Reasoning [4.422649561583363]
言語モデル(LM)における空間推論評価のための新しいベンチマークを提案する。
現実的な3Dシミュレーションデータに基づいており、様々なオブジェクトとそれらの空間的関係を持つ一連の多様な部屋レイアウトを提供する。
重要なコントリビューションは、論理ベースの一貫性チェックツールです。
論文 参考訳(メタデータ) (2024-05-23T21:22:00Z) - Model Criticism for Long-Form Text Generation [113.13900836015122]
我々は,テキストの高レベル構造を評価するために,潜在空間におけるモデル批判という統計ツールを適用した。
我々は,コヒーレンス,コア,トピックスという,ハイレベルな談話の3つの代表的な側面について実験を行った。
トランスフォーマーベースの言語モデルでは、トピック構造をキャプチャできるが、構造コヒーレンスやモデリングコアスを維持するのが難しくなる。
論文 参考訳(メタデータ) (2022-10-16T04:35:58Z) - From Spatial Relations to Spatial Configurations [64.21025426604274]
空間関係言語は、推論に不可欠な、大きく包括的な空間概念の集合を表現することができる。
本稿では,既存の空間表現言語の機能を,セマンティクスのきめ細かい分解によって拡張する方法について述べる。
論文 参考訳(メタデータ) (2020-07-19T02:11:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。