論文の概要: From Symbolic to Geometric: Enabling Spatial Reasoning in Large Language Models
- arxiv url: http://arxiv.org/abs/2606.04381v1
- Date: Wed, 03 Jun 2026 02:54:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.492782
- Title: From Symbolic to Geometric: Enabling Spatial Reasoning in Large Language Models
- Title(参考訳): 記号から幾何学へ:大規模言語モデルにおける空間推論の導入
- Authors: Chen Chu, Bita Azarijoo, Li Xiong, Khurram Shafique, Cyrus Shahabi,
- Abstract要約: 近年の大規模言語モデル (LLM) は空間推論能力を示すことが多い。
この能力は、空間上の真のエンフェロメトリー推論ではなく、空間言語上のパターンマッチングから生じる、主にエンフェロボリックである。
EmphSpatial Language Model (SLM) は、位置情報を第一級のモダリティとして扱う最初のマルチモーダル LLM である。
- 参考スコア(独自算出の注目度): 12.689909494554733
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent large language models (LLMs) often appear to exhibit spatial reasoning ability; however, this capability is largely \emph{symbolic}, arising from pattern matching over spatial language rather than true \emph{geometric} reasoning over space. Because LLMs operate on discrete tokens, they lack native support for continuous spatial representations, explicit geometric computation, and structured spatial operators. To address this limitation, we introduce the \emph{Spatial Language Model (SLM)}, the first multimodal LLM that treats location information as a first-class modality and enables geometric spatial reasoning within the model's inference process. SLM directly operates on learned spatial representations rather than textual descriptions of spatial relations. To support effective training, we construct a \emph{Spatial Instruction Dataset} that aligns spatial representations, atomic geometric operations, and natural language instructions. We further propose a new benchmark named \emph{SpatialEval}, which is designed to evaluate spatial reasoning across attributes, distance, topology, and relative-position tasks. Extensive experiments show that SLM significantly outperforms existing LLM-based approaches that rely on symbolic reasoning via prompt engineering or textual abstraction, demonstrating the benefits of integrating geometric spatial representations for robust spatial reasoning. Our instruction dataset, evaluation benchmark, model training codes, and models' checkpoints can be found at: \hyperlink{https://github.com/chuchen2017/SLM}{https://github.com/chuchen2017/SLM}.
- Abstract(参考訳): 近年の大規模言語モデル(LLM)は空間的推論能力を示すことが多いが、この能力は空間的推論よりも空間的言語上でのパターンマッチングから生じる「emph{symbolic}」である。
LLMは離散トークンで動作するため、連続的な空間表現、明示的な幾何学計算、構造化された空間演算子に対するネイティブなサポートは欠如している。
この制限に対処するために、位置情報を第一級のモダリティとして扱い、モデルの推論プロセス内で幾何学的空間的推論を可能にする最初のマルチモーダル LLM である \emph{Spatial Language Model (SLM) を導入する。
SLMは、空間関係のテキスト記述ではなく、学習した空間表現を直接操作する。
効果的なトレーニングを支援するために,空間表現,原子幾何演算,自然言語命令を整列する「emph{Spatial Instruction Dataset}」を構築した。
さらに, 属性, 距離, トポロジ, 相対配置タスク間の空間的推論を評価するために, 新たなベンチマーク「emph{SpatialEval}」を提案する。
大規模な実験により、SLMは、素早いエンジニアリングやテキストの抽象化による記号的推論に依存した既存のLCMベースのアプローチよりも大幅に優れており、空間的推論を堅牢にするための幾何学的空間的表現を統合する利点を実証している。
インストラクションデータセット、評価ベンチマーク、モデルトレーニングコード、モデルのチェックポイントは、以下の通りである。
関連論文リスト
- SpatialGeo:Boosting Spatial Reasoning in Multimodal LLMs via Geometry-Semantics Fusion [23.86761713752287]
MLLM(Multimodal large language model)は、画像および言語タスクにおいて大きな進歩を遂げている。
ほとんどのMLLMは、空間的配置を3次元空間で解釈し推論する限られた空間的推論能力に悩まされている。
幾何学と意味論の階層的融合に基づく新しい視覚エンコーダを提案し,空間認識型視覚埋め込みを生成する。
論文 参考訳(メタデータ) (2025-11-21T15:24:33Z) - Spatial Preference Rewarding for MLLMs Spatial Understanding [92.25703021388142]
マルチモーダル大言語モデル (MLLM) は, 有望な空間理解能力を示した。
彼らの成功にもかかわらず、MLLMは依然として微粒な空間知覚能力に不足している。
本稿では,MLLMの空間能力を高めるSPR(Spatial Preference Rewarding)アプローチを提案する。
論文 参考訳(メタデータ) (2025-10-16T07:16:18Z) - Hyperbolic Large Language Models [7.483401973996036]
大規模言語モデル(LLM)は目覚ましい成功を収め、様々なタスクで優れた性能を示した。
しかし、現実の多くのデータは、タンパク質ネットワーク、輸送ネットワーク、金融ネットワーク、脳ネットワーク、言語構造や構文木など、非ユークリッドの潜在階層構造を示す。
本稿では,表現空間として双曲幾何学を活用し,意味表現学習とマルチスケール推論を強化するLLMの最近の進歩を包括的かつ文脈的に表現する。
論文 参考訳(メタデータ) (2025-09-06T15:56:46Z) - Understanding Space Is Rocket Science -- Only Top Reasoning Models Can Solve Spatial Understanding Tasks [9.23437069873238]
本稿では,空間的関係理解のためのオープンソースのコントラスト付きVLMベンチマークを提案する。
RocketScienceは完全に新しい現実世界の画像テキストペアで構成されている。
その結果,オープンソースおよびフロンティア商用VLMにおける空間的関係理解の欠如が示唆された。
論文 参考訳(メタデータ) (2025-09-02T10:32:58Z) - FloorplanQA: A Benchmark for Spatial Reasoning in LLMs using Structured Representations [78.65988445433844]
FloorplanQAは、大規模言語モデルにおける空間的推論を評価するための診断ベンチマークである。
このベンチマークでは、距離測定、可視性、経路探索、制約空間内のオブジェクト配置など、中核的な空間的タスクをカバーしている。
論文 参考訳(メタデータ) (2025-07-10T11:16:48Z) - A Neural Representation Framework with LLM-Driven Spatial Reasoning for Open-Vocabulary 3D Visual Grounding [78.99798110890157]
Open-vocabulary 3D visual groundingは、自由形式の言語クエリに基づいてターゲットオブジェクトをローカライズすることを目的としている。
既存の言語フィールド手法は、言語クエリにおける空間的関係を利用してインスタンスを正確にローカライズするのに苦労する。
本研究では,大規模言語モデル(LLM)に基づく空間推論を用いたニューラル表現に基づく新しいフレームワークであるSpatialReasonerを提案する。
論文 参考訳(メタデータ) (2025-07-09T10:20:38Z) - Mind the Gap: Benchmarking Spatial Reasoning in Vision-Language Models [14.442394137843923]
本稿では,まず空間的推論のコア要素を記述した詳細な分析を行う。
次に、これらのモデルの性能を、合成画像と実画像の両方で評価する。
論文 参考訳(メタデータ) (2025-03-25T14:34:06Z) - SpaRC and SpaRP: Spatial Reasoning Characterization and Path Generation for Understanding Spatial Reasoning Capability of Large Language Models [70.01883340129204]
空間推論は 生物学的と人工知能の両方において 重要な要素です
本稿では,現在最先端の大規模言語モデル (LLM) の空間的推論能力について包括的に検討する。
論文 参考訳(メタデータ) (2024-06-07T01:06:34Z) - Spatial Pyramid Based Graph Reasoning for Semantic Segmentation [67.47159595239798]
セマンティックセグメンテーションタスクにグラフ畳み込みを適用し、改良されたラプラシアンを提案する。
グラフ推論は、空間ピラミッドとして構成された元の特徴空間で直接実行される。
計算とメモリのオーバーヘッドの利点で同等のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2020-03-23T12:28:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。