論文の概要: Grid Spatial Understanding: A Dataset for Textual Spatial Reasoning over Grids, Embodied Settings, and Coordinate Structures
- arxiv url: http://arxiv.org/abs/2603.17333v1
- Date: Wed, 18 Mar 2026 03:57:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.506186
- Title: Grid Spatial Understanding: A Dataset for Textual Spatial Reasoning over Grids, Embodied Settings, and Coordinate Structures
- Title(参考訳): グリッド空間理解: グリッド上のテキスト空間推論のためのデータセット, 身体的設定, コーディネート構造
- Authors: Risham Sidhu, Julia Hockenmaier,
- Abstract要約: テキストのみのグリッドデータセットであるGSUを導入し、3つのコアタスク上でのLLMの空間的推論能力を評価する。
その結果,ほとんどのモデルでは基本的なグリッド概念を把握しているが,実施エージェントに対する参照のフレームに悩まされ,座標リストから3次元形状を識別できることがわかった。
- 参考スコア(独自算出の注目度): 4.127233504148602
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce GSU, a text-only grid dataset to evaluate the spatial reasoning capabilities of LLMs over 3 core tasks: navigation, object localization, and structure composition. By forgoing visual inputs, isolating spatial reasoning from perception, we show that while most models grasp basic grid concepts, they struggle with frames of reference relative to an embodied agent and identifying 3D shapes from coordinate lists. We also find that exposure to a visual modality does not provide a generalizable understanding of 3D space that VLMs are able to utilize for these tasks. Finally, we show that while the very latest frontier models can solve the provided tasks (though harder variants may still stump them), fully fine-tuning a small LM or LORA fine-tuning a small LLM show potential to match frontier model performance, suggesting an avenue for specialized embodied agents.
- Abstract(参考訳): 本稿では,3つのコアタスク(ナビゲーション,オブジェクトローカライゼーション,構造構成)上でのLLMの空間的推論能力を評価するための,テキストのみのグリッドデータセットであるGSUを紹介する。
視覚入力を強制し,知覚から空間的推論を分離することにより,ほとんどのモデルが基本的なグリッド概念を把握しているのに対して,実施エージェントに対する参照のフレームに苦労し,座標リストから3次元形状を識別することを示す。
また、視覚的モダリティへの露出は、VLMがこれらのタスクに利用できるような3次元空間の一般化可能な理解を与えない。
最後に、最新のフロンティアモデルでは、与えられたタスクを解くことができるが(しかし、より難しいバリエーションは、まだ解決できないかもしれない)、小さなLMやLORAの微調整は、フロンティアモデルの性能にマッチする可能性を示し、特殊な具体化エージェントの道のりを示唆している。
関連論文リスト
- SpatialMosaic: A Multiview VLM Dataset for Partial Visibility [25.874299974251965]
本稿では,現実的な空間推論QAを構築する,スケーラブルなマルチビューデータ生成とアノテーションパイプラインを提案する。
本研究では,現実的かつ困難なシナリオ下での多視点空間推論評価のためのベンチマークであるSpatialMosaic-Benchを紹介する。
また、3次元再構成モデルを視覚言語モデル内の幾何学エンコーダとして統合するハイブリッドフレームワークであるSpatialMosaicVLMを提案する。
論文 参考訳(メタデータ) (2025-12-29T10:48:54Z) - S$^2$-MLLM: Boosting Spatial Reasoning Capability of MLLMs for 3D Visual Grounding with Structural Guidance [20.55536735670125]
3Dビジュアルグラウンド(3DVG)は、自然言語記述に基づく3Dシーンにおけるオブジェクトの配置に焦点を当てている。
MLLM(Multi-modal Large Language Models)の最近の進歩は、それらを3DVGに拡張する研究の動機となっている。
S$2$-MLLMは、暗黙の空間的推論を通じてMLLMの空間的推論を強化する効率的なフレームワークである。
論文 参考訳(メタデータ) (2025-12-01T03:08:34Z) - Spatial Understanding from Videos: Structured Prompts Meet Simulation Data [89.77871049500546]
本稿では,事前学習された視覚言語モデルにおける3次元空間推論を,アーキテクチャを変更することなく拡張するための統一的なフレームワークを提案する。
このフレームワークは、複雑なシーンと質問を解釈可能な推論ステップに分解する構造化プロンプト戦略であるSpatialMindと、多様な3Dシミュレーションシーンから構築されたスケーラブルな質問応答データセットであるScanForgeQAを組み合わせる。
論文 参考訳(メタデータ) (2025-06-04T07:36:33Z) - Agentic 3D Scene Generation with Spatially Contextualized VLMs [67.31920821192323]
本稿では,複雑な3D環境の生成,理解,編集を可能にする新しいパラダイムを提案する。
我々は,VLMが空間コンテキストから反復的に読み取って更新するエージェント型3Dシーン生成パイプラインを開発した。
その結果,我々のフレームワークは多様かつ困難な入力を処理でき,事前の作業では観測できないような一般化のレベルを達成することができることがわかった。
論文 参考訳(メタデータ) (2025-05-26T15:28:17Z) - LayoutVLM: Differentiable Optimization of 3D Layout via Vision-Language Models [57.92316645992816]
空間的推論は人間の認知の基本的側面であり、三次元空間における物体の直感的な理解と操作を可能にする。
視覚言語モデル(VLM)のセマンティック知識を活用するフレームワークおよびシーンレイアウト表現であるLayoutVLMを紹介する。
本稿では,既存のシーンデータセットから抽出したシーンレイアウト表現を用いた微調整VLMによる推論性能の向上を実証する。
論文 参考訳(メタデータ) (2024-12-03T06:15:04Z) - Griffon: Spelling out All Object Locations at Any Granularity with Large Language Models [30.20915403608803]
Griffonは、大規模な視覚言語モデルのための言語プロンプトローカライゼーションデータセットである。
十分に設計されたパイプラインを通じて、エンドツーエンドでトレーニングされる。
精細なRefCOCOシリーズとFlickr30K Entitiesで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-11-24T15:35:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。