論文の概要: Thinking in Structures: Evaluating Spatial Intelligence through Reasoning on Constrained Manifolds
- arxiv url: http://arxiv.org/abs/2602.07864v1
- Date: Sun, 08 Feb 2026 08:29:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.838251
- Title: Thinking in Structures: Evaluating Spatial Intelligence through Reasoning on Constrained Manifolds
- Title(参考訳): 構造における思考:制約されたマニフォールドの推論による空間知性の評価
- Authors: Chen Yang, Guanxin Lin, Youquan He, Peiyao Chen, Guanghe Liu, Yufan Mo, Zhouyuan Xu, Linhao Wang, Guohui Zhang, Zihang Zhang, Shenxiang Zeng, Chen Wang, Jiansheng Fan,
- Abstract要約: SSI-Benchは制約された3次元構造の空間的推論のためのベンチマークである。
10人の研究者が400時間以上かけて画像をキュレーションし、構造部品を注釈付けし、ピクセルレベルの手がかりを最小限にするために質問をデザインしました。
最高のオープンソースモデルは22.2%の精度で最強のクローズドソースモデルは33.6%、人間は91.6%である。
- 参考スコア(独自算出の注目度): 6.062002698657217
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spatial intelligence is crucial for vision--language models (VLMs) in the physical world, yet many benchmarks evaluate largely unconstrained scenes where models can exploit 2D shortcuts. We introduce SSI-Bench, a VQA benchmark for spatial reasoning on constrained manifolds, built from complex real-world 3D structures whose feasible configurations are tightly governed by geometric, topological, and physical constraints. SSI-Bench contains 1,000 ranking questions spanning geometric and topological reasoning and requiring a diverse repertoire of compositional spatial operations, such as mental rotation, cross-sectional inference, occlusion reasoning, and force-path reasoning. It is created via a fully human-centered pipeline: ten researchers spent over 400 hours curating images, annotating structural components, and designing questions to minimize pixel-level cues. Evaluating 31 widely used VLMs reveals a large gap to humans: the best open-source model achieves 22.2% accuracy and the strongest closed-source model reaches 33.6%, while humans score 91.6%. Encouraging models to think yields only marginal gains, and error analysis points to failures in structural grounding and constraint-consistent 3D reasoning. Project page: https://ssi-bench.github.io.
- Abstract(参考訳): 空間知能は物理世界の視覚言語モデル(VLM)にとって重要であるが、モデルが2Dショートカットを活用できるような制約のないシーンを、多くのベンチマークで評価している。
SSI-Benchは制約付き多様体上の空間的推論のためのVQAベンチマークであり、幾何学的、位相的、物理的制約によって厳密に制御される複雑な実世界の3D構造から構築される。
SSI-Benchには、幾何学的および位相的推論にまたがる1000のランク付け質問が含まれており、メンタルローテーション、断面積推論、オクルージョン推論、フォースパス推論などの構成空間操作の多様なレパートリーを必要とする。
10人の研究者が画像のキュレーションに400時間以上を費やし、構造コンポーネントを注釈付けし、ピクセルレベルのキューを最小限にするために質問を設計しました。
最高のオープンソースモデルは22.2%の精度で最強のクローズドソースモデルは33.6%、人間は91.6%である。
モデルに思考を促進させると限界ゲインしか得られず、エラー解析は構造的接地や制約に一貫性のある3D推論の失敗を示している。
プロジェクトページ: https://ssi-bench.github.io
関連論文リスト
- SSR: Pushing the Limit of Spatial Intelligence with Structured Scene Reasoning [30.87517633729756]
SSRはStructured Scene Reasoning用に設計されたフレームワークである。
軽量アライメント機構によって2Dと3Dの表現をシームレスに統合する。
複数の空間インテリジェンスベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-02-28T02:05:35Z) - How Far are VLMs from Visual Spatial Intelligence? A Benchmark-Driven Perspective [103.44502230776352]
視覚言語モデル(VLM)における視覚空間推論(VSR)の系統的研究について述べる。
空間インテリジェンスを3つのレベル,すなわち基本的な知覚,空間理解,空間計画,および空間インテリジェンスベンチマークSIBenchに分類した。
論文 参考訳(メタデータ) (2025-09-23T12:00:14Z) - SeqAffordSplat: Scene-level Sequential Affordance Reasoning on 3D Gaussian Splatting [85.87902260102652]
本稿では, 連続3次元ガウシアン・アフラマンス推論の課題について紹介する。
次に,SeqSplatNetを提案する。SqSplatNetは,命令を直接3Dアベイランスマスクのシーケンスにマッピングするエンドツーエンドフレームワークである。
本手法は,1段階のインタラクションから,シーンレベルでの複雑なシーケンシャルなタスクへの可利用性推論を効果的に向上させる。
論文 参考訳(メタデータ) (2025-07-31T17:56:55Z) - SURPRISE3D: A Dataset for Spatial Understanding and Reasoning in Complex 3D Scenes [105.8644620467576]
Stextscurprise3Dは複雑な3次元シーンにおける言語誘導空間推論のセグメンテーションを評価するために設計された新しいデータセットである。
Stextscurprise3Dは、ScanNet++ v2から900以上の詳細な屋内シーンにわたる200k以上の視覚言語ペアで構成されている。
データセットには、オブジェクト名なしで意図的に作成される89k以上の人間アノテーション付き空間クエリが含まれている。
論文 参考訳(メタデータ) (2025-07-10T14:01:24Z) - PhyBlock: A Progressive Benchmark for Physical Understanding and Planning via 3D Block Assembly [77.33429729761596]
物理理解と計画について視覚言語モデル(VLM)を評価するためのプログレッシブベンチマークであるPhyBlockを紹介する。
PhyBlockは、視覚質問回答(VQA)サンプルと並行して、新しい4段階の認知階層化タスクを統合する。
我々は21の最先端のVLMをベンチマークし、物理的に基盤化されたマルチステップ計画におけるその強みと限界を強調した。
論文 参考訳(メタデータ) (2025-06-10T11:46:06Z) - E3D-Bench: A Benchmark for End-to-End 3D Geometric Foundation Models [78.1674905950243]
3次元幾何学基礎モデル(GFM)の総合ベンチマークを初めて提示する。
GFMは、単一のフィードフォワードパスで密度の高い3D表現を直接予測し、スローまたは未使用のカメラパラメータを不要にする。
我々は16の最先端GFMを評価し、タスクやドメイン間の長所と短所を明らかにした。
すべてのコード、評価スクリプト、処理されたデータは公開され、3D空間インテリジェンスの研究が加速される。
論文 参考訳(メタデータ) (2025-06-02T17:53:09Z) - MMSI-Bench: A Benchmark for Multi-Image Spatial Intelligence [74.51213082084428]
MMSI-Benchは、マルチイメージ空間インテリジェンスに特化したVQAベンチマークである。
我々は、大規模な実験を行い、34のオープンソースおよびプロプライエタリMLLMを徹底的に評価する。
最も強力なオープンソースモデルはおよそ30%の精度に達し、OpenAIのo3推論モデルは40%に達し、人間は97%である。
論文 参考訳(メタデータ) (2025-05-29T17:59:52Z) - Jigsaw-Puzzles: From Seeing to Understanding to Reasoning in Vision-Language Models [12.945689517235264]
Jigsaw-Puzzlesは空間的複雑さの高い1,100個の慎重にキュレートされた実世界の画像からなる新しいベンチマークである。
このデータセットに基づいて、視覚言語モデルの空間知覚、構造的理解、推論能力を厳格に評価する5つのタスクを設計する。
その結果、最強モデルであるGemini-2.5-Proでさえ、全体的な精度は77.14%に過ぎず、特にオーダージェネレーションタスクでは性能が劣っていることがわかった。
論文 参考訳(メタデータ) (2025-05-27T05:17:41Z) - Spatial457: A Diagnostic Benchmark for 6D Spatial Reasoning of Large Multimodal Models [8.499125564147834]
空間推論のための4つの重要な機能を備えた,スケーラブルで偏りのない合成データセットを提案する。
本研究では,5つの難易度にまたがって7つの質問型を構成するカスケード評価構造を構築した。
特に3次元推論や6次元空間的タスクにおいて,タスクの複雑さが増大するにつれて,パフォーマンスの全般的な低下が観察される。
論文 参考訳(メタデータ) (2025-02-12T18:53:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。