論文の概要: Thinking in Structures: Evaluating Spatial Intelligence through Reasoning on Constrained Manifolds
- arxiv url: http://arxiv.org/abs/2602.07864v1
- Date: Sun, 08 Feb 2026 08:29:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.838251
- Title: Thinking in Structures: Evaluating Spatial Intelligence through Reasoning on Constrained Manifolds
- Title(参考訳): 構造における思考:制約されたマニフォールドの推論による空間知性の評価
- Authors: Chen Yang, Guanxin Lin, Youquan He, Peiyao Chen, Guanghe Liu, Yufan Mo, Zhouyuan Xu, Linhao Wang, Guohui Zhang, Zihang Zhang, Shenxiang Zeng, Chen Wang, Jiansheng Fan,
- Abstract要約: SSI-Benchは制約された3次元構造の空間的推論のためのベンチマークである。
10人の研究者が400時間以上かけて画像をキュレーションし、構造部品を注釈付けし、ピクセルレベルの手がかりを最小限にするために質問をデザインしました。
最高のオープンソースモデルは22.2%の精度で最強のクローズドソースモデルは33.6%、人間は91.6%である。
- 参考スコア(独自算出の注目度): 6.062002698657217
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spatial intelligence is crucial for vision--language models (VLMs) in the physical world, yet many benchmarks evaluate largely unconstrained scenes where models can exploit 2D shortcuts. We introduce SSI-Bench, a VQA benchmark for spatial reasoning on constrained manifolds, built from complex real-world 3D structures whose feasible configurations are tightly governed by geometric, topological, and physical constraints. SSI-Bench contains 1,000 ranking questions spanning geometric and topological reasoning and requiring a diverse repertoire of compositional spatial operations, such as mental rotation, cross-sectional inference, occlusion reasoning, and force-path reasoning. It is created via a fully human-centered pipeline: ten researchers spent over 400 hours curating images, annotating structural components, and designing questions to minimize pixel-level cues. Evaluating 31 widely used VLMs reveals a large gap to humans: the best open-source model achieves 22.2% accuracy and the strongest closed-source model reaches 33.6%, while humans score 91.6%. Encouraging models to think yields only marginal gains, and error analysis points to failures in structural grounding and constraint-consistent 3D reasoning. Project page: https://ssi-bench.github.io.
- Abstract(参考訳): 空間知能は物理世界の視覚言語モデル(VLM)にとって重要であるが、モデルが2Dショートカットを活用できるような制約のないシーンを、多くのベンチマークで評価している。
SSI-Benchは制約付き多様体上の空間的推論のためのVQAベンチマークであり、幾何学的、位相的、物理的制約によって厳密に制御される複雑な実世界の3D構造から構築される。
SSI-Benchには、幾何学的および位相的推論にまたがる1000のランク付け質問が含まれており、メンタルローテーション、断面積推論、オクルージョン推論、フォースパス推論などの構成空間操作の多様なレパートリーを必要とする。
10人の研究者が画像のキュレーションに400時間以上を費やし、構造コンポーネントを注釈付けし、ピクセルレベルのキューを最小限にするために質問を設計しました。
最高のオープンソースモデルは22.2%の精度で最強のクローズドソースモデルは33.6%、人間は91.6%である。
モデルに思考を促進させると限界ゲインしか得られず、エラー解析は構造的接地や制約に一貫性のある3D推論の失敗を示している。
プロジェクトページ: https://ssi-bench.github.io
関連論文リスト
- SURPRISE3D: A Dataset for Spatial Understanding and Reasoning in Complex 3D Scenes [105.8644620467576]
Stextscurprise3Dは複雑な3次元シーンにおける言語誘導空間推論のセグメンテーションを評価するために設計された新しいデータセットである。
Stextscurprise3Dは、ScanNet++ v2から900以上の詳細な屋内シーンにわたる200k以上の視覚言語ペアで構成されている。
データセットには、オブジェクト名なしで意図的に作成される89k以上の人間アノテーション付き空間クエリが含まれている。
論文 参考訳(メタデータ) (2025-07-10T14:01:24Z) - E3D-Bench: A Benchmark for End-to-End 3D Geometric Foundation Models [78.1674905950243]
3次元幾何学基礎モデル(GFM)の総合ベンチマークを初めて提示する。
GFMは、単一のフィードフォワードパスで密度の高い3D表現を直接予測し、スローまたは未使用のカメラパラメータを不要にする。
我々は16の最先端GFMを評価し、タスクやドメイン間の長所と短所を明らかにした。
すべてのコード、評価スクリプト、処理されたデータは公開され、3D空間インテリジェンスの研究が加速される。
論文 参考訳(メタデータ) (2025-06-02T17:53:09Z) - MMSI-Bench: A Benchmark for Multi-Image Spatial Intelligence [74.51213082084428]
MMSI-Benchは、マルチイメージ空間インテリジェンスに特化したVQAベンチマークである。
我々は、大規模な実験を行い、34のオープンソースおよびプロプライエタリMLLMを徹底的に評価する。
最も強力なオープンソースモデルはおよそ30%の精度に達し、OpenAIのo3推論モデルは40%に達し、人間は97%である。
論文 参考訳(メタデータ) (2025-05-29T17:59:52Z) - Jigsaw-Puzzles: From Seeing to Understanding to Reasoning in Vision-Language Models [12.945689517235264]
Jigsaw-Puzzlesは空間的複雑さの高い1,100個の慎重にキュレートされた実世界の画像からなる新しいベンチマークである。
このデータセットに基づいて、視覚言語モデルの空間知覚、構造的理解、推論能力を厳格に評価する5つのタスクを設計する。
その結果、最強モデルであるGemini-2.5-Proでさえ、全体的な精度は77.14%に過ぎず、特にオーダージェネレーションタスクでは性能が劣っていることがわかった。
論文 参考訳(メタデータ) (2025-05-27T05:17:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。