論文の概要: SpatiaLab: Can Vision-Language Models Perform Spatial Reasoning in the Wild?
- arxiv url: http://arxiv.org/abs/2602.03916v1
- Date: Tue, 03 Feb 2026 17:52:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.226204
- Title: SpatiaLab: Can Vision-Language Models Perform Spatial Reasoning in the Wild?
- Title(参考訳): SpatiaLab: ビジョンランゲージモデルは野生での空間推論を実現することができるか?
- Authors: Azmine Toushik Wasi, Wahid Faisal, Abdur Rahman, Mahfuz Ahmed Anik, Munem Shahriar, Mohsin Mahmud Topu, Sadia Tasnim Meem, Rahatun Nesa Priti, Sabrina Afroz Mitu, Md. Iqramul Hoque, Shahriyar Zaman Ridoy, Mohammed Eunus Ali, Majd Hawasly, Mohammad Raza, Md Rizwan Parvez,
- Abstract要約: SpatiaLabは6つの主要なカテゴリの1,400の視覚的質問応答ペアで構成されている。
各カテゴリには少なくとも25の質問があり、各カテゴリには少なくとも200の質問が含まれている。
多重選択では、InternVL3.5-72Bは54.93%の精度と87.57%の精度を達成している。
- 参考スコア(独自算出の注目度): 11.64929380114363
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Spatial reasoning is a fundamental aspect of human cognition, yet it remains a major challenge for contemporary vision-language models (VLMs). Prior work largely relied on synthetic or LLM-generated environments with limited task designs and puzzle-like setups, failing to capture the real-world complexity, visual noise, and diverse spatial relationships that VLMs encounter. To address this, we introduce SpatiaLab, a comprehensive benchmark for evaluating VLMs' spatial reasoning in realistic, unconstrained contexts. SpatiaLab comprises 1,400 visual question-answer pairs across six major categories: Relative Positioning, Depth & Occlusion, Orientation, Size & Scale, Spatial Navigation, and 3D Geometry, each with five subcategories, yielding 30 distinct task types. Each subcategory contains at least 25 questions, and each main category includes at least 200 questions, supporting both multiple-choice and open-ended evaluation. Experiments across diverse state-of-the-art VLMs, including open- and closed-source models, reasoning-focused, and specialized spatial reasoning models, reveal a substantial gap in spatial reasoning capabilities compared with humans. In the multiple-choice setup, InternVL3.5-72B achieves 54.93% accuracy versus 87.57% for humans. In the open-ended setting, all models show a performance drop of around 10-25%, with GPT-5-mini scoring highest at 40.93% versus 64.93% for humans. These results highlight key limitations in handling complex spatial relationships, depth perception, navigation, and 3D geometry. By providing a diverse, real-world evaluation framework, SpatiaLab exposes critical challenges and opportunities for advancing VLMs' spatial reasoning, offering a benchmark to guide future research toward robust, human-aligned spatial understanding. SpatiaLab is available at: https://spatialab-reasoning.github.io/.
- Abstract(参考訳): 空間的推論は人間の認知の基本的な側面であるが、現代視覚言語モデル(VLM)にとって大きな課題である。
以前の作業は、限られたタスク設計とパズルのようなセットアップを備えた合成またはLLM生成環境に大きく依存していたため、現実の複雑さ、視覚ノイズ、VLMが遭遇する多様な空間的関係を捉えられなかった。
そこで本稿では,現実的かつ制約のない状況下でのVLMの空間的推論を評価するための総合的なベンチマークであるSpatiaLabを紹介する。
SpatiaLabは6つの主要なカテゴリ(相対的位置決め、深さと閉塞、オリエンテーション、サイズとスケール、空間的ナビゲーション、および3次元幾何学)にまたがる1,400の視覚的質問応答ペアで構成されており、それぞれが5つのサブカテゴリを持ち、30のタスクタイプが得られている。
各カテゴリには少なくとも25の質問があり、各カテゴリには少なくとも200の質問が含まれており、複数選択とオープンエンドの評価の両方をサポートしている。
オープンソースモデルやクローズドソースモデル、推論に焦点を当てた特殊空間推論モデルなど、最先端のVLMのさまざまな実験は、人間と比較して空間推論能力のかなりのギャップを明らかにしている。
多重選択では、InternVL3.5-72Bは54.93%の精度と87.57%の精度を達成している。
オープンエンド設定では、全てのモデルのパフォーマンスが約10-25%低下し、GPT-5-miniは40.93%、人間は64.93%と最高となった。
これらの結果は、複雑な空間関係、深度知覚、ナビゲーション、三次元幾何学を扱う上で重要な限界を浮き彫りにしている。
多様な実世界の評価フレームワークを提供することで、SpatiaLabはVLMの空間的推論を進める上で重要な課題と機会を公開し、より堅牢で人間に整合した空間的理解に向けた将来の研究を導くためのベンチマークを提供する。
SpatiaLab は https://spatialab-reasoning.github.io/ で入手できる。
関連論文リスト
- LRR-Bench: Left, Right or Rotate? Vision-Language models Still Struggle With Spatial Understanding Tasks [22.011855291417856]
VLM(Vision-Language Models)が空間的関係を認識し空間的動きを知覚する方法は、まだ解明されていない。
本研究では,空間評価パイプラインを導入し,対応するベンチマークを構築する。
我々は、複数の最先端VLMの実験を行い、改善の余地があることを観察する。
論文 参考訳(メタデータ) (2025-07-27T08:31:24Z) - SURPRISE3D: A Dataset for Spatial Understanding and Reasoning in Complex 3D Scenes [105.8644620467576]
Stextscurprise3Dは複雑な3次元シーンにおける言語誘導空間推論のセグメンテーションを評価するために設計された新しいデータセットである。
Stextscurprise3Dは、ScanNet++ v2から900以上の詳細な屋内シーンにわたる200k以上の視覚言語ペアで構成されている。
データセットには、オブジェクト名なしで意図的に作成される89k以上の人間アノテーション付き空間クエリが含まれている。
論文 参考訳(メタデータ) (2025-07-10T14:01:24Z) - Spatial Mental Modeling from Limited Views [71.57140964322559]
新しいMindCubeベンチマークでは、3,268枚の画像に21,154件の質問があった。
MindCubeを用いて、視覚言語モデル(VLM)がいかに堅牢な空間精神モデルを構築するかを評価する。
次に、VLMが空間的メンタルモデルに近似する3つのアプローチを探索する。
論文 参考訳(メタデータ) (2025-06-26T16:38:19Z) - RoboRefer: Towards Spatial Referring with Reasoning in Vision-Language Models for Robotics [67.11221574129937]
空間参照は、3D物理世界と相互作用するエンボディロボットの基本的な能力である。
本稿では,まず空間的理解を正確に行うことのできる3次元VLMであるRoboReferを提案する。
RoboReferは、強化微調整による一般化された多段階空間推論を推進している。
論文 参考訳(メタデータ) (2025-06-04T17:59:27Z) - OmniSpatial: Towards Comprehensive Spatial Reasoning Benchmark for Vision Language Models [17.976302783133956]
認知心理学に基づく空間的推論のベンチマークであるOmniSpatialを紹介する。
動的推論、複雑な空間論理、空間相互作用、視点取りという4つの主要なカテゴリをカバーしている。
注意深い手動アノテーションにより8.4K以上の質問応答対を構築する。
論文 参考訳(メタデータ) (2025-06-03T17:58:29Z) - Jigsaw-Puzzles: From Seeing to Understanding to Reasoning in Vision-Language Models [12.945689517235264]
Jigsaw-Puzzlesは空間的複雑さの高い1,100個の慎重にキュレートされた実世界の画像からなる新しいベンチマークである。
このデータセットに基づいて、視覚言語モデルの空間知覚、構造的理解、推論能力を厳格に評価する5つのタスクを設計する。
その結果、最強モデルであるGemini-2.5-Proでさえ、全体的な精度は77.14%に過ぎず、特にオーダージェネレーションタスクでは性能が劣っていることがわかった。
論文 参考訳(メタデータ) (2025-05-27T05:17:41Z) - LENS: Multi-level Evaluation of Multimodal Reasoning with Large Language Models [59.0256377330646]
Lensは3.4Kの現代画像と8つのタスクと12の日次シナリオをカバーする60K以上の人間による質問のベンチマークである。
このデータセットは本質的に、基本的な知覚から構成的推論に至るまで、画像不変のプロンプトを処理するためのMLLMの評価をサポートする。
我々は,Qwen2.5-VL-72B,InternVL3-78B,GPT-4oおよび2つの推論モデルQVQ-72B-previewとKim-VLなどの15以上のフロンティアMLLMを評価する。
論文 参考訳(メタデータ) (2025-05-21T15:06:59Z) - SpaRE: Enhancing Spatial Reasoning in Vision-Language Models with Synthetic Data [7.142118464319378]
視覚言語モデル(VLM)は、画像キャプションから視覚質問応答(VQA)までのタスクでうまく機能する。
空間関係は一般的に広く使われているVLデータセットではまれであり、よく表現されているものはほとんどない。
我々は,超詳細な画像記述から生成された空間的推論に着目した合成VQAデータセットを構築した。
論文 参考訳(メタデータ) (2025-04-29T11:18:38Z) - Human Cognitive Benchmarks Reveal Foundational Visual Gaps in MLLMs [65.93003087656754]
VisFactorは、よく確立された認知心理学評価から20の視覚中心のサブテストをデジタル化するベンチマークである。
GPT、Gemini、Claude、LLaMA、Qwen、SEEDファミリーから20のフロンティアマルチモーダル言語モデル(MLLM)を評価する。
最高のパフォーマンスモデルは100点中25.19点のスコアしか得られず、精神的な回転、空間的関係推論、図形の識別といったタスクに一貫して失敗する。
論文 参考訳(メタデータ) (2025-02-23T04:21:32Z) - TopViewRS: Vision-Language Models as Top-View Spatial Reasoners [38.406430696146714]
トップビューの視点は、人間が様々な種類の地図を読み、推論する典型的な方法である。
11,384の質問からなるTopViewRSデータセットを視覚入力として,現実的あるいは意味的なトップビューマップで紹介する。
次に、異なるレベルの複雑さを持つ4つの知覚と推論タスクにわたるVLMの研究と評価に使用します。
論文 参考訳(メタデータ) (2024-06-04T17:55:43Z) - SpatialVLM: Endowing Vision-Language Models with Spatial Reasoning
Capabilities [59.39858959066982]
空間的関係についての理解と推論は、視覚質問応答(VQA)とロボット工学の基本的な能力である。
我々は,1000万枚の実画像に対して,最大20億個のVQAサンプルをスケール可能な3次元空間VQAデータ自動生成フレームワークを開発した。
このようなデータに基づいてVLMを訓練することにより、定性的空間的VQAと定量的空間的VQAの両方において、その能力を大幅に向上する。
論文 参考訳(メタデータ) (2024-01-22T18:01:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。