論文の概要: How Far are VLMs from Visual Spatial Intelligence? A Benchmark-Driven Perspective
- arxiv url: http://arxiv.org/abs/2509.18905v1
- Date: Tue, 23 Sep 2025 12:00:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.826143
- Title: How Far are VLMs from Visual Spatial Intelligence? A Benchmark-Driven Perspective
- Title(参考訳): VLMは視覚空間知能からどこまで遠いか?ベンチマーク駆動の視点から
- Authors: Songsong Yu, Yuxin Chen, Hao Ju, Lianjie Jia, Fuxi Zhang, Shaofei Huang, Yuhan Wu, Rundi Cui, Binghao Ran, Zaibin Zhang, Zhedong Zheng, Zhipeng Zhang, Yifan Wang, Lin Song, Lijun Wang, Yanwei Li, Ying Shan, Huchuan Lu,
- Abstract要約: 視覚言語モデル(VLM)における視覚空間推論(VSR)の系統的研究について述べる。
空間インテリジェンスを3つのレベル,すなわち基本的な知覚,空間理解,空間計画,および空間インテリジェンスベンチマークSIBenchに分類した。
- 参考スコア(独自算出の注目度): 103.44502230776352
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual Spatial Reasoning (VSR) is a core human cognitive ability and a critical requirement for advancing embodied intelligence and autonomous systems. Despite recent progress in Vision-Language Models (VLMs), achieving human-level VSR remains highly challenging due to the complexity of representing and reasoning over three-dimensional space. In this paper, we present a systematic investigation of VSR in VLMs, encompassing a review of existing methodologies across input modalities, model architectures, training strategies, and reasoning mechanisms. Furthermore, we categorize spatial intelligence into three levels of capability, ie, basic perception, spatial understanding, spatial planning, and curate SIBench, a spatial intelligence benchmark encompassing nearly 20 open-source datasets across 23 task settings. Experiments with state-of-the-art VLMs reveal a pronounced gap between perception and reasoning, as models show competence in basic perceptual tasks but consistently underperform in understanding and planning tasks, particularly in numerical estimation, multi-view reasoning, temporal dynamics, and spatial imagination. These findings underscore the substantial challenges that remain in achieving spatial intelligence, while providing both a systematic roadmap and a comprehensive benchmark to drive future research in the field. The related resources of this study are accessible at https://sibench.github.io/Awesome-Visual-Spatial-Reasoning/.
- Abstract(参考訳): 視覚空間推論(VSR)は、人間の認知能力の中核であり、インボディード・インテリジェンスと自律システムを推進するための重要な要件である。
近年のVLM(Vision-Language Models)の進歩にもかかわらず、3次元空間の表現と推論の複雑さのため、人間レベルのVSRを達成することは極めて困難である。
本稿では,VLMにおけるVSRの体系的検討を行い,入力モダリティ,モデルアーキテクチャ,トレーニング戦略,推論機構など,既存の手法の見直しを包含する。
さらに,空間インテリジェンスを3つの能力レベル(基本認識,空間理解,空間計画)に分類し,空間インテリジェンスベンチマークSIBenchを作成した。
最新のVLMによる実験は、基本的な知覚タスクにおける能力を示すモデルが、特に数値推定、多視点推論、時間力学、空間的想像力において、理解と計画タスクにおいて一貫して不足しているため、知覚と推論の間に明らかなギャップが現れる。
これらの知見は、空間知性を達成する上で残る重大な課題を浮き彫りにして、今後の研究を推進するための体系的なロードマップと包括的なベンチマークを提供する。
この研究の関連リソースはhttps://sibench.github.io/Awesome-Visual-Spatial-Reasoning/にある。
関連論文リスト
- Imagine in Space: Exploring the Frontier of Spatial Intelligence and Reasoning Efficiency in Vision Language Models [23.12717700882611]
空間的推論は人間の認知の基本的な構成要素です
現在の大規模言語モデル(LLM)と視覚言語モデル(VLM)は、論理的推論、問題解決、意思決定にまたがる顕著な推論能力を示している。
我々は空間状態の内部シミュレーションである想像力が空間世界モデルにおける支配的な推論機構であると仮定する。
論文 参考訳(メタデータ) (2025-11-16T03:09:55Z) - Spatial Reasoning in Multimodal Large Language Models: A Survey of Tasks, Benchmarks and Methods [11.53401872925025]
空間能力は入力形式によってのみ決定されるものではないと我々は主張する。
本調査では,認知的側面から空間知性を整理する分類法を紹介した。
トレーニングベースと推論ベースの両方にまたがる空間能力向上手法を解析する。
論文 参考訳(メタデータ) (2025-11-14T02:43:17Z) - Multimodal Spatial Reasoning in the Large Model Era: A Survey and Benchmarks [108.15756345836901]
大規模モデルを用いたマルチモーダル空間推論タスクの包括的レビューを行う。
我々は、視覚言語ナビゲーションやアクションモデルを含む、具体的AIの進歩についてレビューする。
我々は,新しいセンサによる空間的理解に寄与する音声やエゴセントリックビデオなどの新たなモダリティを考察する。
論文 参考訳(メタデータ) (2025-10-29T17:55:43Z) - Spatial-DISE: A Unified Benchmark for Evaluating Spatial Reasoning in Vision-Language Models [21.28937516885804]
我々は,タスクを4つの基本四分節に分類する認知的基盤の分類に基づく統合ベンチマークtextbfSpatial-DISEを提案する。
データ不足の問題に対処するため,多様かつ検証可能な空間的推論問題を生成するスケーラブルで自動化されたパイプラインを開発した。
論文 参考訳(メタデータ) (2025-10-15T10:44:01Z) - SIRI-Bench: Challenging VLMs' Spatial Intelligence through Complex Reasoning Tasks [53.611256895338585]
SIRI-Benchは、映像ベースの推論タスクを通して視覚言語モデルの空間知性を評価するために設計されたベンチマークである。
SIRI-Benchは1K近いビデオクエスト・アンサー・トリプルで構成されており、各問題はリアルな3Dシーンに埋め込まれ、ビデオによってキャプチャされる。
大規模データ合成を容易にするために,自動シーン生成エンジンを開発した。
論文 参考訳(メタデータ) (2025-06-17T13:40:00Z) - ViewSpatial-Bench: Evaluating Multi-perspective Spatial Localization in Vision-Language Models [68.46716645478661]
視覚言語モデル (VLM) は視覚的内容の理解と推論において顕著な能力を示した。
現在のVLMは、主に自我中心の空間的推論(カメラの観点から)に優れるが、同中心の視点に一般化することができない。
マルチ視点空間位置認識評価に特化して設計された,初の総合的なベンチマークであるViewSpatial-Benchを紹介する。
論文 参考訳(メタデータ) (2025-05-27T17:59:26Z) - SpatialScore: Towards Unified Evaluation for Multimodal Spatial Understanding [64.15606979785355]
マルチモーダル大規模言語モデル(MLLM)は,質問応答タスクにおいて顕著な成功を収めているが,空間的理解能力は乏しい。
既存のMLLMは3次元空間認識と理解能力を持っているか?
論文 参考訳(メタデータ) (2025-05-22T17:59:03Z) - SITE: towards Spatial Intelligence Thorough Evaluation [121.1493852562597]
空間知能 (Spatial Intelligence, SI) は、空間的関係の可視化、操作、推論を含む認知能力を表す。
SI Thorough Evaluationに向けたベンチマークデータセットであるSITEを紹介する。
ベンチマークの計算には、31の既存のデータセットに関するボトムアップ調査と、認知科学の3つの分類システムに基づくトップダウン戦略を組み合わせる。
論文 参考訳(メタデータ) (2025-05-08T17:45:44Z) - Mind the Gap: Benchmarking Spatial Reasoning in Vision-Language Models [14.442394137843923]
本稿では,まず空間的推論のコア要素を記述した詳細な分析を行う。
次に、これらのモデルの性能を、合成画像と実画像の両方で評価する。
論文 参考訳(メタデータ) (2025-03-25T14:34:06Z) - SPHERE: Unveiling Spatial Blind Spots in Vision-Language Models Through Hierarchical Evaluation [7.659514491338669]
現在の視覚言語モデルは、基本的な空間的手がかりを把握できるが、人間のような理解や現実世界の応用に必要な多次元空間的推論に苦慮している。
我々は,新しい人間注釈付きデータセットをサポートする階層的評価フレームワークであるSPHEREを開発した。
最先端モデルのベンチマーク評価では、特に距離と近接性についての推論において、重大な欠陥が示される。
論文 参考訳(メタデータ) (2024-12-17T09:10:55Z) - Sparkle: Mastering Basic Spatial Capabilities in Vision Language Models Elicits Generalization to Spatial Reasoning [19.399925987942204]
視覚言語モデル (VLM) は、幅広い下流タスクにおいて印象的なパフォーマンスを示している。
ほとんどのタスクは、2次元(2D)環境でのコア空間推論能力に依存している。
本稿では,合成データ生成を用いて視覚言語モデル(VLM)を3つの基本的な空間的能力で監視するフレームワークであるSparkleを紹介する。
論文 参考訳(メタデータ) (2024-10-21T16:26:09Z) - VSP: Assessing the dual challenges of perception and reasoning in spatial planning tasks for VLMs [102.36953558562436]
視覚言語モデル(VLM)は、エキサイティングな言語モデル(LM)のクラスである。
VLMの未調査能力の1つは、視覚空間計画である。
本研究は,これらのモデルにおける空間計画能力を概ね評価するベンチマークを提案する。
論文 参考訳(メタデータ) (2024-07-02T00:24:01Z) - SpatialVLM: Endowing Vision-Language Models with Spatial Reasoning
Capabilities [59.39858959066982]
空間的関係についての理解と推論は、視覚質問応答(VQA)とロボット工学の基本的な能力である。
我々は,1000万枚の実画像に対して,最大20億個のVQAサンプルをスケール可能な3次元空間VQAデータ自動生成フレームワークを開発した。
このようなデータに基づいてVLMを訓練することにより、定性的空間的VQAと定量的空間的VQAの両方において、その能力を大幅に向上する。
論文 参考訳(メタデータ) (2024-01-22T18:01:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。