Fugu-MT 論文翻訳(概要): How Far are VLMs from Visual Spatial Intelligence? A Benchmark-Driven Perspective

論文の概要: How Far are VLMs from Visual Spatial Intelligence? A Benchmark-Driven Perspective

arxiv url: http://arxiv.org/abs/2509.18905v1
Date: Tue, 23 Sep 2025 12:00:14 GMT
ステータス: 翻訳完了
システム内更新日: 2025-09-24 20:41:27.826143
Title: How Far are VLMs from Visual Spatial Intelligence? A Benchmark-Driven Perspective
Title（参考訳）: VLMは視覚空間知能からどこまで遠いか?ベンチマーク駆動の視点から
Authors: Songsong Yu, Yuxin Chen, Hao Ju, Lianjie Jia, Fuxi Zhang, Shaofei Huang, Yuhan Wu, Rundi Cui, Binghao Ran, Zaibin Zhang, Zhedong Zheng, Zhipeng Zhang, Yifan Wang, Lin Song, Lijun Wang, Yanwei Li, Ying Shan, Huchuan Lu,
Abstract要約: 視覚言語モデル(VLM)における視覚空間推論(VSR)の系統的研究について述べる。空間インテリジェンスを3つのレベル,すなわち基本的な知覚,空間理解,空間計画,および空間インテリジェンスベンチマークSIBenchに分類した。
参考スコア（独自算出の注目度）: 103.44502230776352
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Visual Spatial Reasoning (VSR) is a core human cognitive ability and a critical requirement for advancing embodied intelligence and autonomous systems. Despite recent progress in Vision-Language Models (VLMs), achieving human-level VSR remains highly challenging due to the complexity of representing and reasoning over three-dimensional space. In this paper, we present a systematic investigation of VSR in VLMs, encompassing a review of existing methodologies across input modalities, model architectures, training strategies, and reasoning mechanisms. Furthermore, we categorize spatial intelligence into three levels of capability, ie, basic perception, spatial understanding, spatial planning, and curate SIBench, a spatial intelligence benchmark encompassing nearly 20 open-source datasets across 23 task settings. Experiments with state-of-the-art VLMs reveal a pronounced gap between perception and reasoning, as models show competence in basic perceptual tasks but consistently underperform in understanding and planning tasks, particularly in numerical estimation, multi-view reasoning, temporal dynamics, and spatial imagination. These findings underscore the substantial challenges that remain in achieving spatial intelligence, while providing both a systematic roadmap and a comprehensive benchmark to drive future research in the field. The related resources of this study are accessible at https://sibench.github.io/Awesome-Visual-Spatial-Reasoning/.
Abstract（参考訳）: 視覚空間推論(VSR)は、人間の認知能力の中核であり、インボディード・インテリジェンスと自律システムを推進するための重要な要件である。近年のVLM(Vision-Language Models)の進歩にもかかわらず、3次元空間の表現と推論の複雑さのため、人間レベルのVSRを達成することは極めて困難である。本稿では,VLMにおけるVSRの体系的検討を行い,入力モダリティ,モデルアーキテクチャ,トレーニング戦略,推論機構など,既存の手法の見直しを包含する。さらに,空間インテリジェンスを3つの能力レベル(基本認識,空間理解,空間計画)に分類し,空間インテリジェンスベンチマークSIBenchを作成した。最新のVLMによる実験は、基本的な知覚タスクにおける能力を示すモデルが、特に数値推定、多視点推論、時間力学、空間的想像力において、理解と計画タスクにおいて一貫して不足しているため、知覚と推論の間に明らかなギャップが現れる。これらの知見は、空間知性を達成する上で残る重大な課題を浮き彫りにして、今後の研究を推進するための体系的なロードマップと包括的なベンチマークを提供する。この研究の関連リソースはhttps://sibench.github.io/Awesome-Visual-Spatial-Reasoning/にある。

関連論文リスト

SIRI-Bench: Challenging VLMs' Spatial Intelligence through Complex Reasoning Tasks [53.611256895338585]
SIRI-Benchは、映像ベースの推論タスクを通して視覚言語モデルの空間知性を評価するために設計されたベンチマークである。 SIRI-Benchは1K近いビデオクエスト・アンサー・トリプルで構成されており、各問題はリアルな3Dシーンに埋め込まれ、ビデオによってキャプチャされる。大規模データ合成を容易にするために,自動シーン生成エンジンを開発した。
論文参考訳（メタデータ） (2025-06-17T13:40:00Z)
SpatialScore: Towards Unified Evaluation for Multimodal Spatial Understanding [64.15606979785355]
マルチモーダル大規模言語モデル(MLLM)は,質問応答タスクにおいて顕著な成功を収めているが,空間的理解能力は乏しい。既存のMLLMは3次元空間認識と理解能力を持っているか?
論文参考訳（メタデータ） (2025-05-22T17:59:03Z)
SITE: towards Spatial Intelligence Thorough Evaluation [121.1493852562597]
空間知能 (Spatial Intelligence, SI) は、空間的関係の可視化、操作、推論を含む認知能力を表す。 SI Thorough Evaluationに向けたベンチマークデータセットであるSITEを紹介する。ベンチマークの計算には、31の既存のデータセットに関するボトムアップ調査と、認知科学の3つの分類システムに基づくトップダウン戦略を組み合わせる。
論文参考訳（メタデータ） (2025-05-08T17:45:44Z)
Mind the Gap: Benchmarking Spatial Reasoning in Vision-Language Models [14.442394137843923]
本稿では,まず空間的推論のコア要素を記述した詳細な分析を行う。次に、これらのモデルの性能を、合成画像と実画像の両方で評価する。
論文参考訳（メタデータ） (2025-03-25T14:34:06Z)
SPHERE: Unveiling Spatial Blind Spots in Vision-Language Models Through Hierarchical Evaluation [7.659514491338669]
現在の視覚言語モデルは、基本的な空間的手がかりを把握できるが、人間のような理解や現実世界の応用に必要な多次元空間的推論に苦慮している。我々は,新しい人間注釈付きデータセットをサポートする階層的評価フレームワークであるSPHEREを開発した。最先端モデルのベンチマーク評価では、特に距離と近接性についての推論において、重大な欠陥が示される。
論文参考訳（メタデータ） (2024-12-17T09:10:55Z)
Sparkle: Mastering Basic Spatial Capabilities in Vision Language Models Elicits Generalization to Spatial Reasoning [19.399925987942204]
視覚言語モデル (VLM) は、幅広い下流タスクにおいて印象的なパフォーマンスを示している。ほとんどのタスクは、2次元(2D)環境でのコア空間推論能力に依存している。本稿では,合成データ生成を用いて視覚言語モデル(VLM)を3つの基本的な空間的能力で監視するフレームワークであるSparkleを紹介する。
論文参考訳（メタデータ） (2024-10-21T16:26:09Z)
VSP: Assessing the dual challenges of perception and reasoning in spatial planning tasks for VLMs [102.36953558562436]
視覚言語モデル(VLM)は、エキサイティングな言語モデル(LM)のクラスである。 VLMの未調査能力の1つは、視覚空間計画である。本研究は,これらのモデルにおける空間計画能力を概ね評価するベンチマークを提案する。
論文参考訳（メタデータ） (2024-07-02T00:24:01Z)
SpatialVLM: Endowing Vision-Language Models with Spatial Reasoning Capabilities [59.39858959066982]
空間的関係についての理解と推論は、視覚質問応答(VQA)とロボット工学の基本的な能力である。我々は,1000万枚の実画像に対して,最大20億個のVQAサンプルをスケール可能な3次元空間VQAデータ自動生成フレームワークを開発した。このようなデータに基づいてVLMを訓練することにより、定性的空間的VQAと定量的空間的VQAの両方において、その能力を大幅に向上する。
論文参考訳（メタデータ） (2024-01-22T18:01:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。