論文の概要: SpatiaLQA: A Benchmark for Evaluating Spatial Logical Reasoning in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2602.20901v1
- Date: Tue, 24 Feb 2026 13:38:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 17:34:53.766096
- Title: SpatiaLQA: A Benchmark for Evaluating Spatial Logical Reasoning in Vision-Language Models
- Title(参考訳): SpatiaLQA:視覚言語モデルにおける空間論理推論の評価ベンチマーク
- Authors: Yuechen Xie, Xiaoyan Zhang, Yicheng Shan, Hao Zhu, Rui Tang, Rong Wei, Mingli Song, Yuanyu Wan, Jie Song,
- Abstract要約: 視覚言語モデル(VLM)の空間論理的推論能力を評価するためのベンチマークを導入する。
41の主流VLMに対して広範な実験を行い、最も先進的なモデルでさえも空間的論理的推論に苦戦していることを示す。
本稿では,視覚基盤モデルを利用して複雑なシーンをタスク関連シーングラフに段階的に分解する再帰的シーングラフ支援手法を提案する。
- 参考スコア(独自算出の注目度): 60.088066516175026
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs) have been increasingly applied in real-world scenarios due to their outstanding understanding and reasoning capabilities. Although VLMs have already demonstrated impressive capabilities in common visual question answering and logical reasoning, they still lack the ability to make reasonable decisions in complex real-world environments. We define this ability as spatial logical reasoning, which not only requires understanding the spatial relationships among objects in complex scenes, but also the logical dependencies between steps in multi-step tasks. To bridge this gap, we introduce Spatial Logical Question Answering (SpatiaLQA), a benchmark designed to evaluate the spatial logical reasoning capabilities of VLMs. SpatiaLQA consists of 9,605 question answer pairs derived from 241 real-world indoor scenes. We conduct extensive experiments on 41 mainstream VLMs, and the results show that even the most advanced models still struggle with spatial logical reasoning. To address this issue, we propose a method called recursive scene graph assisted reasoning, which leverages visual foundation models to progressively decompose complex scenes into task-relevant scene graphs, thereby enhancing the spatial logical reasoning ability of VLMs, outperforming all previous methods. Code and dataset are available at https://github.com/xieyc99/SpatiaLQA.
- Abstract(参考訳): VLM(Vision-Language Models)は、その優れた理解と推論能力により、現実のシナリオにますます適用されてきている。
VLMはすでに、一般的な視覚的質問応答や論理的推論において印象的な能力を示してきたが、複雑な現実世界の環境で合理的な判断を下す能力はいまだに欠如している。
この能力は,複雑な場面におけるオブジェクト間の空間的関係を理解するだけでなく,多段階タスクにおけるステップ間の論理的依存関係も必要とする空間的論理的推論として定義する。
このギャップを埋めるために、VLMの空間論理的推論能力を評価するためのベンチマークであるSpatiaLQA(Spatia Logical Question Answering)を導入する。
SpatiaLQAは、現実世界の241の屋内シーンから派生した9,605の質問応答ペアで構成されている。
41の主流VLMに対して広範な実験を行い、最も先進的なモデルでさえも空間的論理的推論に苦戦していることを示す。
本稿では,視覚基盤モデルを利用して複雑なシーンをタスク関連シーングラフに段階的に分解し,VLMの空間論理的推論能力を向上させる手法を提案する。
コードとデータセットはhttps://github.com/xieyc99/SpatiaLQA.comで入手できる。
関連論文リスト
- Logic Unseen: Revealing the Logical Blindspots of Vision-Language Models [58.456656119178064]
VLM(Vision-Language Models)は、マルチモーダルインテリジェンスの基礎として登場した。
しかし、その論理的理解能力は依然として明らかに過小評価されている。
LogicBenchは9つの論理カテゴリと4つの多様なシナリオにまたがる5万以上の視覚言語ペアを備えたベンチマークである。
VLMの論理感度を高めるためのトレーニングフレームワークであるLogicCLIPを提案する。
論文 参考訳(メタデータ) (2025-08-15T08:40:13Z) - SIRI-Bench: Challenging VLMs' Spatial Intelligence through Complex Reasoning Tasks [51.774165536666864]
SIRI-Benchは視覚言語モデルの構造的空間知性を評価するためのベンチマークである。
Benchは9000の動画検索用三脚で構成されており、各問題はリアルな3Dシーンに埋め込まれている。
実験結果から,最先端のVLMはSIRI-Benchでかなり苦労し,構造的空間推論の課題を浮き彫りにした。
論文 参考訳(メタデータ) (2025-06-17T13:40:00Z) - OmniSpatial: Towards Comprehensive Spatial Reasoning Benchmark for Vision Language Models [17.976302783133956]
認知心理学に基づく空間的推論のベンチマークであるOmniSpatialを紹介する。
動的推論、複雑な空間論理、空間相互作用、視点取りという4つの主要なカテゴリをカバーしている。
注意深い手動アノテーションにより8.4K以上の質問応答対を構築する。
論文 参考訳(メタデータ) (2025-06-03T17:58:29Z) - Jigsaw-Puzzles: From Seeing to Understanding to Reasoning in Vision-Language Models [12.945689517235264]
Jigsaw-Puzzlesは空間的複雑さの高い1,100個の慎重にキュレートされた実世界の画像からなる新しいベンチマークである。
このデータセットに基づいて、視覚言語モデルの空間知覚、構造的理解、推論能力を厳格に評価する5つのタスクを設計する。
その結果、最強モデルであるGemini-2.5-Proでさえ、全体的な精度は77.14%に過ぎず、特にオーダージェネレーションタスクでは性能が劣っていることがわかった。
論文 参考訳(メタデータ) (2025-05-27T05:17:41Z) - Retrieval-Based Interleaved Visual Chain-of-Thought in Real-World Driving Scenarios [69.00444996464662]
RIV-CoT(Retrieval-based Interleaved Visual Chain-of-Thought法)を提案する。
実験の結果, RIV-CoTの解答精度は3.1%向上し, バニラCoTの解答精度は4.6%向上した。
論文 参考訳(メタデータ) (2025-01-08T18:31:16Z) - Sparkle: Mastering Basic Spatial Capabilities in Vision Language Models Elicits Generalization to Spatial Reasoning [36.588008658084895]
視覚言語モデル(VLM)は多くのタスクでうまく機能するが、しばしば空間的推論では失敗する。
評価の結果, 現状のVLMでは, 複合空間問題に対する不正確な答えが得られていることがわかった。
VLMにおける2次元空間推論は,基本空間能力のみに基づいて訓練することで向上する。
論文 参考訳(メタデータ) (2024-10-21T16:26:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。