Fugu-MT 論文翻訳(概要): SpatiaLQA: A Benchmark for Evaluating Spatial Logical Reasoning in Vision-Language Models

論文の概要: SpatiaLQA: A Benchmark for Evaluating Spatial Logical Reasoning in Vision-Language Models

arxiv url: http://arxiv.org/abs/2602.20901v1
Date: Tue, 24 Feb 2026 13:38:37 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-25 17:34:53.766096
Title: SpatiaLQA: A Benchmark for Evaluating Spatial Logical Reasoning in Vision-Language Models
Title（参考訳）: SpatiaLQA:視覚言語モデルにおける空間論理推論の評価ベンチマーク
Authors: Yuechen Xie, Xiaoyan Zhang, Yicheng Shan, Hao Zhu, Rui Tang, Rong Wei, Mingli Song, Yuanyu Wan, Jie Song,
Abstract要約: 視覚言語モデル(VLM)の空間論理的推論能力を評価するためのベンチマークを導入する。 41の主流VLMに対して広範な実験を行い、最も先進的なモデルでさえも空間的論理的推論に苦戦していることを示す。本稿では,視覚基盤モデルを利用して複雑なシーンをタスク関連シーングラフに段階的に分解する再帰的シーングラフ支援手法を提案する。
参考スコア（独自算出の注目度）: 60.088066516175026
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Vision-Language Models (VLMs) have been increasingly applied in real-world scenarios due to their outstanding understanding and reasoning capabilities. Although VLMs have already demonstrated impressive capabilities in common visual question answering and logical reasoning, they still lack the ability to make reasonable decisions in complex real-world environments. We define this ability as spatial logical reasoning, which not only requires understanding the spatial relationships among objects in complex scenes, but also the logical dependencies between steps in multi-step tasks. To bridge this gap, we introduce Spatial Logical Question Answering (SpatiaLQA), a benchmark designed to evaluate the spatial logical reasoning capabilities of VLMs. SpatiaLQA consists of 9,605 question answer pairs derived from 241 real-world indoor scenes. We conduct extensive experiments on 41 mainstream VLMs, and the results show that even the most advanced models still struggle with spatial logical reasoning. To address this issue, we propose a method called recursive scene graph assisted reasoning, which leverages visual foundation models to progressively decompose complex scenes into task-relevant scene graphs, thereby enhancing the spatial logical reasoning ability of VLMs, outperforming all previous methods. Code and dataset are available at https://github.com/xieyc99/SpatiaLQA.
Abstract（参考訳）: VLM(Vision-Language Models)は、その優れた理解と推論能力により、現実のシナリオにますます適用されてきている。 VLMはすでに、一般的な視覚的質問応答や論理的推論において印象的な能力を示してきたが、複雑な現実世界の環境で合理的な判断を下す能力はいまだに欠如している。この能力は,複雑な場面におけるオブジェクト間の空間的関係を理解するだけでなく,多段階タスクにおけるステップ間の論理的依存関係も必要とする空間的論理的推論として定義する。このギャップを埋めるために、VLMの空間論理的推論能力を評価するためのベンチマークであるSpatiaLQA(Spatia Logical Question Answering)を導入する。 SpatiaLQAは、現実世界の241の屋内シーンから派生した9,605の質問応答ペアで構成されている。 41の主流VLMに対して広範な実験を行い、最も先進的なモデルでさえも空間的論理的推論に苦戦していることを示す。本稿では,視覚基盤モデルを利用して複雑なシーンをタスク関連シーングラフに段階的に分解し,VLMの空間論理的推論能力を向上させる手法を提案する。コードとデータセットはhttps://github.com/xieyc99/SpatiaLQA.comで入手できる。

関連論文リスト

How Far are VLMs from Visual Spatial Intelligence? A Benchmark-Driven Perspective [103.44502230776352]
視覚言語モデル(VLM)における視覚空間推論(VSR)の系統的研究について述べる。空間インテリジェンスを3つのレベル,すなわち基本的な知覚,空間理解,空間計画,および空間インテリジェンスベンチマークSIBenchに分類した。
論文参考訳（メタデータ） (2025-09-23T12:00:14Z)
Logic Unseen: Revealing the Logical Blindspots of Vision-Language Models [58.456656119178064]
VLM(Vision-Language Models)は、マルチモーダルインテリジェンスの基礎として登場した。しかし、その論理的理解能力は依然として明らかに過小評価されている。 LogicBenchは9つの論理カテゴリと4つの多様なシナリオにまたがる5万以上の視覚言語ペアを備えたベンチマークである。 VLMの論理感度を高めるためのトレーニングフレームワークであるLogicCLIPを提案する。
論文参考訳（メタデータ） (2025-08-15T08:40:13Z)
SIRI-Bench: Challenging VLMs' Spatial Intelligence through Complex Reasoning Tasks [51.774165536666864]
SIRI-Benchは視覚言語モデルの構造的空間知性を評価するためのベンチマークである。 Benchは9000の動画検索用三脚で構成されており、各問題はリアルな3Dシーンに埋め込まれている。実験結果から,最先端のVLMはSIRI-Benchでかなり苦労し,構造的空間推論の課題を浮き彫りにした。
論文参考訳（メタデータ） (2025-06-17T13:40:00Z)
OmniSpatial: Towards Comprehensive Spatial Reasoning Benchmark for Vision Language Models [17.976302783133956]
認知心理学に基づく空間的推論のベンチマークであるOmniSpatialを紹介する。動的推論、複雑な空間論理、空間相互作用、視点取りという4つの主要なカテゴリをカバーしている。注意深い手動アノテーションにより8.4K以上の質問応答対を構築する。
論文参考訳（メタデータ） (2025-06-03T17:58:29Z)
ViewSpatial-Bench: Evaluating Multi-perspective Spatial Localization in Vision-Language Models [68.46716645478661]
視覚言語モデル (VLM) は視覚的内容の理解と推論において顕著な能力を示した。現在のVLMは、主に自我中心の空間的推論(カメラの観点から)に優れるが、同中心の視点に一般化することができない。マルチ視点空間位置認識評価に特化して設計された,初の総合的なベンチマークであるViewSpatial-Benchを紹介する。
論文参考訳（メタデータ） (2025-05-27T17:59:26Z)
Jigsaw-Puzzles: From Seeing to Understanding to Reasoning in Vision-Language Models [12.945689517235264]
Jigsaw-Puzzlesは空間的複雑さの高い1,100個の慎重にキュレートされた実世界の画像からなる新しいベンチマークである。このデータセットに基づいて、視覚言語モデルの空間知覚、構造的理解、推論能力を厳格に評価する5つのタスクを設計する。その結果、最強モデルであるGemini-2.5-Proでさえ、全体的な精度は77.14%に過ぎず、特にオーダージェネレーションタスクでは性能が劣っていることがわかった。
論文参考訳（メタデータ） (2025-05-27T05:17:41Z)
Can MLLMs Guide Me Home? A Benchmark Study on Fine-Grained Visual Reasoning from Transit Maps [56.76175383189738]
MLLMの詳細な視覚的理解と空間的推論能力を評価するためのベンチマークであるReasonMapを紹介する。 ReasonMapには、13か国30都市からの高解像度のトランジットマップが含まれており、2つの質問タイプと3つのテンプレートにまたがる1008の質問応答ペアが含まれている。基本および推論変種を含む15種類のMLLMの包括的評価は、直感的パターンを示す。
論文参考訳（メタデータ） (2025-05-24T12:33:52Z)
SpaRE: Enhancing Spatial Reasoning in Vision-Language Models with Synthetic Data [7.142118464319378]
視覚言語モデル(VLM)は、画像キャプションから視覚質問応答(VQA)までのタスクでうまく機能する。空間関係は一般的に広く使われているVLデータセットではまれであり、よく表現されているものはほとんどない。我々は,超詳細な画像記述から生成された空間的推論に着目した合成VQAデータセットを構築した。
論文参考訳（メタデータ） (2025-04-29T11:18:38Z)
Mind the Gap: Benchmarking Spatial Reasoning in Vision-Language Models [14.442394137843923]
本稿では,まず空間的推論のコア要素を記述した詳細な分析を行う。次に、これらのモデルの性能を、合成画像と実画像の両方で評価する。
論文参考訳（メタデータ） (2025-03-25T14:34:06Z)
Retrieval-Based Interleaved Visual Chain-of-Thought in Real-World Driving Scenarios [69.00444996464662]
RIV-CoT(Retrieval-based Interleaved Visual Chain-of-Thought法)を提案する。実験の結果, RIV-CoTの解答精度は3.1%向上し, バニラCoTの解答精度は4.6%向上した。
論文参考訳（メタデータ） (2025-01-08T18:31:16Z)
Sparkle: Mastering Basic Spatial Capabilities in Vision Language Models Elicits Generalization to Spatial Reasoning [36.588008658084895]
視覚言語モデル(VLM)は多くのタスクでうまく機能するが、しばしば空間的推論では失敗する。評価の結果, 現状のVLMでは, 複合空間問題に対する不正確な答えが得られていることがわかった。 VLMにおける2次元空間推論は,基本空間能力のみに基づいて訓練することで向上する。
論文参考訳（メタデータ） (2024-10-21T16:26:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。