論文の概要: Seeing Isn't Knowing: Do VLMs Know When Not to Answer Spatial Questions (and Why)?
- arxiv url: http://arxiv.org/abs/2605.30557v1
- Date: Thu, 28 May 2026 20:44:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-01 20:56:50.22599
- Title: Seeing Isn't Knowing: Do VLMs Know When Not to Answer Spatial Questions (and Why)?
- Title(参考訳): VLMは空間的疑問に答えない時(そしてなぜ)を知るのか?
- Authors: Yue Zhang, Zun Wang, Han Lin, Yonatan Bitton, Idan Szpektor, Mohit Bansal,
- Abstract要約: 空間推論は視覚言語モデル(VLM)が現実世界の環境に展開する基本的な能力である。
対象情報を隠蔽するオクルージョン(Occlusion)と、誤解を招く視覚的手がかりを生成する視点曖昧性(spective ambiguity)の2つのタイプの観察課題を紹介した。
各構成について、クリーンな観察では答えられるが、導入した課題では無視する必要がある空間的質問を設計する。
- 参考スコア(独自算出の注目度): 72.2500547961037
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spatial reasoning is a fundamental capability for vision-language models (VLMs) deployed in real-world environments. However, visual observations are inherently limited representations of a 3D world: occlusion can render objects invisible, and perspective can make geometric properties misleading. Despite this, existing spatial reasoning benchmarks typically assume that observations are sufficient and reliable, focusing on whether models produce correct answers rather than whether they recognize when a question cannot be answered and what additional observations would be needed. In this work, we challenge this assumption by constructing a controlled evaluation framework, SpatialUncertain, and introducing two types of observation challenges: (1) occlusion, which hides target information, and (2) perspective ambiguity, which produces misleading visual cues. For each configuration, we design spatial questions that are answerable under clean observations but require abstention under the introduced challenges. We further evaluate whether models can identify which additional viewpoints would resolve perspective ambiguity. Our results across a diverse set of frontier open- and closed-source VLMs reveal two consistent failure modes. First, models are prone to overconfident answering, attempting to solve spatial reasoning tasks even when visual evidence is incomplete or misleading, with average accuracy around 30\% under occlusion and below 10\% under perspective ambiguity. Second, even when additional views are available, some models perform near random chance in identifying which would provide reliable evidence. Together, our findings call for moving beyond answer correctness toward evaluating whether models know when to abstain and how to seek reliable evidence.
- Abstract(参考訳): 空間推論は視覚言語モデル(VLM)が現実世界の環境に展開する基本的な能力である。
しかし、視覚的な観察は本質的に3D世界の限られた表現であり、オクルージョンは物体を見えなくし、視界が幾何学的性質を誤解させる可能性がある。
それにもかかわらず、既存の空間的推論ベンチマークでは、ある質問がいつ答えられないかや、追加の観測が必要かどうかを認識するよりも、モデルが正しい回答を得られるかどうかに焦点を当て、観察が十分で信頼できると仮定している。
本研究では,制御された評価フレームワークであるSpatialUncertainを構築し,(1)対象情報を隠蔽するオクルージョン,(2)誤解を招く視覚的手がかりを生成する視点曖昧性という2種類の観察課題を導入することで,この仮定に挑戦する。
各構成について、クリーンな観察では答えられるが、導入した課題では無視する必要がある空間的質問を設計する。
さらに、どの視点が視点の曖昧さを解消するかをモデルが特定できるかどうかについても検討する。
我々の結果は、フロンティアとクローズドソースのVLMの多様なセットにまたがって、2つの一貫した障害モードを明らかにします。
第一に、モデルは過度に確信し、視覚的証拠が不完全な場合や誤解を招く場合であっても、空間的推論タスクを解こうとします。
第二に、追加のビューが利用可能であったとしても、信頼できる証拠を提供するものを特定するために、ランダムに近い確率で実行するモデルもある。
調査の結果は、モデルがいつ禁じるべきか、そして信頼できる証拠を探す方法を知るかどうかを評価するために、答えの正しさを超えることを求めている。
関連論文リスト
- VISTAQA: Benchmarking Joint Visual Question Answering and Pixel-Level Evidence [26.0945130521806]
既存のベンチマークでは、テキストによる回答の正当性または画素レベルのローカライゼーションを分離して評価している。
本稿では,視覚的質問応答に基づく自由形式の回答正当性と画素レベルの証拠を共同評価するためのベンチマークであるVISTAQAを紹介する。
GROVEは, テキストの精度と接地品質を, サンプルごとの幾何平均で組み合わせることで, 関節の正しさを強制する指標である。
論文 参考訳(メタデータ) (2026-05-20T03:44:06Z) - VIEW2SPACE: Studying Multi-View Visual Reasoning from Sparse Observations [47.94531550391802]
多視点視覚推論は、スパースと離散的な視点から複雑な環境を理解する必要があるインテリジェントシステムにとって不可欠である。
現実のシナリオでは、ビュー間の推論は、明示的なガイダンスなしで部分的な観察を統合する必要がある。
我々は物理基底シミュレーションを利用して、ビュー毎の正確なメタデータを持つ多種多様な高忠実な3Dシーンを構築する。
論文 参考訳(メタデータ) (2026-03-17T13:36:30Z) - Beyond Accuracy: Evaluating Grounded Visual Evidence in Thinking with Images [34.324634481264034]
我々は、忠実な視覚的推論を評価するために設計されたプロセス検証可能なベンチマークであるViEBenchを提案する。
専門家による視覚的エビデンスを含む200個の高解像度画像を合成し、ViEBenchは難易度でタスクを知覚と推論の次元に分類する。
実験の結果,(1)VLMは無関係な領域に接するにもかかわらず,正しい最終回答を導き出すことができ,(2)正しい証拠を見つけることはできるが,正確な結論に至らなかった。
論文 参考訳(メタデータ) (2026-01-14T07:25:15Z) - VisRes Bench: On Evaluating the Visual Reasoning Capabilities of VLMs [7.406217790017003]
自然主義的環境下での視覚的推論を文脈言語による制御なしで研究するためのベンチマークであるVisRes Benchを紹介した。
3段階の複雑さのモデル行動を分析し、知覚的および関係的な視覚的推論能力の明らかな限界を明らかにする。
我々は、VisResがマルチモーダル研究における抽象的な視覚的推論を促進するための統一的なフレームワークをどのように提供するかについて論じる。
論文 参考訳(メタデータ) (2025-12-24T14:18:38Z) - VLMs have Tunnel Vision: Evaluating Nonlocal Visual Reasoning in Leading VLMs [18.349695067647012]
ビジュアル言語モデルは、VQAやチャート理解といった複雑なビジュアルタスクに優れていますが、最近の研究は、単純なテストで苦労していることを示唆しています。
非局所的な視覚的推論のための視覚言語モデルの能力を評価する。
その結果,生の視力の上昇にもかかわらず,現在のモデルでは中心的な視覚的推論能力が欠如していることが判明した。
論文 参考訳(メタデータ) (2025-07-04T23:15:52Z) - Can MLLMs Guide Me Home? A Benchmark Study on Fine-Grained Visual Reasoning from Transit Maps [56.76175383189738]
MLLMの詳細な視覚的理解と空間的推論能力を評価するためのベンチマークであるReasonMapを紹介する。
ReasonMapには、13か国30都市からの高解像度のトランジットマップが含まれており、2つの質問タイプと3つのテンプレートにまたがる1008の質問応答ペアが含まれている。
基本および推論変種を含む15種類のMLLMの包括的評価は、直感的パターンを示す。
論文 参考訳(メタデータ) (2025-05-24T12:33:52Z) - CAPTURe: Evaluating Spatial Reasoning in Vision Language Models via Occluded Object Counting [59.830657530592255]
Amodally for Patterns Through Unseen Regions (CAPTURe)は、視覚言語モデルを評価するためのテストベッドである。
CAPTUReでは、4つの強力な視覚言語モデルを評価し、隠蔽パターンと隠蔽パターンの両方でモデルがカウントできないことを発見した。
論文 参考訳(メタデータ) (2025-04-21T23:38:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。