論文の概要: SpinBench: Perspective and Rotation as a Lens on Spatial Reasoning in VLMs
- arxiv url: http://arxiv.org/abs/2509.25390v1
- Date: Mon, 29 Sep 2025 18:48:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.273946
- Title: SpinBench: Perspective and Rotation as a Lens on Spatial Reasoning in VLMs
- Title(参考訳): SpinBench: VLMにおける空間推論のレンズとしての視点と回転
- Authors: Yuyou Zhang, Radu Corcodel, Chiori Hori, Anoop Cherian, Ding Zhao,
- Abstract要約: 視覚言語モデル(VLM)における空間推論評価のための診断ベンチマークであるSpinBenchを提案する。
パースペクティブ・テイクは複数の認知機能を必要とするため、SpinBenchは一連のきめ細かい診断カテゴリを導入している。
結果は、強い自我中心バイアス、低い自我的理解、対称的・統語的改革の下での不整合など、体系的な弱点を明らかにしている。
- 参考スコア(独自算出の注目度): 49.106901743548036
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present SpinBench, a cognitively grounded diagnostic benchmark for evaluating spatial reasoning in vision language models (VLMs). SpinBench is designed around the core challenge of spatial reasoning: perspective taking, the ability to reason about how scenes and object relations change under viewpoint transformation. Since perspective taking requires multiple cognitive capabilities, such as recognizing objects across views, relative positions grounding, and mentally simulating transformations, SpinBench introduces a set of fine-grained diagnostic categories. Our categories target translation, rotation, object relative pose, and viewpoint change, and are progressively structured so that single-object simpler tasks scaffold toward the most demanding multi-object perspective-taking setting. We evaluate 37 state-of-the-art VLMs, both proprietary and open source. Results reveal systematic weaknesses: strong egocentric bias, poor rotational understanding, and inconsistencies under symmetrical and syntactic reformulations. Scaling analysis shows both smooth improvements and emergent capabilities. While human subjects achieve high accuracy (91.2\%), task difficulty as measured by human response time shows strong correlation with VLM accuracy, indicating that SpinBench captures spatial reasoning challenges shared across humans and VLMs. We believe SpinBench provides critical insights into spatial reasoning in VLMs and highlights key gaps in their ability to reason about physical space. Our website can be found at https://spinbench25.github.io/.
- Abstract(参考訳): 本稿では,視覚言語モデル(VLM)における空間的推論を評価するための,認知的基盤の診断ベンチマークであるSpinBenchを紹介する。
SpinBenchは、パースペクティブ・テイキング(spective taking)、パースペクティブ・トランスフォーメーション・トランスフォーメーション(spective transformation)の下で、シーンとオブジェクトの関係がどのように変化するのかを推論する能力という、空間的推論のコア・チャレンジを中心に設計されている。
パースペクティブ・テイクは、ビューを横断するオブジェクトの認識、相対的な位置の接地、精神的なシミュレートといった複数の認知機能を必要とするため、SpinBenchは一連のきめ細かい診断カテゴリを導入している。
我々のカテゴリは、翻訳、回転、オブジェクトの相対的なポーズ、視点の変化を目標としており、より単純な単一目的のタスクを最も要求の多い多目的の視点を取るための足場として、段階的に構造化されている。
プロプライエタリかつオープンソースである37の最先端VLMを評価した。
結果は、強い自我中心バイアス、低い自我的理解、対称的・統語的改革の下での不整合など、体系的な弱点を明らかにしている。
スケール分析は、スムーズな改善と創発的な機能の両方を示している。
被験者は高い精度(91.2\%)を達成する一方、人間の応答時間によって測定されたタスク困難は、VLMの精度と強い相関を示し、SpinBenchは人間とVLM間で共有される空間的推論課題を捉えている。
我々は、SpinBenchがVLMにおける空間的推論に重要な洞察を与え、物理空間を推論する能力において重要なギャップを浮き彫りにすると考えている。
私たちのウェブサイトはhttps://spinbench25.github.io/.com/で閲覧できます。
関連論文リスト
- VLM4D: Towards Spatiotemporal Awareness in Vision Language Models [66.833085504228]
V4DLMは視覚言語モデル(VLM)を評価するために設計された最初のベンチマークである。
本ベンチマークは,質問応答対を慎重にキュレートした,多様な実世界および合成ビデオで構成されている。
我々は,既存のモデルにおける基本的欠陥を浮き彫りにして,人間のベースラインと比較して重要なパフォーマンスギャップを識別する。
論文 参考訳(メタデータ) (2025-08-04T06:06:06Z) - ViewSpatial-Bench: Evaluating Multi-perspective Spatial Localization in Vision-Language Models [68.46716645478661]
視覚言語モデル (VLM) は視覚的内容の理解と推論において顕著な能力を示した。
現在のVLMは、主に自我中心の空間的推論(カメラの観点から)に優れるが、同中心の視点に一般化することができない。
マルチ視点空間位置認識評価に特化して設計された,初の総合的なベンチマークであるViewSpatial-Benchを紹介する。
論文 参考訳(メタデータ) (2025-05-27T17:59:26Z) - MMPerspective: Do MLLMs Understand Perspective? A Comprehensive Benchmark for Perspective Perception, Reasoning, and Robustness [34.49001130529016]
MMPerspectiveはマルチモーダルな大言語モデルの視点理解を評価するために設計された最初のベンチマークである。
このベンチマークでは,実世界の2,711の合成画像と5,083の問合せ対でキー機能を調べている。
43の最先端MLLMの総合評価により,重要な限界が明らかになった。
論文 参考訳(メタデータ) (2025-05-26T18:20:22Z) - Mind the Gap: Benchmarking Spatial Reasoning in Vision-Language Models [14.442394137843923]
本稿では,まず空間的推論のコア要素を記述した詳細な分析を行う。
次に、これらのモデルの性能を、合成画像と実画像の両方で評価する。
論文 参考訳(メタデータ) (2025-03-25T14:34:06Z) - Beyond Semantics: Rediscovering Spatial Awareness in Vision-Language Models [10.792834356227118]
VLM(Vision-Language Models)は、オブジェクトの識別と記述が優れているが、空間的推論に苦慮している。
人間の視覚のデュアルパスウェイモデルに触発されて,強い物体認識能力にもかかわらず,VLMが空間的タスクに失敗する理由を考察した。
論文 参考訳(メタデータ) (2025-03-21T17:51:14Z) - Why Is Spatial Reasoning Hard for VLMs? An Attention Mechanism Perspective on Focus Areas [52.478956204238315]
機械的解釈可能性のレンズによる空間的推論の課題について検討する。
空間的推論の成功は、実際の物体の位置と注意を一致させるモデルの能力と強く相関している。
本研究の目的は,ADAPTVISを用いて,信頼性の高い地域への注意を喚起することである。
論文 参考訳(メタデータ) (2025-03-03T17:57:03Z) - The Right Spin: Learning Object Motion from Rotation-Compensated Flow
Fields [61.664963331203666]
人間がどのように動く物体を知覚するかは、コンピュータービジョンにおける長年の研究課題である。
この問題の1つのアプローチは、これらすべての効果をモデル化するためのディープネットワークを教えることである。
運動場からカメラの回転を推定する新しい確率モデルを提案する。
論文 参考訳(メタデータ) (2022-02-28T22:05:09Z) - Weakly Supervised Relative Spatial Reasoning for Visual Question
Answering [38.05223339919346]
我々は,V&Lモデルの忠実度をこのような幾何学的理解に向けて評価する。
我々は、市販の深度推定器から弱い監督でV&Lを訓練する。
これにより、"GQA"視覚的質問応答チャレンジの精度が大幅に向上する。
論文 参考訳(メタデータ) (2021-09-04T21:29:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。