論文の概要: Reasoning Path and Latent State Analysis for Multi-view Visual Spatial Reasoning: A Cognitive Science Perspective
- arxiv url: http://arxiv.org/abs/2512.02340v1
- Date: Tue, 02 Dec 2025 02:21:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.686627
- Title: Reasoning Path and Latent State Analysis for Multi-view Visual Spatial Reasoning: A Cognitive Science Perspective
- Title(参考訳): 多視点空間推論のための推論パスと潜時状態解析:認知科学の視点から
- Authors: Qiyao Xue, Weichen Liu, Shiqi Wang, Haoming Wang, Yuyang Wu, Wei Gao,
- Abstract要約: 空間推論は、人間の知性の中核的な側面であり、3D環境における知覚、推論、計画を可能にする。
現在の視覚言語モデル(VLM)は、多視点設定における空間的推論のための幾何学的コヒーレンスとクロスビュー整合性を維持するのに苦労している。
本稿では,VLMが相補的な視点で空間的メンタルモデルを構築し,調整し,維持する方法を評価するための,認知的基盤を持つベンチマークであるReMindView-Benchを紹介する。
- 参考スコア(独自算出の注目度): 17.592210658831902
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Spatial reasoning is a core aspect of human intelligence that allows perception, inference and planning in 3D environments. However, current vision-language models (VLMs) struggle to maintain geometric coherence and cross-view consistency for spatial reasoning in multi-view settings. We attribute this gap to the lack of fine-grained benchmarks that isolate multi-view reasoning from single-view perception and temporal factors. To address this, we present ReMindView-Bench, a cognitively grounded benchmark for evaluating how VLMs construct, align and maintain spatial mental models across complementary viewpoints. ReMindView-Bench systematically varies viewpoint spatial pattern and query type to probe key factors of spatial cognition. Evaluations of 15 current VLMs reveals consistent failures in cross-view alignment and perspective-taking in multi-view spatial reasoning, motivating deeper analysis on the reasoning process. Explicit phase-wise analysis using LLM-as-a-judge and self-consistency prompting shows that VLMs perform well on in-frame perception but degrade sharply when integrating information across views. Implicit analysis, including linear probing and entropy dynamics, further show progressive loss of task-relevant information and uncertainty separation between correct and incorrect trajectories. These results provide a cognitively grounded diagnosis of VLM spatial reasoning and reveal how multi-view spatial mental models are formed, degraded and destabilized across reasoning phases. The ReMindView-Bench benchmark is available at https://huggingface.co/datasets/Xue0823/ReMindView-Bench, and the source codes of benchmark construction and VLM reasoning analysis are available at https://github.com/pittisl/ReMindView-Bench.
- Abstract(参考訳): 空間推論は、人間の知性の中核的な側面であり、3D環境における知覚、推論、計画を可能にする。
しかし、現在の視覚言語モデル(VLM)は、多視点設定における空間的推論のための幾何学的コヒーレンスとクロスビュー整合性を維持するのに苦労している。
このギャップは、単一視点の知覚と時間的要因から多視点推論を分離する、きめ細かいベンチマークが欠如していることによる。
これを解決するために、VLMが相補的な視点で空間的メンタルモデルを構築し、調整し、維持する方法を評価するための認知的基盤付きベンチマークであるReMindView-Benchを提案する。
ReMindView-Benchは、空間認知の重要な要因を探索するために、視点空間パターンとクエリタイプを体系的に変化させる。
現在の15のVLMの評価は、多視点空間推論において、横方向のアライメントと視点取りにおいて一貫した失敗を示し、推論プロセスのより深い解析を動機付けている。
LLM-as-a-judge と self-consistency prompting を用いた位相解析により,VLM はフレーム内認識において良好に機能するが,ビュー間で情報を統合すると急激に低下することが示された。
線形探索とエントロピー力学を含むインプシット解析は、タスク関連情報の進行的な損失と、正しい軌道と間違った軌道との不確実性を示す。
これらの結果は、VLMの空間的推論の認知的基盤的診断を提供し、多視点の空間的精神モデルがどのように形成され、推論フェーズにわたって劣化し、不安定化されるかを明らかにする。
ReMindView-Benchベンチマークはhttps://huggingface.co/datasets/Xue0823/ReMindView-Benchで、ベンチマーク構築とVLM推論分析のソースコードはhttps://github.com/pittisl/ReMindView-Benchで入手できる。
関連論文リスト
- REM: Evaluating LLM Embodied Spatial Reasoning through Multi-Frame Trajectories [19.741468026765062]
本稿では,空間推論のための制御可能な3次元環境を用いたベンチマークREM(Reasoning over Embodied Multi-Frame Trajectories)を紹介する。
REMは、オブジェクトの永続性/識別、空間的関係、動的エンボディされた視点における数値的追跡などの重要な側面を体系的に評価する。
評価の結果、最高の性能を示す現在のモデルでは、全体的な性能が期待できるが、人間によって容易に扱える程度の複雑性レベルでは信頼性が低下していることがわかった。
論文 参考訳(メタデータ) (2025-11-30T05:20:22Z) - ViewSpatial-Bench: Evaluating Multi-perspective Spatial Localization in Vision-Language Models [68.46716645478661]
視覚言語モデル (VLM) は視覚的内容の理解と推論において顕著な能力を示した。
現在のVLMは、主に自我中心の空間的推論(カメラの観点から)に優れるが、同中心の視点に一般化することができない。
マルチ視点空間位置認識評価に特化して設計された,初の総合的なベンチマークであるViewSpatial-Benchを紹介する。
論文 参考訳(メタデータ) (2025-05-27T17:59:26Z) - MMPerspective: Do MLLMs Understand Perspective? A Comprehensive Benchmark for Perspective Perception, Reasoning, and Robustness [50.33343842822694]
MMPerspectiveはマルチモーダルな大言語モデルの視点理解を評価するために設計された最初のベンチマークである。
このベンチマークでは,実世界の2,711の合成画像と5,083の問合せ対でキー機能を調べている。
43の最先端MLLMの総合評価により,重要な限界が明らかになった。
論文 参考訳(メタデータ) (2025-05-26T18:20:22Z) - Mind the Gap: Benchmarking Spatial Reasoning in Vision-Language Models [14.442394137843923]
本稿では,まず空間的推論のコア要素を記述した詳細な分析を行う。
次に、これらのモデルの性能を、合成画像と実画像の両方で評価する。
論文 参考訳(メタデータ) (2025-03-25T14:34:06Z) - Why Is Spatial Reasoning Hard for VLMs? An Attention Mechanism Perspective on Focus Areas [69.56484419619919]
機械的解釈可能性のレンズによる空間的推論の課題について検討する。
空間的推論の成功は、実際の物体の位置と注意を一致させるモデルの能力と強く相関している。
本研究の目的は,ADAPTVISを用いて,信頼性の高い地域への注意を喚起することである。
論文 参考訳(メタデータ) (2025-03-03T17:57:03Z) - Reframing Spatial Reasoning Evaluation in Language Models: A Real-World Simulation Benchmark for Qualitative Reasoning [4.422649561583363]
言語モデル(LM)における空間推論評価のための新しいベンチマークを提案する。
現実的な3Dシミュレーションデータに基づいており、様々なオブジェクトとそれらの空間的関係を持つ一連の多様な部屋レイアウトを提供する。
重要なコントリビューションは、論理ベースの一貫性チェックツールです。
論文 参考訳(メタデータ) (2024-05-23T21:22:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。