論文の概要: 3ViewSense: Spatial and Mental Perspective Reasoning from Orthographic Views in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2603.07751v1
- Date: Sun, 08 Mar 2026 17:57:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:15.191596
- Title: 3ViewSense: Spatial and Mental Perspective Reasoning from Orthographic Views in Vision-Language Models
- Title(参考訳): 3ViewSense:視覚・言語モデルにおけるオーソグラフィ視点からの空間的・精神的視点推論
- Authors: Shaoxiong Zhan, Yanlin Lai, Zheng Liu, Hai Lin, Shen Li, Xiaodong Cai, Zijian Lin, Wen Huang, Hai-Tao Zheng,
- Abstract要約: 視覚言語モデルは、2次元の観察からコヒーレントな3次元の心的表現を構築することができない。
オーソグラフィビューにおける空間推論の基盤となるフレームワークである textbf3ViewSense を紹介する。
空間的推論ベンチマークによる実験結果から,提案手法が既存のベースラインを著しく上回ることを示す。
- 参考スコア(独自算出の注目度): 16.924616915709123
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current Large Language Models have achieved Olympiad-level logic, yet Vision-Language Models paradoxically falter on elementary spatial tasks like block counting. This capability mismatch reveals a critical ``spatial intelligence gap,'' where models fail to construct coherent 3D mental representations from 2D observations. We uncover this gap via diagnostic analyses showing the bottleneck is a missing view-consistent spatial interface rather than insufficient visual features or weak reasoning. To bridge this, we introduce \textbf{3ViewSense}, a framework that grounds spatial reasoning in Orthographic Views. Drawing on engineering cognition, we propose a ``Simulate-and-Reason'' mechanism that decomposes complex scenes into canonical orthographic projections to resolve geometric ambiguities. By aligning egocentric perceptions with these allocentric references, our method facilitates explicit mental rotation and reconstruction. Empirical results on spatial reasoning benchmarks demonstrate that our method significantly outperforms existing baselines, with consistent gains on occlusion-heavy counting and view-consistent spatial reasoning. The framework also improves the stability and consistency of spatial descriptions, offering a scalable path toward stronger spatial intelligence in multimodal systems.
- Abstract(参考訳): 現在の大規模言語モデルはオリンピアードレベルの論理を達成しているが、視覚言語モデルはブロックカウントのような基本的な空間的タスクでパラドックス的に失敗している。
この能力のミスマッチは、モデルが2次元の観察からコヒーレントな3次元の心的表現を構築するのに失敗する「空間的知能ギャップ」を批判的に明らかにする。
このギャップは、視覚的特徴の不足や弱い推論よりも、視界に一貫性のある空間的インターフェースが欠如していることが診断分析によって明らかになった。
これを埋めるために、オーソグラフィビューで空間的推論を基盤とするフレームワークである \textbf{3ViewSense} を導入する。
工学的認知に基づいて,複雑なシーンを正準正弦投影に分解して幾何学的曖昧さを解消する<Simulate-and-Reason'機構を提案する。
本手法は、自我中心の知覚をこれらの同心中心の参照と整合させることにより、明示的な心的回転と再構築を促進する。
空間的推論ベンチマークによる実験結果から,提案手法は既存の基準線を著しく上回り,オクルージョン重計数やビュー一貫性の空間的推論に一貫した利得が得られた。
このフレームワークはまた、空間記述の安定性と一貫性を改善し、マルチモーダルシステムにおけるより強力な空間知性へのスケーラブルなパスを提供する。
関連論文リスト
- Keep it SymPL: Symbolic Projective Layout for Allocentric Spatial Reasoning in Vision-Language Models [5.961445903498366]
我々は、VLMがうまく扱える象徴的な形式にアロセントリックな推論を再構成するフレームワーク、Projective Layout (SymPL)を紹介した。
実験により、この改革により、同心性タスクと自我性タスクの両方のパフォーマンスが大幅に向上することが示された。
論文 参考訳(メタデータ) (2026-02-22T10:18:54Z) - Thinking with Blueprints: Assisting Vision-Language Models in Spatial Reasoning via Structured Object Representation [52.605647992080485]
空間的推論は視覚的知覚から意味的理解へと視覚言語モデルを前進させる。
物体中心の青写真という認知概念を空間的推論に統合する。
我々の手法は既存の視覚言語モデルより一貫して優れている。
論文 参考訳(メタデータ) (2026-01-05T10:38:26Z) - Seeing through Imagination: Learning Scene Geometry via Implicit Spatial World Modeling [68.14113731953971]
本稿では,人間のような想像力をシミュレートするインプリシット・スパットIaLwOrldモデリングパラダイムMILOを紹介する。
提案手法は,複数のベースラインとベンチマークにまたがる空間推論能力を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2025-12-01T16:01:41Z) - Enhancing Spatial Reasoning in Multimodal Large Language Models through Reasoning-based Segmentation [50.81551581148339]
本稿では、推論に基づくセグメンテーションフレームワークRelevant Reasoning(R$2$S)を紹介する。
推論に基づくセグメンテーションデータセットである3D ReasonSegについても紹介する。
どちらの実験も、R$2$Sと3D ReasonSegは、空間的推論能力の強い3D点雲知覚を効果的に達成することを示した。
論文 参考訳(メタデータ) (2025-06-29T06:58:08Z) - Mind the Gap: Benchmarking Spatial Reasoning in Vision-Language Models [14.442394137843923]
本稿では,まず空間的推論のコア要素を記述した詳細な分析を行う。
次に、これらのモデルの性能を、合成画像と実画像の両方で評価する。
論文 参考訳(メタデータ) (2025-03-25T14:34:06Z) - Why Is Spatial Reasoning Hard for VLMs? An Attention Mechanism Perspective on Focus Areas [69.56484419619919]
機械的解釈可能性のレンズによる空間的推論の課題について検討する。
空間的推論の成功は、実際の物体の位置と注意を一致させるモデルの能力と強く相関している。
本研究の目的は,ADAPTVISを用いて,信頼性の高い地域への注意を喚起することである。
論文 参考訳(メタデータ) (2025-03-03T17:57:03Z) - SPHERE: Unveiling Spatial Blind Spots in Vision-Language Models Through Hierarchical Evaluation [7.659514491338669]
現在の視覚言語モデルは、基本的な空間的手がかりを把握できるが、人間のような理解や現実世界の応用に必要な多次元空間的推論に苦慮している。
我々は,新しい人間注釈付きデータセットをサポートする階層的評価フレームワークであるSPHEREを開発した。
最先端モデルのベンチマーク評価では、特に距離と近接性についての推論において、重大な欠陥が示される。
論文 参考訳(メタデータ) (2024-12-17T09:10:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。