論文の概要: Keep it SymPL: Symbolic Projective Layout for Allocentric Spatial Reasoning in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2602.19117v1
- Date: Sun, 22 Feb 2026 10:18:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.490315
- Title: Keep it SymPL: Symbolic Projective Layout for Allocentric Spatial Reasoning in Vision-Language Models
- Title(参考訳): 記号PLを保ち続ける:視覚・言語モデルにおける同心空間推論のための記号的射影レイアウト
- Authors: Jaeyun Jang, Seunghui Shin, Taeho Park, Hyoseok Hwang,
- Abstract要約: 我々は、VLMがうまく扱える象徴的な形式にアロセントリックな推論を再構成するフレームワーク、Projective Layout (SymPL)を紹介した。
実験により、この改革により、同心性タスクと自我性タスクの両方のパフォーマンスが大幅に向上することが示された。
- 参考スコア(独自算出の注目度): 5.961445903498366
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Perspective-aware spatial reasoning involves understanding spatial relationships from specific viewpoints-either egocentric (observer-centered) or allocentric (object-centered). While vision-language models (VLMs) perform well in egocentric settings, their performance deteriorates when reasoning from allocentric viewpoints, where spatial relations must be inferred from the perspective of objects within the scene. In this study, we address this underexplored challenge by introducing Symbolic Projective Layout (SymPL), a framework that reformulates allocentric reasoning into symbolic-layout forms that VLMs inherently handle well. By leveraging four key factors-projection, abstraction, bipartition, and localization-SymPL converts allocentric questions into structured symbolic-layout representations. Extensive experiments demonstrate that this reformulation substantially improves performance in both allocentric and egocentric tasks, enhances robustness under visual illusions and multi-view scenarios, and that each component contributes critically to these gains. These results show that SymPL provides an effective and principled approach for addressing complex perspective-aware spatial reasoning.
- Abstract(参考訳): パースペクティブ・アウェアな空間的推論は、エゴセントリック(オブザーバ中心)またはアロセントリック(オブジェクト中心)のいずれかの特定の視点から空間的関係を理解する。
視覚言語モデル(VLM)は、エゴセントリックな環境では良好に機能するが、その性能は、空間的関係をシーン内の物体の視点から推定しなければならない、同心的な視点から考えると低下する。
本研究では,VLMが本質的によく扱う記号型レイアウト形式にアロセントリック推論を再構成するSymPL(SymPL)を導入することで,この未解決課題に対処する。
4つの重要な因子の投影、抽象化、分割、ローカライゼーションを活用することで、SymPLはアロセント中心の質問を構造化された記号-レイアウト表現に変換する。
広汎な実験により、この改革は、全中心的タスクと自中心的タスクの両方のパフォーマンスを大幅に改善し、視覚錯覚と多視点シナリオ下での堅牢性を高め、各コンポーネントがこれらの利益に重要な貢献をすることを示した。
これらの結果から,SymPLは複雑な視点を考慮した空間的推論に効果的かつ原則的なアプローチを提供することが示された。
関連論文リスト
- Allocentric Perceiver: Disentangling Allocentric Reasoning from Egocentric Visual Priors via Frame Instantiation [41.434638833165494]
Allocentric Perceiverはトレーニング不要の戦略で、1つ以上の画像から、既成の幾何学の専門家でメトリクスの3D状態を復元する。
Allocentric Perceriverは暗黙の推論から明示的な計算へと精神的な回転をオフロードする。
論文 参考訳(メタデータ) (2026-02-05T15:45:39Z) - Cognitively-Inspired Tokens Overcome Egocentric Bias in Multimodal Models [0.0]
マルチモーダル言語モデル(MLM)は、他のエージェントの視覚的視点を採用する必要がある空間的推論において失敗する。
人間の空間認識にインスパイアされた視点トークンは,(1)具体的身体キーポイント・キュー,あるいは(2)心的回転を支える抽象的表現によって,向きを符号化する。
総合的および自然主義的なベンチマーク全体において、パースペクティブトークンは精度を向上し、ローテーションベースのトークンは非人間参照エージェントに一般化される。
論文 参考訳(メタデータ) (2026-01-23T00:21:27Z) - Thinking with Blueprints: Assisting Vision-Language Models in Spatial Reasoning via Structured Object Representation [52.605647992080485]
空間的推論は視覚的知覚から意味的理解へと視覚言語モデルを前進させる。
物体中心の青写真という認知概念を空間的推論に統合する。
我々の手法は既存の視覚言語モデルより一貫して優れている。
論文 参考訳(メタデータ) (2026-01-05T10:38:26Z) - Reasoning Path and Latent State Analysis for Multi-view Visual Spatial Reasoning: A Cognitive Science Perspective [17.592210658831902]
空間推論は、人間の知性の中核的な側面であり、3D環境における知覚、推論、計画を可能にする。
現在の視覚言語モデル(VLM)は、多視点設定における空間的推論のための幾何学的コヒーレンスとクロスビュー整合性を維持するのに苦労している。
本稿では,VLMが相補的な視点で空間的メンタルモデルを構築し,調整し,維持する方法を評価するための,認知的基盤を持つベンチマークであるReMindView-Benchを紹介する。
論文 参考訳(メタデータ) (2025-12-02T02:21:29Z) - Artemis: Structured Visual Reasoning for Perception Policy Learning [64.57381337070616]
経験的観察は、純粋に言語的な中間的推論が知覚タスクのパフォーマンスを低下させることを示している。
本稿では,構造化提案に基づく推論を行う認知政治学習フレームワークであるArtemisを紹介する。
論文 参考訳(メタデータ) (2025-12-01T18:45:30Z) - ViewSpatial-Bench: Evaluating Multi-perspective Spatial Localization in Vision-Language Models [68.46716645478661]
視覚言語モデル (VLM) は視覚的内容の理解と推論において顕著な能力を示した。
現在のVLMは、主に自我中心の空間的推論(カメラの観点から)に優れるが、同中心の視点に一般化することができない。
マルチ視点空間位置認識評価に特化して設計された,初の総合的なベンチマークであるViewSpatial-Benchを紹介する。
論文 参考訳(メタデータ) (2025-05-27T17:59:26Z) - MMPerspective: Do MLLMs Understand Perspective? A Comprehensive Benchmark for Perspective Perception, Reasoning, and Robustness [50.33343842822694]
MMPerspectiveはマルチモーダルな大言語モデルの視点理解を評価するために設計された最初のベンチマークである。
このベンチマークでは,実世界の2,711の合成画像と5,083の問合せ対でキー機能を調べている。
43の最先端MLLMの総合評価により,重要な限界が明らかになった。
論文 参考訳(メタデータ) (2025-05-26T18:20:22Z) - SPHERE: Unveiling Spatial Blind Spots in Vision-Language Models Through Hierarchical Evaluation [7.659514491338669]
現在の視覚言語モデルは、基本的な空間的手がかりを把握できるが、人間のような理解や現実世界の応用に必要な多次元空間的推論に苦慮している。
我々は,新しい人間注釈付きデータセットをサポートする階層的評価フレームワークであるSPHEREを開発した。
最先端モデルのベンチマーク評価では、特に距離と近接性についての推論において、重大な欠陥が示される。
論文 参考訳(メタデータ) (2024-12-17T09:10:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。