論文の概要: Attention in Space: Functional Roles of VLM Heads for Spatial Reasoning
- arxiv url: http://arxiv.org/abs/2603.20662v1
- Date: Sat, 21 Mar 2026 05:36:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.025839
- Title: Attention in Space: Functional Roles of VLM Heads for Spatial Reasoning
- Title(参考訳): 宇宙における注意:空間推論におけるVLMヘッドの機能的役割
- Authors: Xueqi Ma, Shuo Yang, Yanbei Jiang, Shu Liu, Zhenzhen Liu, Jiayang Ao, Xingjun Ma, Sarah Monazam Erfani, James Bailey,
- Abstract要約: 複雑な空間推論質問をステップバイステップのサブクエストに分解するデータセットであるCogVSRを紹介する。
本研究は,これらの機能に特有なアテンションヘッドを識別・特徴付けるための探索フレームワークを開発する。
本研究では,潜在空間ヘッドを活性化し,空間理解を改善する手法を提案する。
- 参考スコア(独自算出の注目度): 43.03674069044073
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite remarkable advances in large Vision-Language Models (VLMs), spatial reasoning remains a persistent challenge. In this work, we investigate how attention heads within VLMs contribute to spatial reasoning by analyzing their functional roles through a mechanistic interpretability lens. We introduce CogVSR, a dataset that decomposes complex spatial reasoning questions into step-by-step subquestions designed to simulate human-like reasoning via a chain-of-thought paradigm, with each subquestion linked to specific cognitive functions such as spatial perception or relational reasoning. Building on CogVSR, we develop a probing framework to identify and characterize attention heads specialized for these functions. Our analysis across diverse VLM families reveals that these functional heads are universally sparse, vary in number and distribution across functions. Notably, spatially specialized heads are fewer than those for other cognitive functions, highlighting their scarcity. We propose methods to activate latent spatial heads, improving spatial understanding. Intervention experiments further demonstrate their critical role in spatial reasoning: removing functional heads leads to performance degradation, while emphasizing them enhances accuracy. This study provides new interpretability driven insights into how VLMs attend to space and paves the way for enhancing complex spatial reasoning in multimodal models.
- Abstract(参考訳): 大きな視覚言語モデル(VLM)の顕著な進歩にもかかわらず、空間的推論は永続的な課題である。
本研究では,VLM内の注意頭が空間的推論にどのように寄与するかを,機械的解釈性レンズを用いて解析することによって検討する。
我々は,複雑な空間的推論質問を段階的に分解するデータセットであるCogVSRを紹介し,空間的知覚や関係的推論といった特定の認知機能に関連付けられた,チェーン・オブ・シント・パラダイムを通じて人間のような推論をシミュレートする。
CogVSRを基盤として,これらの機能に特有な注意ヘッドを識別・特徴付けるための探索フレームワークを開発した。
多様なVLMファミリーをまたいだ分析により,これらの機能的頭部は普遍的に疎結合であり,機能間の数や分布が異なることが明らかとなった。
特に、空間的に特殊化された頭は、他の認知機能よりも小さく、その不足を強調している。
本研究では,潜在空間ヘッドを活性化し,空間理解を改善する手法を提案する。
干渉実験は空間的推論においてその重要な役割を更に証明する: 機能的ヘッドの除去は性能の低下につながるが、それらを強調することで精度が向上する。
この研究は、VLMが空間にどのように参加するかに関する新しい解釈可能性駆動の洞察を与え、マルチモーダルモデルにおける複雑な空間的推論を強化するための道を開く。
関連論文リスト
- Investigating The Functional Roles of Attention Heads in Vision Language Models: Evidence for Reasoning Modules [76.21320451720764]
複雑なマルチモーダル質問をステップバイステップのサブクエストに分解するデータセットであるCogVisionを紹介した。
探索に基づく手法を用いて,これらの機能に特化して機能的頭部として特徴付けるアテンションヘッドを同定する。
分析の結果、これらの機能ヘッドは普遍的に疎結合であり、機能間の数や分布が異なり、相互作用や階層的な組織を仲介することがわかった。
論文 参考訳(メタデータ) (2025-12-11T05:42:53Z) - Cognitive Mirrors: Exploring the Diverse Functional Roles of Attention Heads in LLM Reasoning [54.12174882424842]
大規模言語モデル(LLM)は、様々なタスクにおいて最先端のパフォーマンスを達成したが、内部メカニズムに関してはほとんど不透明である。
本稿では,注目者の役割と行動を体系的に分析する新しい解釈可能性フレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-03T10:24:34Z) - How Far are VLMs from Visual Spatial Intelligence? A Benchmark-Driven Perspective [103.44502230776352]
視覚言語モデル(VLM)における視覚空間推論(VSR)の系統的研究について述べる。
空間インテリジェンスを3つのレベル,すなわち基本的な知覚,空間理解,空間計画,および空間インテリジェンスベンチマークSIBenchに分類した。
論文 参考訳(メタデータ) (2025-09-23T12:00:14Z) - Scaling and Beyond: Advancing Spatial Reasoning in MLLMs Requires New Recipes [84.1059652774853]
MLLM(Multimodal Large Language Models)は、一般的な視覚言語タスクにおいて印象的な性能を示す。
近年の研究では、空間的推論能力の限界が明らかにされている。
この空間的推論の欠如は、MLLMが物理的世界と効果的に相互作用する能力を著しく制限する。
論文 参考訳(メタデータ) (2025-04-21T11:48:39Z) - Beyond Semantics: Rediscovering Spatial Awareness in Vision-Language Models [13.768090541138571]
視覚言語モデル(VLM)はオブジェクトの識別と記述に優れるが、しばしば空間的推論では失敗する。
視覚トークンの埋め込みは、テキストトークンよりもはるかに大きな規範を持っている。
視覚トークンとシステムが注目を惹きつけることを明らかにするツール。
論文 参考訳(メタデータ) (2025-03-21T17:51:14Z) - Sparkle: Mastering Basic Spatial Capabilities in Vision Language Models Elicits Generalization to Spatial Reasoning [36.588008658084895]
視覚言語モデル(VLM)は多くのタスクでうまく機能するが、しばしば空間的推論では失敗する。
評価の結果, 現状のVLMでは, 複合空間問題に対する不正確な答えが得られていることがわかった。
VLMにおける2次元空間推論は,基本空間能力のみに基づいて訓練することで向上する。
論文 参考訳(メタデータ) (2024-10-21T16:26:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。