論文の概要: Investigating The Functional Roles of Attention Heads in Vision Language Models: Evidence for Reasoning Modules
- arxiv url: http://arxiv.org/abs/2512.10300v1
- Date: Thu, 11 Dec 2025 05:42:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 16:15:42.201475
- Title: Investigating The Functional Roles of Attention Heads in Vision Language Models: Evidence for Reasoning Modules
- Title(参考訳): 視覚言語モデルにおける注意頭の役割の解明:モジュールの推論のための証拠
- Authors: Yanbei Jiang, Xueqi Ma, Shu Liu, Sarah Monazam Erfani, Tongliang Liu, James Bailey, Jey Han Lau, Krista A. Ehinger,
- Abstract要約: 複雑なマルチモーダル質問をステップバイステップのサブクエストに分解するデータセットであるCogVisionを紹介した。
探索に基づく手法を用いて,これらの機能に特化して機能的頭部として特徴付けるアテンションヘッドを同定する。
分析の結果、これらの機能ヘッドは普遍的に疎結合であり、機能間の数や分布が異なり、相互作用や階層的な組織を仲介することがわかった。
- 参考スコア(独自算出の注目度): 76.21320451720764
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite excelling on multimodal benchmarks, vision-language models (VLMs) largely remain a black box. In this paper, we propose a novel interpretability framework to systematically analyze the internal mechanisms of VLMs, focusing on the functional roles of attention heads in multimodal reasoning. To this end, we introduce CogVision, a dataset that decomposes complex multimodal questions into step-by-step subquestions designed to simulate human reasoning through a chain-of-thought paradigm, with each subquestion associated with specific receptive or cognitive functions such as high-level visual reception and inference. Using a probing-based methodology, we identify attention heads that specialize in these functions and characterize them as functional heads. Our analysis across diverse VLM families reveals that these functional heads are universally sparse, vary in number and distribution across functions, and mediate interactions and hierarchical organization. Furthermore, intervention experiments demonstrate their critical role in multimodal reasoning: removing functional heads leads to performance degradation, while emphasizing them enhances accuracy. These findings provide new insights into the cognitive organization of VLMs and suggest promising directions for designing models with more human-aligned perceptual and reasoning abilities.
- Abstract(参考訳): マルチモーダルベンチマークに優れているにもかかわらず、視覚言語モデル(VLM)はブラックボックスのままである。
本稿では,VLMの内部機構を体系的に解析する新しい解釈可能性フレームワークを提案する。
この目的のために、複雑なマルチモーダル質問をステップバイステップのサブクエストに分解するデータセットであるCogVisionを導入する。
探索に基づく手法を用いて,これらの機能に特化して機能的頭部として特徴付けるアテンションヘッドを同定する。
多様なVLMファミリーをまたいだ分析により,これらの機能的頭部は普遍的に疎結合であり,機能間の数や分布が異なり,相互作用や階層的組織を媒介することが明らかとなった。
さらに、介入実験は多モーダル推論において重要な役割を示す: 機能的ヘッドの除去は性能の低下につながるが、それらを強調することで精度が向上する。
これらの知見は、VLMの認知的組織に対する新たな洞察を与え、より人間に近い知覚能力と推論能力を持つモデルを設計するための有望な方向性を提案する。
関連論文リスト
- From Perception to Cognition: A Survey of Vision-Language Interactive Reasoning in Multimodal Large Language Models [66.36007274540113]
MLLM(Multimodal Large Language Models)は、物理的世界に対する深い人間的な理解と相互作用を達成するための試みである。
情報取得(知覚)や推論(認知)を行う際、しばしば浅く不整合な統合を示す。
この調査では、新しい統合分析フレームワーク「知覚から認知へ」を紹介した。
論文 参考訳(メタデータ) (2025-09-29T18:25:40Z) - Caption This, Reason That: VLMs Caught in the Middle [3.4820139118440676]
VLM(Vision-Language Models)は近年,視覚的理解の進歩を目覚ましいものにしている。
カウントやリレーショナル推論といった視覚的なタスクでは、人間の能力が遅れている。
認識,注意,記憶など,コア認知軸に沿ったVLMのパフォーマンスを解析する。
論文 参考訳(メタデータ) (2025-05-24T14:25:48Z) - Human Cognitive Benchmarks Reveal Foundational Visual Gaps in MLLMs [65.93003087656754]
VisFactorは、よく確立された認知心理学評価から20の視覚中心のサブテストをデジタル化するベンチマークである。
GPT、Gemini、Claude、LLaMA、Qwen、SEEDファミリーから20のフロンティアマルチモーダル言語モデル(MLLM)を評価する。
最高のパフォーマンスモデルは100点中25.19点のスコアしか得られず、精神的な回転、空間的関係推論、図形の識別といったタスクに一貫して失敗する。
論文 参考訳(メタデータ) (2025-02-23T04:21:32Z) - A Cognitive Paradigm Approach to Probe the Perception-Reasoning Interface in VLMs [3.2228025627337864]
本稿では,視覚言語モデル(VLM)における知覚推論インタフェースを識別するための構造化評価フレームワークを提案する。
本稿では,人間の問題解決戦略を反映した3つの評価パラダイムを提案する。
このフレームワークを適用したCAは、リッチで独立に生成された記述を推論するために強力な言語モデルを活用し、新しい最先端(SOTA)パフォーマンスを実現することを実証する。
論文 参考訳(メタデータ) (2025-01-23T12:42:42Z) - Attention Heads of Large Language Models: A Survey [10.136767972375639]
我々は,大規模言語モデル (LLM) の内部的推論過程を体系的に検討し,その役割と機構を解明することを目的としている。
まず,人間の思考プロセスにインスパイアされた新しい4段階のフレームワーク,知識のリコール,文脈内同定,潜在推論,表現準備を紹介する。
本稿では,これらの特殊ヘッドの発見に使用する実験手法を,モデリング自由法とモデリング要求法という2つのカテゴリに分けて分析する。
論文 参考訳(メタデータ) (2024-09-05T17:59:12Z) - Cantor: Inspiring Multimodal Chain-of-Thought of MLLM [83.6663322930814]
視覚的コンテキスト獲得と論理的推論の集約は、視覚的推論タスクに取り組む上で重要であると我々は主張する。
我々はCantorと呼ばれる革新的なマルチモーダルCoTフレームワークを提案し、その特徴は知覚決定アーキテクチャである。
提案手法の有効性を実証し,マルチモーダルCoT性能の大幅な向上を示した。
論文 参考訳(メタデータ) (2024-04-24T17:59:48Z) - Multilingual Multi-Aspect Explainability Analyses on Machine Reading Comprehension Models [76.48370548802464]
本稿では,マルチヘッド自己注意と最終MRCシステム性能の関係を検討するために,一連の解析実験を実施することに焦点を当てる。
問合せ及び問合せ理解の注意が問合せプロセスにおいて最も重要なものであることが判明した。
包括的可視化とケーススタディを通じて、注意マップに関するいくつかの一般的な知見も観察し、これらのモデルがどのように問題を解くかを理解するのに役立ちます。
論文 参考訳(メタデータ) (2021-08-26T04:23:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。