論文の概要: Causal Tracing of Object Representations in Large Vision Language Models: Mechanistic Interpretability and Hallucination Mitigation
- arxiv url: http://arxiv.org/abs/2511.05923v2
- Date: Wed, 12 Nov 2025 01:24:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 16:10:52.859028
- Title: Causal Tracing of Object Representations in Large Vision Language Models: Mechanistic Interpretability and Hallucination Mitigation
- Title(参考訳): 大規模視覚言語モデルにおける対象表現の因果的追跡:機械的解釈可能性と幻覚軽減
- Authors: Qiming Li, Zekai Ye, Xiaocheng Feng, Weihong Zhong, Weitao Ma, Xiachong Feng,
- Abstract要約: 本稿では,視覚的物体知覚に対する因果的影響を系統的に定量化する,細粒度クロスモーダル因果追跡(FCCT)フレームワークを提案する。
FCCTは、視覚およびテキストトークンの全範囲、MHSA(Multi-head Self-attention)、FFN(Feed-forward Network)、隠された状態を含む3つのコアモデルコンポーネントを詳細に分析する。
我々の分析は、中間層における最後のトークンのMHSAが、クロスモーダル情報を集約する上で重要な役割を担い、FFNは3段階の階層的な保存の進行を示すことを初めて示すものである。
- 参考スコア(独自算出の注目度): 27.62798534410331
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the remarkable advancements of Large Vision-Language Models (LVLMs), the mechanistic interpretability remains underexplored. Existing analyses are insufficiently comprehensive and lack examination covering visual and textual tokens, model components, and the full range of layers. This limitation restricts actionable insights to improve the faithfulness of model output and the development of downstream tasks, such as hallucination mitigation. To address this limitation, we introduce Fine-grained Cross-modal Causal Tracing (FCCT) framework, which systematically quantifies the causal effects on visual object perception. FCCT conducts fine-grained analysis covering the full range of visual and textual tokens, three core model components including multi-head self-attention (MHSA), feed-forward networks (FFNs), and hidden states, across all decoder layers. Our analysis is the first to demonstrate that MHSAs of the last token in middle layers play a critical role in aggregating cross-modal information, while FFNs exhibit a three-stage hierarchical progression for the storage and transfer of visual object representations. Building on these insights, we propose Intermediate Representation Injection (IRI), a training-free inference-time technique that reinforces visual object information flow by precisely intervening on cross-modal representations at specific components and layers, thereby enhancing perception and mitigating hallucination. Consistent improvements across five widely used benchmarks and LVLMs demonstrate IRI achieves state-of-the-art performance, while preserving inference speed and other foundational performance.
- Abstract(参考訳): LVLM(Large Vision-Language Models)の顕著な進歩にもかかわらず、機械的解釈性はまだ未熟である。
既存の分析は包括的で、視覚的およびテキスト的トークン、モデルコンポーネント、および全層にわたる検査を欠いている。
この制限は、モデル出力の忠実さと幻覚の緩和のような下流タスクの開発を改善するために実行可能な洞察を制限する。
この制限に対処するために,視覚的物体知覚に対する因果効果を体系的に定量化する,細粒度クロスモーダル因果追跡(FCCT)フレームワークを導入する。
FCCTは、視覚およびテキストトークンの全範囲、MHSA(Multi-head Self-attention)、FFN(Feed-forward Network)、隠された状態を含む3つのコアモデルコンポーネントを詳細に分析する。
我々の分析は、中間層における最後のトークンのMHSAが、相互情報を集約する上で重要な役割を担っていることを初めて示し、FFNは、視覚オブジェクト表現の保存と転送のために3段階の階層的進行を示す。
これらの知見に基づいて、特定の構成要素や層におけるクロスモーダル表現を的確に介入することで視覚オブジェクト情報の流れを補強し、知覚を高め、幻覚を緩和する訓練自由推論時間技術であるIntermediate Representation Injection (IRI)を提案する。
広く使用されている5つのベンチマークとLVLMの一貫性の向上により、IRIは推論速度やその他の基礎的なパフォーマンスを維持しながら、最先端のパフォーマンスを実現している。
関連論文リスト
- LTD-Bench: Evaluating Large Language Models by Letting Them Draw [57.237152905238084]
LTD-Benchは、大規模言語モデル(LLM)のブレークスルーベンチマークである。
LLMの評価を抽象的なスコアから直接観察可能な視覚出力に変換する。
LTD-Benchの視覚出力は強力な診断分析を可能にし、モデル類似性を調べるための潜在的アプローチを提供する。
論文 参考訳(メタデータ) (2025-11-04T08:11:23Z) - CIR-CoT: Towards Interpretable Composed Image Retrieval via End-to-End Chain-of-Thought Reasoning [93.05917922306196]
Composed Image Retrieval (CIR) は、参照画像と修正テキストから対象画像を見つけることを目的としている。
CIR-CoTは、明示的なChain-of-Thought (CoT)推論を統合するために設計された最初のエンドツーエンド検索指向MLLMである。
論文 参考訳(メタデータ) (2025-10-09T09:41:45Z) - Understanding Language Prior of LVLMs by Contrasting Chain-of-Embedding [12.42420657573375]
大規模視覚言語モデル(LVLM)における言語の最初の体系的解析について述べる。
それぞれのモデルが視覚統合ポイント(VIP)を示しており、視覚情報が隠れた表現を意味的に再形成し、デコードに影響を与える重要な層である。
9つの現代のLVLMと6つのベンチマークにまたがる54のモデル-データセットの組み合わせにおいて、VIPは一貫して出現し、TVIは言語の強さを確実に予測することを示した。
論文 参考訳(メタデータ) (2025-09-27T02:12:05Z) - Explaining multimodal LLMs via intra-modal token interactions [55.27436637894534]
MLLM(Multimodal Large Language Models)は、様々な視覚言語タスクにおいて顕著な成功を収めているが、その内部決定機構は十分に理解されていない。
モーダル内相互作用を利用した解釈可能性の向上を提案する。
論文 参考訳(メタデータ) (2025-09-26T14:39:13Z) - GLIMPSE: Holistic Cross-Modal Explainability for Large Vision-Language Models [0.0]
GLIMPSEはLVLM出力を最も関連性の高い視覚的エビデンスとテキスト信号に共同で属性付けるモデルに依存しないフレームワークである。
GLIMPSEは、勾配重み付けされた注意、適応層伝播、および関連重み付けされたトークン集合を融合させ、全体的な応答レベル熱マップを生成する。
我々は,LVLMのクロスモーダル属性,トレース推論のダイナミクス,系統的ミスアライメントの分析,幻覚と偏見の診断,透明性の確保に関する詳細な知見を明らかにするための分析的アプローチを実証する。
論文 参考訳(メタデータ) (2025-06-23T18:00:04Z) - "Principal Components" Enable A New Language of Images [79.45806370905775]
証明可能なPCAのような構造を潜在トークン空間に組み込む新しい視覚トークン化フレームワークを導入する。
提案手法は、最先端の再構築性能を実現し、人間の視覚システムとの整合性を向上する。
論文 参考訳(メタデータ) (2025-03-11T17:59:41Z) - Instruction-Guided Fusion of Multi-Layer Visual Features in Large Vision-Language Models [50.98559225639266]
6つのタスクカテゴリにまたがる18のベンチマークを用いて,異なるエンコーダ層からの視覚的特徴の寄与について検討した。
この結果から,多層構造はタスク依存性の相補的な長所を提供し,均一な融合が最適以下の性能をもたらすことが明らかとなった。
テキスト命令に基づいて動的に多層視覚特徴を統合する命令誘導型視覚アグリゲータを提案する。
論文 参考訳(メタデータ) (2024-12-26T05:41:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。