Fugu-MT 論文翻訳(概要): Causal Probing for Internal Visual Representations in Multimodal Large Language Models

論文の概要: Causal Probing for Internal Visual Representations in Multimodal Large Language Models

arxiv url: http://arxiv.org/abs/2605.05593v1
Date: Thu, 07 May 2026 02:25:46 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-08 22:27:11.488409
Title: Causal Probing for Internal Visual Representations in Multimodal Large Language Models
Title（参考訳）: マルチモーダル大言語モデルにおける内部視覚表現の因果探索
Authors: Zehao Deng, Tianjie Ju, Zheng Wu, Liangbo He, Jun Lan, Huijia Zhu, Weiqiang Wang, Zhuosheng Zhang,
Abstract要約: 本稿では,アクティベーションステアリングに基づく内部視覚表現の探索と操作のための因果的枠組みを提案する。抽象概念はグローバルに分散しているのに対し, 実体は異なる局所記憶を示す。また,MLLMは幾何学的関係の認識に成功しているが,静的な視覚的特徴としてのみ扱う。
参考スコア（独自算出の注目度）: 31.22767130432085
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Despite the remarkable success of Multimodal Large Language Models (MLLMs) across diverse tasks, the internal mechanisms governing how they encode and ground distinct visual concepts remain poorly understood. To bridge this gap, we propose a causal framework based on activation steering to actively probe and manipulate internal visual representations. Through systematic intervention across four visual concept categories, our results reveal a divergence in concept encoding: entities exhibit distinct localized memorization, whereas abstract concepts are globally distributed across the network. Critically, this divergence uncovers a mechanistic driver of scaling laws: increasing model depth is indispensable for encoding distributed and complex abstract concepts, whereas entity localization remains remarkably invariant to scale. Furthermore, reverse steering uncovers that blocking explicit output triggers a surge in latent activations, exposing a compensatory mechanism between perception and generation. Finally, extending our analysis to visual reasoning, we expose a disconnect between perception and reasoning although MLLMs successfully recognize geometric relations, they treat them merely as static visual features, failing to trigger the procedural execution necessary for abstract problem-solving.
Abstract（参考訳）: MLLM(Multimodal Large Language Models)は、様々なタスクにまたがる顕著な成功にもかかわらず、それらがエンコードし、異なる視覚概念を基盤とする内部メカニズムは、まだ理解されていないままである。このギャップを埋めるために,アクティベーションステアリングに基づく因果的枠組みを提案し,内部視覚表現を積極的に探索し操作する。本研究は,4つの視覚概念カテゴリの体系的な介入を通じて,概念エンコーディングのばらつきを明らかにした。モデル深度を増大させることは、分散された複雑な抽象概念を符号化するのに不可欠である一方、エンティティの局所化はスケールに対して著しく不変である。さらに、逆ステアリングは、明示的な出力をブロックすることで潜在活性化が急増し、知覚と生成の間の補償機構が露出することを明らかにする。最後に,解析を視覚的推論に拡張することで,MLLMは幾何学的関係の認識に成功しているが,これらを静的な視覚的特徴として扱うだけで,抽象的な問題解決に必要な手続き実行を誘導することができない。

関連論文リスト

Predictive Regularization Against Visual Representation Degradation in Multimodal Large Language Models [84.94288033791346]
我々は,MLLMにおける視覚的表現の劣化という,広範にわたる課題を明らかにするために,詳細な診断分析を行う。我々は,この現象を,単一のテキスト生成目標によって引き起こされる視覚的犠牲とみなし,そのモデルが解答生成の最適化のためにその視覚的忠実度を損なう。本研究では,初期視覚特性を予測するために,劣化した中間特徴を強制的に予測し,MLLMの内部表現に固有の視覚特性を維持するための予測正則化を提案する。
論文参考訳（メタデータ） (2026-03-21T13:10:37Z)
Perception-Aware Multimodal Spatial Reasoning from Monocular Images [57.42071289037214]
単眼画像からの空間的推論は自律運転には不可欠です現在のヴィジュアルランゲージモデル(VLM)は、微粒な幾何学的知覚に苦慮している。本稿では,VLMを明示的な対象中心の接地能力を持つ知覚認識型マルチモーダル推論フレームワークを提案する。
論文参考訳（メタデータ） (2026-03-07T02:05:12Z)
Multimodal Latent Reasoning via Hierarchical Visual Cues Injection [16.779425236020433]
この研究は、頑健な推論は潜在空間内で進化し、シームレスにマルチモーダル信号を統合することを示唆している。表面的な文章の合理性に依存することなく、意図的な「スロー思考」を具現化する新しい枠組みを提案する。視覚知識を取り入れたテストタイムスケーリングは有効であり,階層的な情報の統合は複雑な場面に対するモデルの理解を著しく向上させることを示す。
論文参考訳（メタデータ） (2026-02-05T06:31:12Z)
The Geometry of Representational Failures in Vision Language Models [5.7337123720860435]
VLM(Vision-Language Models)は、多目的視覚タスクにおけるファズリング障害を示す。これらの誤りは「バインディング問題」のような人間の認知的制約を反映しているオープンウェイトVLMの表現幾何学を解析し,メカニスティックな知見を提案する。
論文参考訳（メタデータ） (2026-02-02T12:20:04Z)
FRISM: Fine-Grained Reasoning Injection via Subspace-Level Model Merging for Vision-Language Models [20.47311573790516]
FRISM(Fine-fine Reasoning Injection via Subspace-level Model Merging)を提案する。実験により、FRISMはモデルの本来の視覚能力を損なうことなく推論能力を効果的に改善することが示された。
論文参考訳（メタデータ） (2026-01-29T02:36:19Z)
Explaining multimodal LLMs via intra-modal token interactions [55.27436637894534]
MLLM(Multimodal Large Language Models)は、様々な視覚言語タスクにおいて顕著な成功を収めているが、その内部決定機構は十分に理解されていない。モーダル内相互作用を利用した解釈可能性の向上を提案する。
論文参考訳（メタデータ） (2025-09-26T14:39:13Z)
Reinforcing Spatial Reasoning in Vision-Language Models with Interwoven Thinking and Visual Drawing [62.447497430479174]
空間における推論への描画は、視覚空間における基本的な描画操作を通じてLVLMを推論できる新しいパラダイムである。我々のモデルはVILASRと呼ばれ、様々な空間推論ベンチマークで既存の手法より一貫して優れています。
論文参考訳（メタデータ） (2025-06-11T17:41:50Z)
Cantor: Inspiring Multimodal Chain-of-Thought of MLLM [83.6663322930814]
視覚的コンテキスト獲得と論理的推論の集約は、視覚的推論タスクに取り組む上で重要であると我々は主張する。我々はCantorと呼ばれる革新的なマルチモーダルCoTフレームワークを提案し、その特徴は知覚決定アーキテクチャである。提案手法の有効性を実証し,マルチモーダルCoT性能の大幅な向上を示した。
論文参考訳（メタデータ） (2024-04-24T17:59:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。