論文の概要: How Vision Becomes Language: A Layer-wise Information-Theoretic Analysis of Multimodal Reasoning
- arxiv url: http://arxiv.org/abs/2602.15580v1
- Date: Tue, 17 Feb 2026 13:49:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-18 16:03:18.079055
- Title: How Vision Becomes Language: A Layer-wise Information-Theoretic Analysis of Multimodal Reasoning
- Title(参考訳): ビジョンが言語になる方法:マルチモーダル推論のレイヤワイズ情報理論解析
- Authors: Hongxuan Wu, Yukun Zhang, Xueqing Zhou,
- Abstract要約: 視覚的一様情報は早期にピークを迎え、深度とともに減衰し、後期層では言語的一様情報が急上昇し、相互の相乗効果は2%以下であることを示す。
これらの結果から,マルチモーダルトランスフォーマーにおける視覚の言語化に関する情報理論的,因果的考察が得られた。
- 参考スコア(独自算出の注目度): 3.720343746691839
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When a multimodal Transformer answers a visual question, is the prediction driven by visual evidence, linguistic reasoning, or genuinely fused cross-modal computation -- and how does this structure evolve across layers? We address this question with a layer-wise framework based on Partial Information Decomposition (PID) that decomposes the predictive information at each Transformer layer into redundant, vision-unique, language-unique, and synergistic components. To make PID tractable for high-dimensional neural representations, we introduce \emph{PID Flow}, a pipeline combining dimensionality reduction, normalizing-flow Gaussianization, and closed-form Gaussian PID estimation. Applying this framework to LLaVA-1.5-7B and LLaVA-1.6-7B across six GQA reasoning tasks, we uncover a consistent \emph{modal transduction} pattern: visual-unique information peaks early and decays with depth, language-unique information surges in late layers to account for roughly 82\% of the final prediction, and cross-modal synergy remains below 2\%. This trajectory is highly stable across model variants (layer-wise correlations $>$0.96) yet strongly task-dependent, with semantic redundancy governing the detailed information fingerprint. To establish causality, we perform targeted Image$\rightarrow$Question attention knockouts and show that disrupting the primary transduction pathway induces predictable increases in trapped visual-unique information, compensatory synergy, and total information cost -- effects that are strongest in vision-dependent tasks and weakest in high-redundancy tasks. Together, these results provide an information-theoretic, causal account of how vision becomes language in multimodal Transformers, and offer quantitative guidance for identifying architectural bottlenecks where modality-specific information is lost.
- Abstract(参考訳): マルチモーダルトランスフォーマーが視覚的な疑問に答えると、その予測は視覚的エビデンスや言語的推論、真に融合したクロスモーダルな計算によってもたらされるのか?
本稿では,各トランスフォーマー層における予測情報を冗長,視覚的,言語的,シナジスティックなコンポーネントに分解する部分情報分解(PID)に基づくレイヤワイドフレームワークを用いて,この問題に対処する。
高次元ニューラル表現のためのPIDトラクタを実現するために,次元減少,正規化-フローガウス化,閉形式ガウスPID推定を組み合わせたパイプラインである \emph{PID Flow} を導入する。
このフレームワークを6つのGQA推論タスクでLLaVA-1.5-7BとLLaVA-1.6-7Bに適用すると、一貫した \emph{modal transduction} パターンが明らかになる。
この軌道はモデル変種(層単位での相関$>0.96)に対して非常に安定であるが、細部情報指紋のセマンティック冗長性は強いタスク依存である。
因果関係を確立するために、ターゲット画像$\rightarrow$Questionアテンションノックアウトを行い、一次翻訳経路の破壊は、捕捉された視覚的特異情報、補償シナジー、および総情報コストの予測可能な増加を誘導することを示す。
これらの結果は、マルチモーダルトランスフォーマーにおける視覚の言語化に関する情報理論的、因果的説明を提供し、モダリティ固有の情報が失われるアーキテクチャボトルネックを特定するための定量的ガイダンスを提供する。
関連論文リスト
- Identifying Super Spreaders in Multilayer Networks [0.6990493129893112]
本稿では,グラフニューラルネットワークを利用して,そのようなネットワーク内のスーパースプレッダを識別する手法を提案する。
この目的のために、数百のネットワークにまたがる情報拡散をシミュレートしてデータセットを構築する。
我々のモデルであるTopSpreadersNetworkは、関係に依存しないエンコーダとカスタムアグリゲーション層で構成されています。
論文 参考訳(メタデータ) (2025-05-27T10:14:14Z) - Transformer Meets Twicing: Harnessing Unattended Residual Information [2.1605931466490795]
トランスフォーマーベースのディープラーニングモデルは、多くの言語やビジョンタスクで最先端のパフォーマンスを達成した。
自己注意機構は複雑なデータパターンを扱えることが証明されているが、注意行列の表現能力はトランスフォーマー層間で著しく低下する。
本研究では,NLM平滑化の低パス動作を軽減するため,非パラメトリック回帰におけるカーネルツイシング手順を用いた新しいアテンション機構であるTwicing Attentionを提案する。
論文 参考訳(メタデータ) (2025-03-02T01:56:35Z) - What Matters When Repurposing Diffusion Models for General Dense Perception Tasks? [49.84679952948808]
最近の研究は、高密度知覚タスクのためのT2I拡散モデルを簡単に調整することで有望な結果を示す。
拡散前処理における伝達効率と性能に影響を及ぼす重要な要因を徹底的に検討する。
我々の研究は、濃密な視覚認知タスクに特化した効果的な決定論的ワンステップ微調整パラダイムであるGenPerceptの開発において頂点に達した。
論文 参考訳(メタデータ) (2024-03-10T04:23:24Z) - Disentangled Representation Learning with Transmitted Information Bottleneck [57.22757813140418]
textbfDisTIB (textbfTransmitted textbfInformation textbfBottleneck for textbfDisd representation learning) は情報圧縮と保存のバランスを保った新しい目的である。
論文 参考訳(メタデータ) (2023-11-03T03:18:40Z) - Frozen Overparameterization: A Double Descent Perspective on Transfer
Learning of Deep Neural Networks [27.17697714584768]
ディープニューラルネットワーク(DNN)の伝達学習の一般化挙動について検討する。
目標トレーニング中のテストエラーの進化は、目標トレーニングデータセットが十分に大きい場合、より顕著な二重降下効果を有することを示す。
また、二重降下現象は、より関連するソースタスクからの転送よりも、関連するソースタスクからの転送をより良くする可能性があることを示す。
論文 参考訳(メタデータ) (2022-11-20T20:26:23Z) - A Generic Shared Attention Mechanism for Various Backbone Neural Networks [53.36677373145012]
自己注意モジュール(SAM)は、異なる層にまたがる強い相関した注意マップを生成する。
Dense-and-Implicit Attention (DIA)はSAMをレイヤ間で共有し、長期間のメモリモジュールを使用する。
我々のシンプルで効果的なDIAは、様々なネットワークバックボーンを一貫して拡張できます。
論文 参考訳(メタデータ) (2022-10-27T13:24:08Z) - Correlation Information Bottleneck: Towards Adapting Pretrained
Multimodal Models for Robust Visual Question Answering [63.87200781247364]
相関情報ボトルネック (CIB) は圧縮と表現の冗長性のトレードオフを求める。
マルチモーダル入力と表現の相互情報に対して,理論上界を厳密に導出する。
論文 参考訳(メタデータ) (2022-09-14T22:04:10Z) - Handling Distribution Shifts on Graphs: An Invariance Perspective [78.31180235269035]
我々は、グラフ上のOOD問題を定式化し、新しい不変学習手法である探索・拡張リスク最小化(EERM)を開発する。
EERMは、複数の仮想環境からのリスクの分散を最大化するために、敵対的に訓練された複数のコンテキストエクスプローラーを利用する。
理論的に有効なOOD解の保証を示すことによって,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2022-02-05T02:31:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。