論文の概要: Where Does Vision Meet Language? Understanding and Refining Visual Fusion in MLLMs via Contrastive Attention
- arxiv url: http://arxiv.org/abs/2601.08151v1
- Date: Tue, 13 Jan 2026 02:26:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:19.024774
- Title: Where Does Vision Meet Language? Understanding and Refining Visual Fusion in MLLMs via Contrastive Attention
- Title(参考訳): ビジョンは言語と出会うのか? コントラスト注意によるMLLMにおける視覚融合の理解と精細化
- Authors: Shezheng Song, Shasha Li, Jie Yu,
- Abstract要約: MLLM(Multimodal Large Language Models)は、視覚言語理解において顕著な進歩を遂げている。
複数のアーキテクチャにまたがる階層的なマスキング解析を行い、MLLM内での視覚テキストの融合がどのように進化するかを明らかにする。
我々は、初期融合と最終層間の変換をモデル化し、意味のある注意シフトを強調する、トレーニングなしのコントラスト注意フレームワークを導入する。
- 参考スコア(独自算出の注目度): 7.511262066889113
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Large Language Models (MLLMs) have achieved remarkable progress in vision-language understanding, yet how they internally integrate visual and textual information remains poorly understood. To bridge this gap, we perform a systematic layer-wise masking analysis across multiple architectures, revealing how visual-text fusion evolves within MLLMs. The results show that fusion emerges at several specific layers rather than being uniformly distributed across the network, and certain models exhibit a late-stage "review" phenomenon where visual signals are reactivated before output generation. Besides, we further analyze layer-wise attention evolution and observe persistent high-attention noise on irrelevant regions, along with gradually increasing attention on text-aligned areas. Guided by these insights, we introduce a training-free contrastive attention framework that models the transformation between early fusion and final layers to highlight meaningful attention shifts. Extensive experiments across various MLLMs and benchmarks validate our analysis and demonstrate that the proposed approach improves multimodal reasoning performance. Code will be released.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は視覚言語理解において顕著な進歩を遂げている。
このギャップを埋めるために、複数のアーキテクチャにまたがる階層的なマスキング分析を行い、MLLM内で視覚テキストの融合がどのように進化するかを明らかにする。
その結果、核融合はネットワーク全体に均一に分散されるのではなく、複数の特定の層で発生し、特定のモデルは出力発生前に視覚信号を再活性化する後期の「リビュー」現象を示すことがわかった。
さらに,無関係領域における階層的注意の進化を解析し,持続的なハイアテンションノイズを観測し,テキスト整列領域への注意を徐々に高めている。
これらの知見に導かれて、初期の融合層と最終層の間の変換をモデル化し、意味のある注意シフトを強調する、トレーニングなしのコントラスト型注意フレームワークを導入する。
各種MLLMおよびベンチマークの広範囲な実験により,提案手法がマルチモーダル推論性能を向上させることを示す。
コードはリリースされる。
関連論文リスト
- PENDULUM: A Benchmark for Assessing Sycophancy in Multimodal Large Language Models [43.767942065379366]
サイコファシー(英: Sycophancy)は、AIモデルが実際の正確さや視覚的証拠の矛盾を犠牲にしてユーザー入力に同意する傾向である。
約2000組の視覚質問応答対からなる総合評価ベンチマーク「textitPENDULUM」を導入する。
本研究は, モデルロバスト性およびサイコファンおよび幻覚行動に対する感受性の顕著な変動を観察する。
論文 参考訳(メタデータ) (2025-12-22T12:49:12Z) - Unleashing the Intrinsic Visual Representation Capability of Multimodal Large Language Models [58.91911788912665]
より識別的な視覚表現の学習において,MLLMの学習を容易にする新しい学習フレームワークであるLaVerを提案する。
本手法はMLLMに対して直接視覚的アクティベーションを提供し,視覚的アサインメントが増大し,視覚情報の利用が向上したことを示す。
論文 参考訳(メタデータ) (2025-12-06T04:20:13Z) - Attention Guided Alignment in Efficient Vision-Language Models [56.20286899428444]
VLM(Large Vision-Language Models)は、事前訓練された視覚エンコーダとLLM(Large Language Models)の効果的なマルチモーダルアライメントに依存している。
本稿では,効率的なVLMにおける注意パターンの包括的解析について述べる。
本稿では,Attention-Guided Efficient Vision-Language Models (AGE-VLM)を紹介する。
論文 参考訳(メタデータ) (2025-11-21T21:36:48Z) - Multimodal Language Models See Better When They Look Shallower [54.5303326937134]
マルチモーダル大言語モデル(MLLM)は、通常、事前訓練された視覚変換器(ViT)の最終層から視覚的特徴を抽出する。
MLLMの視覚層選択に関する最初の総合的研究を行い,VT層間の表現類似性を解析した。
我々は、深い層がOCRのようなセマンティックリッチなタスクに優れているのに対して、浅い層と中層の層は、きめ細かい視覚的なタスクでそれらを著しく上回っていることに気付きました。
論文 参考訳(メタデータ) (2025-04-30T09:07:10Z) - Cross-modal Information Flow in Multimodal Large Language Models [14.853197288189579]
大規模言語モデル(MLLM)における言語と視覚の異なるモーダル間の情報フローについて検討する。
2つのモダリティを統合する過程には2つの異なる段階があることが分かる。
本研究は,MLLMにおける画像および言語処理の空間的・機能的側面について,より包括的かつ包括的視点を提供する。
論文 参考訳(メタデータ) (2024-11-27T18:59:26Z) - Eagle: Exploring The Design Space for Multimodal LLMs with Mixture of Encoders [89.41055673919895]
本研究では,視覚エンコーダと解像度の混合を用いたMLLMの設計空間について検討する。
視覚トークンを補完的な視覚エンコーダの集合から簡単に結合することは、より複雑な混合アーキテクチャや戦略と同じくらい効果的であることがわかった。
その結果生まれたMLLMのファミリーであるEagleは、MLLMベンチマークで他の主要なオープンソースモデルを上回っている。
論文 参考訳(メタデータ) (2024-08-28T17:59:31Z) - From Redundancy to Relevance: Information Flow in LVLMs Across Reasoning Tasks [33.476693301050275]
我々は,視覚的質問応答と画像キャプションタスクのために,様々なLVLMの切り抜き戦略を用いて実験を行った。
視覚的表現の貢献の観点から情報の流れを探索することにより、浅い層に収束する傾向にあるが、より深い層に分散する傾向があることを観察する。
論文 参考訳(メタデータ) (2024-06-04T13:52:54Z) - Incorporating Visual Experts to Resolve the Information Loss in
Multimodal Large Language Models [121.83413400686139]
本稿では,MLLMの視覚知覚能力を向上させるために,知識の混合強化機構を提案する。
本稿では,マルチタスクエンコーダとビジュアルツールを既存のMLLM訓練と推論パイプラインに組み込む新しい手法を提案する。
論文 参考訳(メタデータ) (2024-01-06T02:02:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。