論文の概要: Multimodal Language Models See Better When They Look Shallower
- arxiv url: http://arxiv.org/abs/2504.21447v2
- Date: Fri, 10 Oct 2025 12:32:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 04:53:46.767527
- Title: Multimodal Language Models See Better When They Look Shallower
- Title(参考訳): マルチモーダル言語モデルは、より見栄えが良くなる
- Authors: Haoran Chen, Junyan Lin, Xinghao Chen, Yue Fan, Jianfeng Dong, Xin Jin, Hui Su, Jinlan Fu, Xiaoyu Shen,
- Abstract要約: マルチモーダル大言語モデル(MLLM)は、通常、事前訓練された視覚変換器(ViT)の最終層から視覚的特徴を抽出する。
MLLMの視覚層選択に関する最初の総合的研究を行い,VT層間の表現類似性を解析した。
我々は、深い層がOCRのようなセマンティックリッチなタスクに優れているのに対して、浅い層と中層の層は、きめ細かい視覚的なタスクでそれらを著しく上回っていることに気付きました。
- 参考スコア(独自算出の注目度): 54.5303326937134
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal large language models (MLLMs) typically extract visual features from the final layers of a pretrained Vision Transformer (ViT). This widespread deep-layer bias, however, is largely driven by empirical convention rather than principled analysis. While prior studies suggest that different ViT layers capture different types of information, with shallower layers focusing on fine visual details and deeper layers aligning more closely with textual semantics, the impact of this variation on MLLM performance remains underexplored. We present the first comprehensive study of visual layer selection for MLLMs, analyzing representation similarity across ViT layers to establish shallow, middle, and deep layer groupings. Through extensive evaluation of MLLMs (1.4B-7B parameters) across 10 benchmarks encompassing 60+ tasks, we find that while deep layers excel in semantic-rich tasks like OCR, shallow and middle layers significantly outperform them on fine-grained visual tasks including counting, positioning, and object localization. Building on these insights, we propose a lightweight feature fusion method that strategically incorporates shallower layers, achieving consistent improvements over both single-layer and specialized fusion baselines. Our work offers the first principled study of visual layer selection in MLLMs, showing that MLLMs can often see better when they look shallower.
- Abstract(参考訳): マルチモーダル大言語モデル(MLLM)は、通常、事前訓練された視覚変換器(ViT)の最終層から視覚的特徴を抽出する。
しかし、この広範な深い層バイアスは、主に原理的な分析よりも経験的な慣習によって引き起こされる。
以前の研究では、異なるViT層が異なるタイプの情報をキャプチャし、より浅い層が細かな視覚的詳細とより深い層がテキスト意味論とより密に一致していることが示唆されていたが、この変異がMLLMのパフォーマンスに与える影響は未解明のままである。
MLLMの視覚層選択を総合的に検討し,VT層間の表現類似性を解析し,浅層,中層,深層をグループ化する手法を提案する。
60以上のタスクを含む10のベンチマークでMLLM(1.4B-7Bパラメータ)を広範囲に評価した結果、OCRのようなセマンティックリッチなタスクでは深い層が優れているのに対し、浅層と中層はカウント、位置決め、オブジェクトのローカライゼーションといった細かな視覚的タスクでは、それらを著しく上回っていることがわかった。
これらの知見に基づいて,より浅い層を戦略的に組み込んだ軽量な機能融合法を提案する。
我々の研究は、MLLMの視覚層選択に関する最初の原則的な研究を提供し、MLLMが浅く見えるとよく良く見えることを示した。
関連論文リスト
- Manager: Aggregating Insights from Unimodal Experts in Two-Tower VLMs and MLLMs [61.903626952650605]
2tower Vision-Language Models (VLM) は、様々な下流VLタスクに強い性能を示す。
我々は,訓練済みの未学習専門家のさまざまなレベルからの洞察を適応的に集約する,軽量で効率的で効果的なプラグインであるManageerを提案する。
論文 参考訳(メタデータ) (2025-06-13T07:16:41Z) - Layer-Aware Embedding Fusion for LLMs in Text Classifications [1.4250487522292254]
層認識型埋め込み選択法を提案し, 異なる層を定量的に評価し, 下流のNLPタスクにおいて最も重要なものを特定する方法について検討する。
4つの英語テキスト分類データセットの実験により、LLMの異なる層は、分類のための表現力の度合いが異なることが示された。
また、モデル微調整を必要とせず、複数のLLMからの埋め込みを組み合わせることで、パフォーマンスが向上する可能性についても検討する。
論文 参考訳(メタデータ) (2025-04-08T07:45:50Z) - Multi-Layer Visual Feature Fusion in Multimodal LLMs: Methods, Analysis, and Best Practices [40.48590954153895]
MLLM(Multimodal Large Language Models)は近年大きな進歩を遂げており、視覚的特徴はモデル性能の向上においてますます重要な役割を担っている。
しかし、MLLMにおける多層視覚機能の統合は、特に最適な層選択と融合戦略に関して、未検討のままである。
本稿では,(1)最も効果的な視覚層を選択すること,(2)言語モデルとの最良の融合手法を特定すること,の2つの側面を体系的に検討する。
論文 参考訳(メタデータ) (2025-03-08T05:10:55Z) - Instruction-Guided Fusion of Multi-Layer Visual Features in Large Vision-Language Models [50.98559225639266]
6つのタスクカテゴリにまたがる18のベンチマークを用いて,異なるエンコーダ層からの視覚的特徴の寄与について検討した。
この結果から,多層構造はタスク依存性の相補的な長所を提供し,均一な融合が最適以下の性能をもたらすことが明らかとなった。
テキスト命令に基づいて動的に多層視覚特徴を統合する命令誘導型視覚アグリゲータを提案する。
論文 参考訳(メタデータ) (2024-12-26T05:41:31Z) - AIM: Adaptive Inference of Multi-Modal LLMs via Token Merging and Pruning [19.68349294206012]
マルチモーダルLLMのための学習自由適応推論法を提案する。
最小限の設計により,本手法はビデオと画像の両方に応用できる。
同様の計算コストで,本手法は長いビデオ理解において最先端の手法よりも優れる。
論文 参考訳(メタデータ) (2024-12-04T11:47:57Z) - MC-Bench: A Benchmark for Multi-Context Visual Grounding in the Era of MLLMs [61.56904387052982]
本稿では,マルチコンテキストの視覚的グラウンド化という新しい視覚的グラウンド化タスクを提案する。
オープンなテキストプロンプトに基づいて、複数の画像にまたがる関心のインスタンスをローカライズすることを目的としている。
我々は20以上の最先端MLLMと基盤モデルをベンチマークし、潜在的にマルチコンテキストの視覚的グラウンド化機能を有する。
論文 参考訳(メタデータ) (2024-10-16T07:52:57Z) - From Redundancy to Relevance: Information Flow in LVLMs Across Reasoning Tasks [33.476693301050275]
我々は,視覚的質問応答と画像キャプションタスクのために,様々なLVLMの切り抜き戦略を用いて実験を行った。
視覚的表現の貢献の観点から情報の流れを探索することにより、浅い層に収束する傾向にあるが、より深い層に分散する傾向があることを観察する。
論文 参考訳(メタデータ) (2024-06-04T13:52:54Z) - Dense Connector for MLLMs [89.50595155217108]
Dense Connector - 既存のMLLMを大幅に強化するプラグイン・アンド・プレイ型ヴィジュアル言語コネクタ。
この上に構築されたEfficient Dense Connectorは,視覚トークンの25%に過ぎず,LLaVA-v1.5に匹敵するパフォーマンスを実現する。
画像のみを訓練したわれわれのモデルは、ビデオ理解でも際立ったゼロショットの能力を誇示している。
論文 参考訳(メタデータ) (2024-05-22T16:25:03Z) - Boosting Multimodal Large Language Models with Visual Tokens Withdrawal for Rapid Inference [59.91176945361035]
高速推論のためにMLLMを高速化するプラグイン・アンド・プレイモジュールであるVisual Tokens Withdrawal (VTW)を紹介した。
VTWは、あるレイヤで視覚トークンを戦略的に取り除き、テキストトークンだけがその後のレイヤに関与できるようにする。
提案手法は,マルチモーダルタスクにおいて,性能を維持しながら計算オーバーヘッドを40%以上削減できる。
論文 参考訳(メタデータ) (2024-05-09T14:38:53Z) - Exploring Concept Depth: How Large Language Models Acquire Knowledge and Concept at Different Layers? [57.04803703952721]
大規模言語モデル(LLM)は、幅広いタスクで顕著なパフォーマンスを示している。
しかし、これらのモデルが様々な複雑さのタスクを符号化するメカニズムは、いまだに理解されていない。
概念深さ」の概念を導入し、より複雑な概念が一般的により深い層で得られることを示唆する。
論文 参考訳(メタデータ) (2024-04-10T14:56:40Z) - From CLIP to DINO: Visual Encoders Shout in Multi-modal Large Language
Models [36.41816380074965]
大規模言語モデル(MLLM)における視覚エンコーダの有効性について検討する。
以上の結果から,CLIPの浅層構造は,接地や領域理解といったきめ細かいタスクに特に有利であることがわかった。
我々は,CLIPとDINOをMergingと統合したシンプルな機能統合戦略であるCOMMを提案する。
論文 参考訳(メタデータ) (2023-10-13T02:41:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。