論文の概要: Rethinking Visual Layer Selection in Multimodal LLMs
- arxiv url: http://arxiv.org/abs/2504.21447v1
- Date: Wed, 30 Apr 2025 09:07:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 19:38:28.934147
- Title: Rethinking Visual Layer Selection in Multimodal LLMs
- Title(参考訳): マルチモーダルLCMにおける視覚層選択の再考
- Authors: Haoran Chen, Junyan Lin, Xinhao Chen, Yue Fan, Xin Jin, Hui Su, Jianfeng Dong, Jinlan Fu, Xiaoyu Shen,
- Abstract要約: この研究は、浅い、中、深いカテゴリに類似した振る舞いを持つグループCLIP-ViT層に対するレイヤワイズ類似性アプローチを提案する。
大規模MLLMにおける視覚層選択問題を再考し,1.4Bから7BまでのLLaVAスタイルのモデルを訓練する。
1) 深層はOCRタスクに必須であり,(2) 浅層と中層はカウント,位置決め,オブジェクトの局所化を含む推論タスクにおいて実質的に深層を上回り,(3) 浅層,中層,深層をまたいだ軽量な融合は,専門的な融合ベースラインと単一層を一貫して上回ります。
- 参考スコア(独自算出の注目度): 46.091556112958884
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal large language models (MLLMs) have achieved impressive performance across a wide range of tasks, typically using CLIP-ViT as their visual encoder due to its strong text-image alignment capabilities. While prior studies suggest that different CLIP-ViT layers capture different types of information, with shallower layers focusing on fine visual details and deeper layers aligning more closely with textual semantics, most MLLMs still select visual features based on empirical heuristics rather than systematic analysis. In this work, we propose a Layer-wise Representation Similarity approach to group CLIP-ViT layers with similar behaviors into {shallow, middle, and deep} categories and assess their impact on MLLM performance. Building on this foundation, we revisit the visual layer selection problem in MLLMs at scale, training LLaVA-style models ranging from 1.4B to 7B parameters. Through extensive experiments across 10 datasets and 4 tasks, we find that: (1) deep layers are essential for OCR tasks; (2) shallow and middle layers substantially outperform deep layers on reasoning tasks involving counting, positioning, and object localization; (3) a lightweight fusion of features across shallow, middle, and deep layers consistently outperforms specialized fusion baselines and single-layer selections, achieving gains on 9 out of 10 datasets. Our work offers the first principled study of visual layer selection in MLLMs, laying the groundwork for deeper investigations into visual representation learning for MLLMs.
- Abstract(参考訳): MLLM(Multimodal large language model)は、CLIP-ViTをその強力なテキストイメージアライメント機能のために視覚エンコーダとして使用するなど、幅広いタスクで優れたパフォーマンスを実現している。
以前の研究では、異なるCLIP-ViT層が異なるタイプの情報をキャプチャし、より浅い層は詳細な視覚的詳細とより深い層がテキスト意味論とより緊密に一致していることが示唆されていたが、ほとんどのMLLMは、体系的な解析よりも経験的ヒューリスティックに基づいた視覚的特徴を選択する。
そこで本研究では,CLIP-ViT層を<sallow, middle, deep>カテゴリに分類し,MLLMの性能への影響を評価するためのレイヤワイズ表現類似性手法を提案する。
本研究では,MLLMの視覚層選択問題を再考し,1.4Bから7BまでのLLaVAスタイルのモデルを学習する。
1) 深層はOCRタスクに必須であり、(2) 浅層と中層はカウント、位置決め、オブジェクトのローカライゼーションを含むタスクの推論において、深い層を実質的に上回り、(3) 浅層、中層、深層をまたいだ機能の軽量な融合は、専門的な融合ベースラインと単層選択を一貫して上回り、10つのデータセットのうち9つを上回ります。
我々の研究は、MLLMにおける視覚層選択に関する最初の原則的な研究であり、MLLMの視覚表現学習に関するより深い研究の基盤となっている。
関連論文リスト
- Layer-Aware Embedding Fusion for LLMs in Text Classifications [1.4250487522292254]
層認識型埋め込み選択法を提案し, 異なる層を定量的に評価し, 下流のNLPタスクにおいて最も重要なものを特定する方法について検討する。
4つの英語テキスト分類データセットの実験により、LLMの異なる層は、分類のための表現力の度合いが異なることが示された。
また、モデル微調整を必要とせず、複数のLLMからの埋め込みを組み合わせることで、パフォーマンスが向上する可能性についても検討する。
論文 参考訳(メタデータ) (2025-04-08T07:45:50Z) - Multi-Layer Visual Feature Fusion in Multimodal LLMs: Methods, Analysis, and Best Practices [40.48590954153895]
MLLM(Multimodal Large Language Models)は近年大きな進歩を遂げており、視覚的特徴はモデル性能の向上においてますます重要な役割を担っている。
しかし、MLLMにおける多層視覚機能の統合は、特に最適な層選択と融合戦略に関して、未検討のままである。
本稿では,(1)最も効果的な視覚層を選択すること,(2)言語モデルとの最良の融合手法を特定すること,の2つの側面を体系的に検討する。
論文 参考訳(メタデータ) (2025-03-08T05:10:55Z) - Instruction-Guided Fusion of Multi-Layer Visual Features in Large Vision-Language Models [50.98559225639266]
6つのタスクカテゴリにまたがる18のベンチマークを用いて,異なるエンコーダ層からの視覚的特徴の寄与について検討した。
この結果から,多層構造はタスク依存性の相補的な長所を提供し,均一な融合が最適以下の性能をもたらすことが明らかとなった。
テキスト命令に基づいて動的に多層視覚特徴を統合する命令誘導型視覚アグリゲータを提案する。
論文 参考訳(メタデータ) (2024-12-26T05:41:31Z) - AIM: Adaptive Inference of Multi-Modal LLMs via Token Merging and Pruning [19.68349294206012]
マルチモーダルLLMのための学習自由適応推論法を提案する。
最小限の設計により,本手法はビデオと画像の両方に応用できる。
同様の計算コストで,本手法は長いビデオ理解において最先端の手法よりも優れる。
論文 参考訳(メタデータ) (2024-12-04T11:47:57Z) - MC-Bench: A Benchmark for Multi-Context Visual Grounding in the Era of MLLMs [61.56904387052982]
本稿では,マルチコンテキストの視覚的グラウンド化という新しい視覚的グラウンド化タスクを提案する。
オープンなテキストプロンプトに基づいて、複数の画像にまたがる関心のインスタンスをローカライズすることを目的としている。
我々は20以上の最先端MLLMと基盤モデルをベンチマークし、潜在的にマルチコンテキストの視覚的グラウンド化機能を有する。
論文 参考訳(メタデータ) (2024-10-16T07:52:57Z) - Dense Connector for MLLMs [89.50595155217108]
Dense Connector - 既存のMLLMを大幅に強化するプラグイン・アンド・プレイ型ヴィジュアル言語コネクタ。
この上に構築されたEfficient Dense Connectorは,視覚トークンの25%に過ぎず,LLaVA-v1.5に匹敵するパフォーマンスを実現する。
画像のみを訓練したわれわれのモデルは、ビデオ理解でも際立ったゼロショットの能力を誇示している。
論文 参考訳(メタデータ) (2024-05-22T16:25:03Z) - Boosting Multimodal Large Language Models with Visual Tokens Withdrawal for Rapid Inference [59.91176945361035]
高速推論のためにMLLMを高速化するプラグイン・アンド・プレイモジュールであるVisual Tokens Withdrawal (VTW)を紹介した。
VTWは、あるレイヤで視覚トークンを戦略的に取り除き、テキストトークンだけがその後のレイヤに関与できるようにする。
提案手法は,マルチモーダルタスクにおいて,性能を維持しながら計算オーバーヘッドを40%以上削減できる。
論文 参考訳(メタデータ) (2024-05-09T14:38:53Z) - Exploring Concept Depth: How Large Language Models Acquire Knowledge and Concept at Different Layers? [57.04803703952721]
大規模言語モデル(LLM)は、幅広いタスクで顕著なパフォーマンスを示している。
しかし、これらのモデルが様々な複雑さのタスクを符号化するメカニズムは、いまだに理解されていない。
概念深さ」の概念を導入し、より複雑な概念が一般的により深い層で得られることを示唆する。
論文 参考訳(メタデータ) (2024-04-10T14:56:40Z) - From CLIP to DINO: Visual Encoders Shout in Multi-modal Large Language
Models [36.41816380074965]
大規模言語モデル(MLLM)における視覚エンコーダの有効性について検討する。
以上の結果から,CLIPの浅層構造は,接地や領域理解といったきめ細かいタスクに特に有利であることがわかった。
我々は,CLIPとDINOをMergingと統合したシンプルな機能統合戦略であるCOMMを提案する。
論文 参考訳(メタデータ) (2023-10-13T02:41:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。