論文の概要: Investigating Redundancy in Multimodal Large Language Models with Multiple Vision Encoders
- arxiv url: http://arxiv.org/abs/2507.03262v2
- Date: Fri, 26 Sep 2025 07:45:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 16:35:18.92499
- Title: Investigating Redundancy in Multimodal Large Language Models with Multiple Vision Encoders
- Title(参考訳): マルチモーダル大言語モデルにおけるマルチビジョンエンコーダによる冗長性の検討
- Authors: Yizhou Wang, Song Mao, Yang Chen, Yufan Shen, Yinqiao Yan, Pinlong Cai, Ding Wang, Guohang Yan, Zhi Yu, Xuming Hu, Botian Shi,
- Abstract要約: 選択したエンコーダがマスクされた場合, 性能は良好に低下し, 広範にエンコーダの冗長性が明らかとなった。
我々は、OCRやChartのようなタスクにおいて、単一のエンコーダが90%以上のCURで支配できる強力な特殊化を観察する。
特定のエンコーダを使用すると、特定のタスクカテゴリにおいて最大16%の精度が得られ、全体のパフォーマンスがフルモデルよりも3.6%向上する。
- 参考スコア(独自算出の注目度): 54.03921875874111
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent multimodal large language models (MLLMs) increasingly integrate multiple vision encoders to improve performance on various benchmarks, assuming that diverse pretraining objectives yield complementary visual signals. However, we show this assumption often fails in practice. Through systematic encoder masking across representative multi encoder MLLMs, we find that performance typically degrades gracefully and sometimes even improves when selected encoders are masked, revealing pervasive encoder redundancy. To quantify this effect, we introduce two principled metrics: the Conditional Utilization Rate (CUR), which measures an encoders marginal contribution in the presence of others, and the Information Gap (IG), which captures heterogeneity in encoder utility within a model. Using these tools, we observe (i) strong specialization on tasks like OCR and Chart, where a single encoder can dominate with a CUR greater than 90%, (ii) high redundancy on general VQA and knowledge-based tasks, where encoders are largely interchangeable, (iii) instances of detrimental encoders with negative CUR. Notably, masking specific encoders can yield up to 16% higher accuracy on a specific task category and 3.6% overall performance boost compared to the full model.Furthermore, single and dual encoder variants recover over 90% of baseline on most non OCR tasks. Our analysis challenges the more encoders are better heuristic in MLLMs and provides actionable diagnostics for developing more efficient and effective multimodal architectures.
- Abstract(参考訳): 最近のマルチモーダル大規模言語モデル(MLLM)は、様々なベンチマークの性能向上のために複数の視覚エンコーダを統合しており、様々な事前学習目的が相補的な視覚信号をもたらすと仮定している。
しかし、この仮定は実際に失敗することが多い。
代表的マルチエンコーダMLLMにまたがるシステマティックエンコーダマスキングにより、選択したエンコーダがマスクされると性能が低下し、時には改善され、広範エンコーダ冗長性が明らかになる。
この効果を定量化するために、他者の存在に対するエンコーダの限界貢献度を測定するコンディション利用率(CUR)と、モデル内のエンコーダユーティリティの不均一性を捉えるインフォメーションギャップ(IG)という2つの原則的指標を導入する。
これらのツールを使って観察する
(i)OCRやChartのようなタスクにおいて、単一のエンコーダが90%以上のCURで支配できる強力な特殊化。
(II)エンコーダが大半が交換可能な一般的なVQAと知識に基づくタスクの冗長性
三 負のCURを有する有害エンコーダの事例
特に、マスク特定エンコーダは、特定のタスクカテゴリにおいて最大16%の精度を達成でき、全体のパフォーマンスはフルモデルに比べて3.6%向上するが、一方、シングルエンコーダとデュアルエンコーダの変種は、ほとんどの非OCRタスクにおいて90%以上のベースラインを回復する。
我々の分析は、より効率的なマルチモーダルアーキテクチャを開発するための実用的な診断を提供するMLLMにおいて、より多くのエンコーダがよりヒューリスティックであることに挑戦する。
関連論文リスト
- METEOR: Multi-Encoder Collaborative Token Pruning for Efficient Vision Language Models [92.37117312251755]
プログレッシブプルーニングフレームワークであるMulti-Encoder collaboraTivE tOken pRuning (METEOR)を提案する。
マルチビジョン符号化では,各エンコーダ内の冗長トークンをランク誘導型協調トークン代入戦略により破棄する。
マルチビジョン融合では、異なるエンコーダの視覚的特徴を組み合わせながら、コラボレーティブプルーニングによるクロスエンコーダ冗長性を低減させる。
論文 参考訳(メタデータ) (2025-07-28T13:50:53Z) - Mixpert: Mitigating Multimodal Learning Conflicts with Efficient Mixture-of-Vision-Experts [104.73983712940816]
マルチモーダル大言語モデル(MLLM)は複雑な画像情報のニュアンス解釈を必要とする。
多様なタスクドメインを扱うために、単一のビジョンエンコーダにのみ依存することは、困難であり、必然的に衝突につながることを証明します。
単一ビジョンエンコーダからジョイントラーニングの利点を継承する,効率的なミキシング・オブ・ビジョン・エキスパートアーキテクチャであるMixpertを導入する。
論文 参考訳(メタデータ) (2025-05-30T12:48:07Z) - A Shared Encoder Approach to Multimodal Representation Learning [17.863705872504]
医療領域に適したマルチモーダル表現学習のための共有エンコーダフレームワークを提案する。
提案手法では,モダリティ間で共有される1組のエンコーダパラメータを用い,学習可能なモダリティ特徴を付加する。
論文 参考訳(メタデータ) (2025-03-03T15:29:26Z) - EVEv2: Improved Baselines for Encoder-Free Vision-Language Models [72.07868838411474]
既存のエンコーダフリービジョン言語モデル(VLM)は、エンコーダベースモデルと性能ギャップを狭めている。
我々は,主流のエンコーダをベースとしたVLMと競合するエンコーダフリーVLMの効率的な戦略を開発する。
統一モデルにおいて、視覚と言語を適切に階層的に関連付けることで、モダリティ間の干渉を減少させることを示す。
論文 参考訳(メタデータ) (2025-02-10T18:59:58Z) - MoVE-KD: Knowledge Distillation for VLMs with Mixture of Visual Encoders [28.22099619211775]
視覚エンコーダは視覚言語モデル(VLM)の基本コンポーネントである
近年の研究では、複数のエンコーダを単一のVLMに組み込んでおり、計算コストが大幅に増大している。
本稿では、複数の視覚エンコーダのユニークな習熟度を1つの効率的なエンコーダモデルに抽出する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2025-01-03T09:10:34Z) - Eagle: Exploring The Design Space for Multimodal LLMs with Mixture of Encoders [89.41055673919895]
本研究では,視覚エンコーダと解像度の混合を用いたMLLMの設計空間について検討する。
視覚トークンを補完的な視覚エンコーダの集合から簡単に結合することは、より複雑な混合アーキテクチャや戦略と同じくらい効果的であることがわかった。
その結果生まれたMLLMのファミリーであるEagleは、MLLMベンチマークで他の主要なオープンソースモデルを上回っている。
論文 参考訳(メタデータ) (2024-08-28T17:59:31Z) - MoVA: Adapting Mixture of Vision Experts to Multimodal Context [38.8308841469793]
我々は,タスク固有の視覚エキスパートを適応的にルーティングし,粗い機構で融合する,強力で斬新なMLLMであるMoVAを提案する。
粗い段階では、最適な視覚専門家を動的に選択するためのコンテキスト対応の専門家ルーティング戦略を設計する。
粒度の細かい段階では、タスク固有の知識を抽出して融合するために、Mix-of-vision-Expert Adapter (MoV-Adapter) を精巧に実施する。
論文 参考訳(メタデータ) (2024-04-19T17:59:48Z) - MouSi: Poly-Visual-Expert Vision-Language Models [132.58949014605477]
本稿では,個々の視覚エンコーダの能力の相乗化にアンサンブルエキスパート技術を用いることを提案する。
この技術は、異なる視覚専門家の出力の処理を統一する融合ネットワークを導入する。
本実装では,SAMなどのモデルにおける位置占有率を,実質的な4096からより効率的で管理可能な64,さらには1。
論文 参考訳(メタデータ) (2024-01-30T18:09:11Z) - Rethinking and Improving Natural Language Generation with Layer-Wise
Multi-View Decoding [59.48857453699463]
シーケンシャル・ツー・シーケンス学習では、デコーダは注意機構に依存してエンコーダから情報を効率的に抽出する。
近年の研究では、異なるエンコーダ層からの表現を多様なレベルの情報に利用することが提案されている。
本稿では, 各デコーダ層に対して, グローバルビューとして機能する最後のエンコーダ層からの表現とともに, ソースシーケンスの立体視のために他のエンコーダ層からのデコーダ層からのデコーダ層を補足するレイヤワイド・マルチビューデコーダを提案する。
論文 参考訳(メタデータ) (2020-05-16T20:00:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。