論文の概要: METEOR: Multi-Encoder Collaborative Token Pruning for Efficient Vision Language Models
- arxiv url: http://arxiv.org/abs/2507.20842v1
- Date: Mon, 28 Jul 2025 13:50:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:58.142052
- Title: METEOR: Multi-Encoder Collaborative Token Pruning for Efficient Vision Language Models
- Title(参考訳): METEOR: 効率的な視覚言語モデルのためのマルチエンコーダ協調トケンプルーニング
- Authors: Yuchen Liu, Yaoming Wang, Bowen Shi, Xiaopeng Zhang, Wenrui Dai, Chenglin Li, Hongkai Xiong, Qi Tian,
- Abstract要約: プログレッシブプルーニングフレームワークであるMulti-Encoder collaboraTivE tOken pRuning (METEOR)を提案する。
マルチビジョン符号化では,各エンコーダ内の冗長トークンをランク誘導型協調トークン代入戦略により破棄する。
マルチビジョン融合では、異なるエンコーダの視覚的特徴を組み合わせながら、コラボレーティブプルーニングによるクロスエンコーダ冗長性を低減させる。
- 参考スコア(独自算出の注目度): 92.37117312251755
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision encoders serve as the cornerstone of multimodal understanding. Single-encoder architectures like CLIP exhibit inherent constraints in generalizing across diverse multimodal tasks, while recent multi-encoder fusion methods introduce prohibitive computational overhead to achieve superior performance using complementary visual representations from multiple vision encoders. To address this, we propose a progressive pruning framework, namely Multi-Encoder collaboraTivE tOken pRuning (METEOR), that eliminates redundant visual tokens across the encoding, fusion, and decoding stages for multi-encoder MLLMs. For multi-vision encoding, we discard redundant tokens within each encoder via a rank guided collaborative token assignment strategy. Subsequently, for multi-vision fusion, we combine the visual features from different encoders while reducing cross-encoder redundancy with cooperative pruning. Finally, we propose an adaptive token pruning method in the LLM decoding stage to further discard irrelevant tokens based on the text prompts with dynamically adjusting pruning ratios for specific task demands. To our best knowledge, this is the first successful attempt that achieves an efficient multi-encoder based vision language model with multi-stage pruning strategies. Extensive experiments on 11 benchmarks demonstrate the effectiveness of our proposed approach. Compared with EAGLE, a typical multi-encoder MLLMs, METEOR reduces 76% visual tokens with only 0.3% performance drop in average. The code is available at https://github.com/YuchenLiu98/METEOR.
- Abstract(参考訳): 視覚エンコーダはマルチモーダル理解の基礎となる。
CLIPのようなシングルエンコーダアーキテクチャは、様々なマルチモーダルタスクを一般化する上で固有の制約を示す一方で、近年のマルチエンコーダ融合法では、複数の視覚エンコーダからの補完的な視覚表現を用いて、優れたパフォーマンスを達成するために、計算の禁止的オーバーヘッドを導入している。
そこで本稿では,Multi-Encoder collaboraTivE tOken pRuning (METEOR) というプログレッシブプルーニングフレームワークを提案する。
マルチビジョン符号化では,各エンコーダ内の冗長トークンをランク誘導型協調トークン代入戦略により破棄する。
その後、多次元融合において、異なるエンコーダの視覚的特徴を組み合わせるとともに、相互エンコーダの冗長性を低減し、協調的なプルーニングを行う。
最後に, LLM復号段階における適応型トークンプルーニング手法を提案し, 特定のタスク要求に対するプルーニング比を動的に調整して, テキストプロンプトに基づく無関係トークンをさらに破棄する。
我々の知る限り、これはマルチステージプルーニング戦略を用いた効率的なマルチエンコーダベースの視覚言語モデルを実現する最初の試みである。
11のベンチマークで大規模な実験を行い、提案手法の有効性を実証した。
一般的なマルチエンコーダMLLMであるEAGLEと比較して、METEORは76%の視覚トークンを削減し、平均的なパフォーマンス低下はわずか0.3%である。
コードはhttps://github.com/YuchenLiu98/METEORで公開されている。
関連論文リスト
- LaCo: Efficient Layer-wise Compression of Visual Tokens for Multimodal Large Language Models [62.240460476785934]
視覚エンコーダの中間層内で効果的なトークン圧縮を実現する新しいフレームワークであるLaCo(Layer-wise Visual Token Compression)を提案する。
LaCoは,1)空間-チャネル変換によって隣接するトークンを体系的にマージするレイヤワイドピクセルシャッフル機構,2)非パラメトリックショートカットを用いた残差学習アーキテクチャ,の2つのコアコンポーネントを導入している。
論文 参考訳(メタデータ) (2025-07-03T03:42:54Z) - FuseLIP: Multimodal Embeddings via Early Fusion of Discrete Tokens [56.752362642658504]
マルチモーダル埋め込みの代替アーキテクチャであるFuseLIPを提案する。
本稿では,テキストと画像トークンの拡張語彙で動作する単一のトランスフォーマーモデルを提案する。
本稿では,VQAやテキスト誘導画像変換検索などのマルチモーダル埋め込みタスクにおいて,FuseLIPが他の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-06-03T17:27:12Z) - ToDRE: Visual Token Pruning via Diversity and Task Awareness for Efficient Large Vision-Language Models [59.47738955960352]
ToDREは、2段階でトレーニング不要なトークン圧縮フレームワークである。
トークンの多様性とトークン-タスク関連性に基づいてトークンをプルーニングすることで、優れたパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-05-24T15:47:49Z) - ToFu: Visual Tokens Reduction via Fusion for Multi-modal, Multi-patch, Multi-image Task [34.269081635534526]
ToFuは視覚的エンコーダに依存しない,トレーニング不要な,高解像度でマルチイメージなタスクのためのToken Fusion戦略を提案する。
LLaVA-Interleave Benchは,マルチイメージタスクに挑戦する手法である。
論文 参考訳(メタデータ) (2025-03-06T14:00:59Z) - MOVE: A Mixture-of-Vision-Encoders Approach for Domain-Focused Vision-Language Processing [2.0249250133493195]
マルチモーダル言語モデル(MLM)は、視覚エンコーダと大きな言語モデルとを特定のアダプタを介して結合することにより、視覚情報とテキスト情報を統合する。
我々は、複数の事前学習されたエンコーダを特殊タスクに活用するMOVE(Mixture of Visions)を提案する。
論文 参考訳(メタデータ) (2025-02-21T11:05:30Z) - Multimodal Autoregressive Pre-training of Large Vision Encoders [85.39154488397931]
本稿では,汎用視覚エンコーダのファミリーであるAIMV2について述べる。
エンコーダはマルチモーダル評価だけでなく,ローカライゼーションやグラウンド,分類といったビジョンベンチマークでも優れている。
論文 参考訳(メタデータ) (2024-11-21T18:31:25Z) - A Simple Baseline with Single-encoder for Referring Image Segmentation [14.461024566536478]
本稿では,単一エンコーダ(BEiT-3)を用いたRIS法を提案する。
単一エンコーダによる単純なベースラインは、RISベンチマークデータセット上で優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-28T04:14:01Z) - Rethinking and Improving Natural Language Generation with Layer-Wise
Multi-View Decoding [59.48857453699463]
シーケンシャル・ツー・シーケンス学習では、デコーダは注意機構に依存してエンコーダから情報を効率的に抽出する。
近年の研究では、異なるエンコーダ層からの表現を多様なレベルの情報に利用することが提案されている。
本稿では, 各デコーダ層に対して, グローバルビューとして機能する最後のエンコーダ層からの表現とともに, ソースシーケンスの立体視のために他のエンコーダ層からのデコーダ層からのデコーダ層を補足するレイヤワイド・マルチビューデコーダを提案する。
論文 参考訳(メタデータ) (2020-05-16T20:00:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。