Fugu-MT 論文翻訳(概要): EvoPrune: Early-Stage Visual Token Pruning for Efficient MLLMs

論文の概要: EvoPrune: Early-Stage Visual Token Pruning for Efficient MLLMs

arxiv url: http://arxiv.org/abs/2603.03681v1
Date: Wed, 04 Mar 2026 03:15:14 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-05 21:29:15.168085
Title: EvoPrune: Early-Stage Visual Token Pruning for Efficient MLLMs
Title（参考訳）: EvoPrune: 効率的なMLLMのための初期段階のビジュアルトーケンプルーニング
Authors: Yuhao Chen, Bin Shan, Xin Ye, Cheng Chen,
Abstract要約: EvoPruneは、ビジュアルエンコーディング中に直接プルーニングを実行するMLLMのアーリーステージのビジュアルトークンプルーニング手法である。 EvoPruneは、1%未満のパフォーマンス劣化を伴う2$times$推論スピードアップを実現し、レイテンシに敏感なMLLMデプロイメントの可能性を示している。
参考スコア（独自算出の注目度）: 11.74199552426475
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multimodal Large Language Models (MLLMs) have shown strong performance in vision-language tasks, but their inference efficiency is severely limited by the exponential growth of visual tokens in complex scenarios such as high-resolution images and videos. Existing visual token pruning methods mainly operate after visual encoding, overlooking the substantial computational cost incurred during the encoding stage. To address this issue, we propose EvoPrune, an early-stage visual token pruning method for MLLMs that performs pruning directly during visual encoding. Specifically, EvoPrune employs a layer-wise pruning strategy guided by token similarity, diversity, and attention-based importance to retain the most informative visual tokens at selected encoding layers. Extensive experiments on image and video benchmarks validate the effectiveness of EvoPrune. In particular, on the VideoMME dataset, EvoPrune achieves 2$\times$ inference speedup with less than 1% performance degradation, demonstrating its potential for latency-sensitive MLLM deployment.
Abstract（参考訳）: MLLM(Multimodal Large Language Models)は視覚言語タスクにおいて高い性能を示すが、高解像度画像やビデオのような複雑なシナリオにおける視覚トークンの指数的増加により、推論効率は著しく制限されている。既存の視覚トークンプルーニング法は、主に視覚符号化後に動作し、符号化段階で発生するかなりの計算コストを見越す。この問題に対処するために,視覚符号化中に直接プルーニングを行うMLLMの早期視覚トークンプルーニング手法であるEvoPruneを提案する。具体的には、EvoPruneでは、トークンの類似性、多様性、注意に基づく重要度によって導かれるレイヤワイズプルーニング戦略を採用して、選択されたエンコーディング層において最も情報に富む視覚的トークンを保持する。画像とビデオのベンチマークに関する大規模な実験は、EvoPruneの有効性を検証する。特に、VideoMMEデータセットでは、EvoPruneは1%未満のパフォーマンス劣化を伴う2$\times$推論スピードアップを実現しており、レイテンシに敏感なMLLMデプロイメントの可能性を示している。

関連論文リスト

IPCV: Information-Preserving Compression for MLLM Visual Encoders [44.76073540999133]
IPCVは、MLLMビジュアルエンコーダのためのトレーニング不要の情報保存圧縮フレームワークである。トークンプルーニングによる負の影響を緩和するために,注意安定化(AS)を導入する。 IPCVはエンドツーエンドの計算を大幅に削減し、最先端のトレーニング不要なトークン圧縮手法より優れている。
論文参考訳（メタデータ） (2025-12-21T14:28:28Z)
CoViPAL: Layer-wise Contextualized Visual Token Pruning for Large Vision-Language Models [75.88232735646018]
LVLM(Large Vision-Language Models)は、画像やビデオから抽出されたテキストトークンとビジョントークンからなるマルチモーダル入力を処理する。既存の手法は冗長な視覚トークンを創りだそうとしており、視覚表現のかなりの冗長性を明らかにしている。我々は,LVLMで処理される前に冗長な視覚トークンを予測・削除するために,Plug-and-Play Pruning Module (PPM) を用いるレイヤワイズなコンテキスト対応型視覚トークンプルーニング手法であるCoViPALを提案する。
論文参考訳（メタデータ） (2025-08-24T07:47:00Z)
VScan: Rethinking Visual Token Reduction for Efficient Large Vision-Language Models [57.2662376527586]
VScanは2段階のビジュアルトークン削減フレームワークである。 1)グローバルスキャンとローカルスキャンを視覚的エンコーディング中にマージすることで,(2)言語モデルの中間層にプルーニングを導入する。 VScanはプリフィルの2.91$times$スピードアップとFLOPの10$times$ダウンを実現し、オリジナルのパフォーマンスの95.4%を維持した。
論文参考訳（メタデータ） (2025-05-28T17:59:08Z)
PruneVid: Visual Token Pruning for Efficient Video Large Language Models [24.889834611542955]
マルチモーダルビデオ理解の効率化を目的とした視覚的トークンプルーニング手法PruneVidを紹介する。 LLMは、視覚的モダリティを解釈する能力の拡張により、ビデオタスクにおいて有望なパフォーマンスを示してきた。提案手法を複数のビデオベンチマークで検証し,トークンの80%以上をPruneVidが実行可能であることを示す。
論文参考訳（メタデータ） (2024-12-20T18:01:58Z)
Elevating Visual Perception in Multimodal LLMs with Visual Embedding Distillation [109.5893580175657]
近年,MLLMの開発における標準的な実践は,視覚エンコーダの機能をLLMに供給し,自然言語による指導を施すことである。このアプローチは、しばしばモデルが言語理解に傾き、データに存在するリッチな視覚知覚信号を損なう。本稿では,視覚知識をエキスパートビジョンエンコーダからLLMの隠れ表現に注入する最初のアプローチであるVisPer-LMを提案する。
論文参考訳（メタデータ） (2024-12-12T18:55:18Z)
Accelerating Multimodal Large Language Models via Dynamic Visual-Token Exit and the Empirical Findings [66.04061083611863]
既存のMultimoal Large Language Models (MLLM) における視覚トークンの過剰使用は、しばしば明らかな冗長性を示し、非常に高価な計算をもたらす。 DyVTE(Dynamic visual-token exit)と呼ばれるMLLMの効率を改善するための簡易かつ効果的な手法を提案する。 DyVTEは軽量なハイパーネットワークを使用して、テキストトークンの状態を認識し、特定のレイヤの後にすべてのビジュアルトークンを削除する。
論文参考訳（メタデータ） (2024-11-29T11:24:23Z)
Efficient Multi-modal Large Language Models via Visual Token Grouping [55.482198808206284]
高解像度の画像やビデオは、彼らの広く普及するための障壁となる。 MLLMにおける視覚トークンの圧縮は、推論コストを削減するための有望なアプローチとして現れている。本稿では,事前学習した視覚エンコーダの能力を利用して類似画像セグメントをグループ化する,新たなグループ化機構であるVisToGを紹介する。
論文参考訳（メタデータ） (2024-11-26T09:36:02Z)
FoPru: Focal Pruning for Efficient Large Vision-Language Models [11.36025001578531]
本稿では、視覚エンコーダから導出される注目に基づくトークンの重要度に基づいて、視覚トークンを抽出する訓練不要なFocal Pruning(FoPru)を提案する。提案手法は,高い精度を維持しつつ多数の冗長トークンを抽出し,推論効率を大幅に向上させる。
論文参考訳（メタデータ） (2024-11-21T14:22:38Z)
Inference Optimal VLMs Need Fewer Visual Tokens and More Parameters [54.01228554126122]
視覚言語モデル(VLM)は、様々な視覚的理解と推論タスクにまたがる強力な能力を示している。推論コストを削減するために、LLM(Large Language Models)を縮小するか、イメージを表すのに必要な入力トークンの数を削減できる。高速圧縮に適したトークン圧縮アルゴリズムを設計する第一歩を踏み出す。
論文参考訳（メタデータ） (2024-11-05T18:54:21Z)
Sparsity Meets Similarity: Leveraging Long-Tail Distribution for Dynamic Optimized Token Representation in Multimodal Large Language Models [6.467840081978855]
マルチモーダル大言語モデル(MM-LLM)は様々なタスクで大きな成功を収めた。主な計算負担は、処理されたテキストと視覚トークンから生じる。視覚的CLSトークン類似度曲線の屈折点を同定する動的プルーニングアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-09-02T10:49:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。