論文の概要: ReDiPrune: Relevance-Diversity Pre-Projection Token Pruning for Efficient Multimodal LLMs
- arxiv url: http://arxiv.org/abs/2603.24680v1
- Date: Wed, 25 Mar 2026 18:01:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:47.923004
- Title: ReDiPrune: Relevance-Diversity Pre-Projection Token Pruning for Efficient Multimodal LLMs
- Title(参考訳): ReDiPrune: 効率的なマルチモーダルLCMのためのレバレンス・ダイバーシティ・プレプロジェクション・トケニング
- Authors: An Yu, Ting Yu Tsai, Zhenfei Zhang, Weiheng Lu, Felix X. -F. Ye, Ming-Ching Chang,
- Abstract要約: ReDiPrune(ReDiPrune)は、視覚言語プロジェクタに適用される、トレーニング不要のトークンプルーニング手法である。
視覚エンコーダ出力から直接情報トークンを選択し、きめ細かい空間的および意味的な手がかりを保存する。
4つのビデオと5つの画像ベンチマークの精度と効率のトレードオフを一貫して改善する。
- 参考スコア(独自算出の注目度): 16.523460406504604
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent multimodal large language models are computationally expensive because Transformers must process a large number of visual tokens. We present \textbf{ReDiPrune}, a training-free token pruning method applied before the vision-language projector, where visual features remain rich and discriminative. Unlike post-projection pruning methods that operate on compressed representations, ReDiPrune selects informative tokens directly from vision encoder outputs, preserving fine-grained spatial and semantic cues. Each token is scored by a lightweight rule that jointly consider text-conditioned relevance and max-min diversity, ensuring the selected tokens are both query-relevant and non-redundant. ReDiPrune is fully plug-and-play, requiring no retraining or architectural modifications, and can be seamlessly inserted between the encoder and projector. Across four video and five image benchmarks, it consistently improves the accuracy-efficiency trade-off. For example, on EgoSchema with LLaVA-NeXT-Video-7B, retaining only 15\% of visual tokens yields a +2.0\% absolute accuracy gain while reducing computation by more than $6\times$ in TFLOPs. Code is available at https://github.com/UA-CVML/ReDiPrune.
- Abstract(参考訳): 最近のマルチモーダルな大言語モデルは、トランスフォーマーが大量の視覚トークンを処理しなければならないため、計算コストが高い。
本稿では,視覚的特徴が豊かで識別可能な,視覚言語プロジェクタの前に適用されたトレーニング不要なトークンプルーニング手法である「textbf{ReDiPrune}」を提案する。
ReDiPruneは圧縮表現で操作する投射後のプルーニング法とは異なり、視覚エンコーダ出力から直接情報トークンを選択し、きめ細かい空間的および意味的な手がかりを保存する。
各トークンは、テキスト条件の関連性と最大値の多様性を共同で考慮し、選択されたトークンがクエリ関連かつ非冗長であることを保証する軽量なルールによってスコア付けされる。
ReDiPruneは完全にプラグアンドプレイで、再トレーニングやアーキテクチャの変更は不要で、エンコーダとプロジェクタの間にシームレスに挿入できる。
4つのビデオと5つの画像ベンチマークで、精度と効率のトレードオフが一貫して改善されている。
例えば、LLaVA-NeXT-Video-7B の EgoSchema では、視覚トークンの 15 % しか保持していないため、TFLOPs の計算を 6 ドル以上削減しながら、絶対精度は +2.0 % 向上する。
コードはhttps://github.com/UA-CVML/ReDiPrune.comで入手できる。
関連論文リスト
- PIO-FVLM: Rethinking Training-Free Visual Token Reduction for VLM Acceleration from an Inference-Objective Perspective [59.24570811503256]
本稿では,視覚モデル(VLM)における冗長な視覚トークンを減らし,推論を高速化するPIO-FVLMを提案する。
提案されているPIO-FVLMは、トレーニングフリーで、FlashAttentionと互換性があり、実用的なアプリケーションやデプロイメントに親しみやすい。
LLaVA-Next-7Bでは、PIO-FVLMは視覚トークンの11.1%しか保持していないが、オリジナルのパフォーマンスの97.2%を維持している。
論文 参考訳(メタデータ) (2026-02-04T15:33:10Z) - SCOPE: Saliency-Coverage Oriented Token Pruning for Efficient Multimodel LLMs [59.415473779171315]
textbfSaliency-textbfCoverage textbfOriented token textbfPruning for textbfEfficient MLLMs。
論文 参考訳(メタデータ) (2025-10-28T09:29:37Z) - CoViPAL: Layer-wise Contextualized Visual Token Pruning for Large Vision-Language Models [75.88232735646018]
LVLM(Large Vision-Language Models)は、画像やビデオから抽出されたテキストトークンとビジョントークンからなるマルチモーダル入力を処理する。
既存の手法は冗長な視覚トークンを創りだそうとしており、視覚表現のかなりの冗長性を明らかにしている。
我々は,LVLMで処理される前に冗長な視覚トークンを予測・削除するために,Plug-and-Play Pruning Module (PPM) を用いるレイヤワイズなコンテキスト対応型視覚トークンプルーニング手法であるCoViPALを提案する。
論文 参考訳(メタデータ) (2025-08-24T07:47:00Z) - DivPrune: Diversity-based Visual Token Pruning for Large Multimodal Models [13.519389777060226]
LMM(Large Multimodal Models)にビジュアルトークンを追加すると、トークンの総数は数千に増加する。
この問題に対処するため、視覚的トークンの一部を除去するトークンプルーニング手法が提案されている。
提案手法であるDivPruneは冗長性を低減し,選択したトークンの最大多様性を実現する。
論文 参考訳(メタデータ) (2025-03-04T01:33:14Z) - Inference Optimal VLMs Need Fewer Visual Tokens and More Parameters [54.01228554126122]
視覚言語モデル(VLM)は、様々な視覚的理解と推論タスクにまたがる強力な能力を示している。
推論コストを削減するために、LLM(Large Language Models)を縮小するか、イメージを表すのに必要な入力トークンの数を削減できる。
高速圧縮に適したトークン圧縮アルゴリズムを設計する第一歩を踏み出す。
論文 参考訳(メタデータ) (2024-11-05T18:54:21Z) - LLaVA-PruMerge: Adaptive Token Reduction for Efficient Large Multimodal Models [35.88374542519597]
大規模マルチモーダルモデル(LMM)は、視覚エンコーダと大きな言語モデルとを接続することで、視覚的推論能力を示す。
近年のLMMには、高解像度の画像やビデオなど、より複雑な視覚入力が組み込まれており、視覚トークンの数が大幅に増加する。
我々は,LMMの性能を損なうことなく,視覚トークンの数を著しく削減する適応型視覚トークン削減戦略であるPruMergeを提案する。
論文 参考訳(メタデータ) (2024-03-22T17:59:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。