論文の概要: SCOPE: Saliency-Coverage Oriented Token Pruning for Efficient Multimodel LLMs
- arxiv url: http://arxiv.org/abs/2510.24214v1
- Date: Tue, 28 Oct 2025 09:29:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:36.920847
- Title: SCOPE: Saliency-Coverage Oriented Token Pruning for Efficient Multimodel LLMs
- Title(参考訳): SCOPE:高効率マルチモデルLCMのための衛生志向型トーケンプルーニング
- Authors: Jinhong Deng, Wen Li, Joey Tianyi Zhou, Yang He,
- Abstract要約: textbfSaliency-textbfCoverage textbfOriented token textbfPruning for textbfEfficient MLLMs。
- 参考スコア(独自算出の注目度): 59.415473779171315
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Large Language Models (MLLMs) typically process a large number of visual tokens, leading to considerable computational overhead, even though many of these tokens are redundant. Existing visual token pruning methods primarily focus on selecting the most salient tokens based on attention scores, resulting in the semantic incompleteness of the selected tokens. In this paper, we propose a novel visual token pruning strategy, called \textbf{S}aliency-\textbf{C}overage \textbf{O}riented token \textbf{P}runing for \textbf{E}fficient MLLMs (SCOPE), to jointly model both the saliency and coverage of the selected visual tokens to better preserve semantic completeness. Specifically, we introduce a set-coverage for a given set of selected tokens, computed based on the token relationships. We then define a token-coverage gain for each unselected token, quantifying how much additional coverage would be obtained by including it. By integrating the saliency score into the token-coverage gain, we propose our SCOPE score and iteratively select the token with the highest SCOPE score. We conduct extensive experiments on multiple vision-language understanding benchmarks using the LLaVA-1.5 and LLaVA-Next models. Experimental results demonstrate that our method consistently outperforms prior approaches. Our code is available at \href{https://github.com/kinredon/SCOPE}{https://github.com/kinredon/SCOPE}.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は一般的に多数のビジュアルトークンを処理し、多くのトークンが冗長であるにもかかわらず、かなりの計算オーバーヘッドをもたらす。
既存の視覚トークンプルーニング手法は、主に注意スコアに基づいて最も顕著なトークンを選択することに重点を置いており、結果として選択されたトークンのセマンティックな不完全性が生じる。
本稿では、選択された視覚トークンの正当性とカバレッジを協調的にモデル化し、セマンティックな完全性を維持するために、新しい視覚トークンのプルーニング戦略である「textbf{S}aliency-\textbf{C}overage \textbf{O}riented token \textbf{P}runing for \textbf{E}fficient MLLMs (SCOPE) を提案する。
具体的には、トークン関係に基づいて計算された選択されたトークンの集合に対する集合被覆を導入する。
次に、選択されていないトークン毎にトークンカバレッジゲインを定義し、それを含めることで、追加のカバレッジが得られるかを定量化します。
トークン被覆ゲインにサリエンシスコアを組み込むことで、SCOPEスコアを提案し、SCOPEスコアが最も高いトークンを反復的に選択する。
我々は、LLaVA-1.5とLLaVA-Nextモデルを用いて、複数の視覚言語理解ベンチマークについて広範な実験を行った。
実験結果から,本手法は従来手法よりも常に優れていることが示された。
私たちのコードは \href{https://github.com/kinredon/SCOPE}{https://github.com/kinredon/SCOPE} で利用可能です。
関連論文リスト
- TrimTokenator: Towards Adaptive Visual Token Pruning for Large Multimodal Models [4.779482139419908]
テキストトークンと意味的に視覚トークンを除去する相互情報に基づくトークンプルーニング戦略を導入する。
LLaVA-15-7BやLLaVA-7Bといったモデルでは,テキストトークンを88.9%削減しながら高い性能を維持している。
論文 参考訳(メタデータ) (2025-08-30T02:43:50Z) - VISA: Group-wise Visual Token Selection and Aggregation via Graph Summarization for Efficient MLLMs Inference [76.00113788838334]
Group-wise textbfVIsual token textbfSelection and textbfAggregation (VISA)
本手法は,視覚トークンを圧縮しながら,より視覚的な情報を保存できる。
VISAの有効性を検証するため,LLaVA-1.5,LLaVA-NeXT,Video-LLaVAの総合的な実験を行った。
論文 参考訳(メタデータ) (2025-08-25T10:07:07Z) - Beyond Attention or Similarity: Maximizing Conditional Diversity for Token Pruning in MLLMs [30.97955016203357]
マルチモーダルな大言語モデルでは、入力される視覚トークンの長さはテキストのそれよりもはるかに大きいことが多い。
我々は,保持トークンの条件付き多様性を最大化する,CDPrunerという新しい視覚的トークン解析手法を提案する。
実験の結果、CDPrunerは様々な視覚ベースのベンチマークで新しい最先端を確立できることがわかった。
論文 参考訳(メタデータ) (2025-06-12T17:59:09Z) - Window Token Concatenation for Efficient Visual Large Language Models [59.6094005814282]
視覚的大言語モデル(VLLM)における視覚トークンを減らすために,ウィンドウトークン結合(WiCo)を提案する。
WiCoグループはさまざまなトークンをひとつに分類し、いくつかの細かい詳細を曖昧にします。
我々はLLaVA-1.5とShikraをベースとした粗くきめ細かな視覚的理解タスクについて広範囲に実験を行い、既存のトークン低減プロジェクタと比較して優れた性能を示した。
論文 参考訳(メタデータ) (2025-04-05T02:32:58Z) - VQToken: Neural Discrete Token Representation Learning for Extreme Token Reduction in Video Large Language Models [35.38573641029626]
最小限の離散トークンを用いてビデオ全体を表現することを目的としたExtreme Short Token Reductionという新しいタスクを紹介した。
Extreme Short Token Reductionタスクでは、私たちのVQTokenはシーケンスをオリジナルの長さのわずか0.07パーセントまで圧縮し、NextQA-MCベンチマークでは0.6%の精度しか達成していません。
論文 参考訳(メタデータ) (2025-03-21T09:46:31Z) - ElasticTok: Adaptive Tokenization for Image and Video [109.75935878130582]
我々は、フレームを可変数のトークンに適応的にエンコードする、事前のフレームを条件付けするElasticTokを紹介する。
推論中、ElasticTokは必要に応じてトークンを動的に割り当てる。
画像とビデオに対する評価は,トークンの有効利用におけるアプローチの有効性を示すものである。
論文 参考訳(メタデータ) (2024-10-10T20:54:15Z) - Sparsity Meets Similarity: Leveraging Long-Tail Distribution for Dynamic Optimized Token Representation in Multimodal Large Language Models [6.467840081978855]
マルチモーダル大言語モデル(MM-LLM)は様々なタスクで大きな成功を収めた。
主な計算負担は、処理されたテキストと視覚トークンから生じる。
視覚的CLSトークン類似度曲線の屈折点を同定する動的プルーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-09-02T10:49:10Z) - Leveraging per Image-Token Consistency for Vision-Language Pre-training [52.825150269820696]
クロスモーダルマスク言語モデリング(CMLM)は視覚言語事前学習には不十分である。
視覚言語事前学習のためのEPIC(Leveraging Per Image-Token Consistency)を提案する。
提案手法は, 事前学習法と容易に組み合わせることができる。
論文 参考訳(メタデータ) (2022-11-20T12:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。