論文の概要: GreedyPrune: Retenting Critical Visual Token Set for Large Vision Language Models
- arxiv url: http://arxiv.org/abs/2506.13166v1
- Date: Mon, 16 Jun 2025 07:21:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:47.685606
- Title: GreedyPrune: Retenting Critical Visual Token Set for Large Vision Language Models
- Title(参考訳): GreedyPrune: 大規模ビジョン言語モデルのための重要なビジュアルトークンセットの削減
- Authors: Ruiguang Pei, Weiqing Sun, Zhihui Fu, Jun Wang,
- Abstract要約: GreedyPruneは、セマンティックサリエンシと視覚的多様性を最適化するために設計された、トレーニング不要のビジュアルトークンプルーニングアルゴリズムである。
GreedyPruneは様々なマルチモーダルタスクやモデルにまたがって最先端の精度を実現し、エンドツーエンドの推論遅延を大幅に低減することを示す。
- 参考スコア(独自算出の注目度): 5.025353943896242
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although Large Vision Language Models (LVLMs) have demonstrated remarkable performance in image understanding tasks, their computational efficiency remains a significant challenge, particularly on resource-constrained devices due to the high cost of processing large numbers of visual tokens. Recently, training-free visual token pruning methods have gained popularity as a low-cost solution to this issue. However, existing approaches suffer from two key limitations: semantic saliency-based strategies primarily focus on high cross-attention visual tokens, often neglecting visual diversity, whereas visual diversity-based methods risk inadvertently discarding semantically important tokens, especially under high compression ratios. In this paper, we introduce GreedyPrune, a training-free plug-and-play visual token pruning algorithm designed to jointly optimize semantic saliency and visual diversity. We formalize the token pruning process as a combinatorial optimization problem and demonstrate that greedy algorithms effectively balance computational efficiency with model accuracy. Extensive experiments validate the effectiveness of our approach, showing that GreedyPrune achieves state-of-the-art accuracy across various multimodal tasks and models while significantly reducing end-to-end inference latency.
- Abstract(参考訳): LVLM(Large Vision Language Models)は画像理解タスクにおいて顕著な性能を示したが、その計算効率は大きな課題であり、特に大量の視覚トークンを処理するコストが高いため、リソース制約のあるデバイスでは大きな課題である。
近年,この問題の低コストソリューションとして,トレーニングフリーのビジュアルトークンプルーニング法が人気を集めている。
しかし、既存のアプローチは2つの重要な制限に悩まされている: セマンティック・サリエンシに基づく戦略は、主にハイアテンションな視覚トークンに焦点を当て、視覚的多様性を無視するが、視覚的多様性に基づく手法は、特に高い圧縮率の下で、意味的に重要なトークンを不注意に破棄するリスクがある。
本稿では,セマンティック・サリエンシと視覚多様性を協調的に最適化する学習自由なプラグアンドプレイ型ビジュアルトークン・プルーニングアルゴリズムであるGreedyPruneを紹介する。
我々は,トークンプルーニング処理を組合せ最適化問題として定式化し,グリードアルゴリズムが計算効率とモデルの精度を効果的にバランスさせることを実証した。
GreedyPruneは様々なマルチモーダルタスクやモデルにまたがって最先端の精度を実現し,エンドツーエンドの推論遅延を大幅に低減する。
関連論文リスト
- ToDRE: Visual Token Pruning via Diversity and Task Awareness for Efficient Large Vision-Language Models [59.47738955960352]
ToDREは、2段階でトレーニング不要なトークン圧縮フレームワークである。
トークンの多様性とトークン-タスク関連性に基づいてトークンをプルーニングすることで、優れたパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-05-24T15:47:49Z) - Top-Down Compression: Revisit Efficient Vision Token Projection for Visual Instruction Tuning [70.57180215148125]
ビジュアルインストラクションチューニングは、大きな言語モデルで視覚世界を理解できるようにすることを目的としている。
既存の手法は、精度と効率の間の難解なトレードオフに悩まされることが多い。
LLaVA-Meteorは,コア情報を妥協することなく,視覚トークンを戦略的に圧縮する手法である。
論文 参考訳(メタデータ) (2025-05-17T10:22:29Z) - TopV: Compatible Token Pruning with Inference Time Optimization for Fast and Low-Memory Multimodal Vision Language Model [56.43860351559185]
高速かつ低メモリの textbfVLM に対する推論時間最適化を備えた textbfToken textbfPruning の互換性である textbfTopV を導入する。
我々のフレームワークは、各ソースの視覚的トークンの重要性を測定するために、視覚的なコスト関数を組み込んでおり、低重要トークンの効果的なプルーニングを可能にしている。
論文 参考訳(メタデータ) (2025-03-24T01:47:26Z) - Learning Free Token Reduction for Multi-Modal Large Language Models [3.4026156483879517]
VLM(Vision-Language Models)は、様々なマルチモーダルタスクにおいて顕著な成功を収めている。
しかし、それらの実践的な展開は、しばしば高い計算コストと長期の推論時間によって制約される。
本稿では,空間次元と時間次元の両方で動作するトークン圧縮パラダイムを提案する。
論文 参考訳(メタデータ) (2025-01-29T02:52:32Z) - FocusLLaVA: A Coarse-to-Fine Approach for Efficient and Effective Visual Token Compression [45.37530855889661]
高解像度画像は、多モード大言語モデルに入力される視覚トークンの数を2次的に増加させる。
現在の研究は、しばしば性能を犠牲にして、効率を改善するために視覚的トークン圧縮法を開発している。
情報密度の低い冗長領域を圧縮する視覚誘導型サンプルラと、ユーザ指示と強く相関する視覚トークンを選択するテキスト誘導型サンプルラとを用いて、粗大な視覚トークン圧縮法を構築する。
論文 参考訳(メタデータ) (2024-11-21T15:37:52Z) - Inference Optimal VLMs Need Fewer Visual Tokens and More Parameters [54.01228554126122]
視覚言語モデル(VLM)は、様々な視覚的理解と推論タスクにまたがる強力な能力を示している。
推論コストを削減するために、LLM(Large Language Models)を縮小するか、イメージを表すのに必要な入力トークンの数を削減できる。
高速圧縮に適したトークン圧縮アルゴリズムを設計する第一歩を踏み出す。
論文 参考訳(メタデータ) (2024-11-05T18:54:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。