論文の概要: ToDRE: Visual Token Pruning via Diversity and Task Awareness for Efficient Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2505.18757v1
- Date: Sat, 24 May 2025 15:47:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.639114
- Title: ToDRE: Visual Token Pruning via Diversity and Task Awareness for Efficient Large Vision-Language Models
- Title(参考訳): ToDRE:高能率視覚言語モデルのための多様性とタスク認識による視覚的トーケンプルーニング
- Authors: Duo Li, Zuhao Yang, Shijian Lu,
- Abstract要約: ToDREは、2段階でトレーニング不要なトークン圧縮フレームワークである。
トークンの多様性とトークン-タスク関連性に基づいてトークンをプルーニングすることで、優れたパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 59.47738955960352
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The representation of visual inputs of large vision-language models (LVLMs) usually involves substantially more tokens than that of textual inputs, leading to significant computational overhead. Several recent studies strive to mitigate this issue by either conducting token compression to prune redundant visual tokens or guiding them to bypass certain computational stages. While most existing work exploits token importance as the redundancy indicator, our study reveals that two largely neglected factors, namely, the diversity of retained visual tokens and their task relevance, often offer more robust criteria in token pruning. To this end, we design ToDRE, a two-stage and training-free token compression framework that achieves superior performance by pruning Tokens based on token Diversity and token-task RElevance. Instead of pruning redundant tokens, ToDRE introduces a greedy k-center algorithm to select and retain a small subset of diverse visual tokens after the vision encoder. Additionally, ToDRE addresses the "information migration" by further eliminating task-irrelevant visual tokens within the decoder of large language model (LLM). Extensive experiments show that ToDRE effectively reduces 90% of visual tokens after vision encoder and adaptively prunes all visual tokens within certain LLM's decoder layers, leading to a 2.6x speed-up in total inference time while maintaining 95.1% of model performance and excellent compatibility with efficient attention operators.
- Abstract(参考訳): 大規模視覚言語モデル(LVLM)の視覚入力の表現は通常、テキスト入力よりもかなり多くのトークンを伴い、計算オーバーヘッドが大幅に増大する。
いくつかの最近の研究は、冗長な視覚トークンをプルークするためにトークン圧縮を実行するか、特定の計算段階をバイパスするように誘導することによって、この問題を緩和しようと試みている。
既存の作業の多くは、冗長性指標としてトークンの重要性を生かしているが、我々の研究は、2つのほとんど無視された要因、すなわち、保持された視覚的トークンの多様性とそのタスク関連性は、トークンプルーニングにおいてより堅牢な基準を提供することが多いことを明らかにしている。
この目的のために、トークンの多様性とトークン-タスク関連性に基づいてトークンを刈り取ることにより、優れたパフォーマンスを実現する、2段階でトレーニング不要なトークン圧縮フレームワークであるToDREを設計する。
冗長なトークンをプルーニングする代わりに、ToDREは、視覚エンコーダの後、様々な視覚トークンの小さなサブセットを選択・保持するgreedy k-centerアルゴリズムを導入した。
さらに、ToDREは、大きな言語モデル(LLM)のデコーダ内のタスク非関連な視覚トークンをさらに排除することで、"情報マイグレーション"に対処する。
大規模な実験により、ToDREは視覚エンコーダの後、視覚トークンの90%を効果的に削減し、特定のLCMデコーダ層内の全ての視覚トークンを適応的にプーンし、モデル性能の95.1%を維持し、効率的な注意演算子との互換性を保ちながら、総推定時間の2.6倍のスピードアップをもたらすことが示されている。
関連論文リスト
- TopV: Compatible Token Pruning with Inference Time Optimization for Fast and Low-Memory Multimodal Vision Language Model [56.43860351559185]
高速かつ低メモリの textbfVLM に対する推論時間最適化を備えた textbfToken textbfPruning の互換性である textbfTopV を導入する。
我々のフレームワークは、各ソースの視覚的トークンの重要性を測定するために、視覚的なコスト関数を組み込んでおり、低重要トークンの効果的なプルーニングを可能にしている。
論文 参考訳(メタデータ) (2025-03-24T01:47:26Z) - [CLS] Token Tells Everything Needed for Training-free Efficient MLLMs [66.5266435598799]
MLLM(Multi- Language Large Language Models)は、最近、広範囲の視覚タスクにおいて強力なパフォーマンスを示した。
しかし、その効率的なデプロイメントは、高い計算コストとメモリ要求のため、依然として大きな課題である。
本稿では,VTC圧縮という,列車不要の視覚圧縮のための簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-12-08T05:29:39Z) - Efficient Multi-modal Large Language Models via Visual Token Grouping [55.482198808206284]
高解像度の画像やビデオは、彼らの広く普及するための障壁となる。
MLLMにおける視覚トークンの圧縮は、推論コストを削減するための有望なアプローチとして現れている。
本稿では,事前学習した視覚エンコーダの能力を利用して類似画像セグメントをグループ化する,新たなグループ化機構であるVisToGを紹介する。
論文 参考訳(メタデータ) (2024-11-26T09:36:02Z) - FoPru: Focal Pruning for Efficient Large Vision-Language Models [11.36025001578531]
本稿では、視覚エンコーダから導出される注目に基づくトークンの重要度に基づいて、視覚トークンを抽出する訓練不要なFocal Pruning(FoPru)を提案する。
提案手法は,高い精度を維持しつつ多数の冗長トークンを抽出し,推論効率を大幅に向上させる。
論文 参考訳(メタデータ) (2024-11-21T14:22:38Z) - Inference Optimal VLMs Need Fewer Visual Tokens and More Parameters [54.01228554126122]
視覚言語モデル(VLM)は、様々な視覚的理解と推論タスクにまたがる強力な能力を示している。
推論コストを削減するために、LLM(Large Language Models)を縮小するか、イメージを表すのに必要な入力トークンの数を削減できる。
高速圧縮に適したトークン圧縮アルゴリズムを設計する第一歩を踏み出す。
論文 参考訳(メタデータ) (2024-11-05T18:54:21Z) - LLaVA-PruMerge: Adaptive Token Reduction for Efficient Large Multimodal Models [35.88374542519597]
大規模マルチモーダルモデル(LMM)は、視覚エンコーダと大きな言語モデルとを接続することで、視覚的推論能力を示す。
近年のLMMには、高解像度の画像やビデオなど、より複雑な視覚入力が組み込まれており、視覚トークンの数が大幅に増加する。
我々は,LMMの性能を損なうことなく,視覚トークンの数を著しく削減する適応型視覚トークン削減戦略であるPruMergeを提案する。
論文 参考訳(メタデータ) (2024-03-22T17:59:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。