論文の概要: Fit and Prune: Fast and Training-free Visual Token Pruning for Multi-modal Large Language Models
- arxiv url: http://arxiv.org/abs/2409.10197v1
- Date: Mon, 16 Sep 2024 11:43:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-17 15:40:35.110923
- Title: Fit and Prune: Fast and Training-free Visual Token Pruning for Multi-modal Large Language Models
- Title(参考訳): Fit and Prune: マルチモーダル大規模言語モデルのための高速かつトレーニング不要なビジュアルトーケンプルーニング
- Authors: Weihao Ye, Qiong Wu, Wenhao Lin, Yiyi Zhou,
- Abstract要約: トークンプルーニングはMLLMの高速化に有効なソリューションだが、トークンをいつ、どのようにドロップするかは依然として課題である。
本研究では,MLLMの効率的な視覚的トークンプルーニング(FitPrune)のための新しい,トレーニング不要なアプローチを提案する。
- 参考スコア(独自算出の注目度): 10.740051410590553
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent progress in Multimodal Large Language Models(MLLMs) often use large image tokens to compensate the visual shortcoming of MLLMs, which not only exhibits obvious redundancy but also greatly exacerbates the already high computation. Token pruning is an effective solution for speeding up MLLMs, but when and how to drop tokens still remains a challenge. In this paper, we propose a novel and training-free approach for the effective visual token pruning of MLLMs, termed FitPrune, which can quickly produce a complete pruning recipe for MLLMs according to a pre-defined budget. Specifically, FitPrune considers token pruning as a statistical problem of MLLM and its objective is to find out an optimal pruning scheme that can minimize the divergence of the attention distributions before and after pruning. In practice, FitPrune can be quickly accomplished based on the attention statistics from a small batch of inference data, avoiding the expensive trials of MLLMs. According to the pruning recipe, an MLLM can directly remove the redundant visual tokens of different examples during inference. To validate FitPrune, we apply it to a set of recent MLLMs, including LLaVA-1.5, LLaVA-HR and LLaVA-NEXT, and conduct extensive experiments on a set of benchmarks. The experimental results show that our FitPrune can not only reduce the computational complexity to a large extent, while retaining high performance, e.g., -54.9% FLOPs for LLaVA-NEXT with only 0.5% accuracy drop. Notably, the pruning recipe can be obtained in about 5 minutes. Our code is available at https://github.com/ywh187/FitPrune.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)の最近の進歩は、MLLMの視覚的欠点を補うために大きな画像トークンを使用することが多い。
トークンプルーニングはMLLMの高速化に有効なソリューションだが、トークンをいつ、どのようにドロップするかは依然として課題である。
本稿では,MLLMの効率的な視覚的トークンプルーニング(FitPrune)のための新規かつトレーニング不要なアプローチを提案し,事前定義された予算に従ってMLLMの完全なプルーニングレシピを迅速に作成できる。
具体的には、FitPruneはトークンプルーニングをMLLMの統計的問題とみなし、その目的は、プルーニング前後の注意分布のばらつきを最小限に抑える最適なプルーニング手法を見つけることである。
実際にFitPruneは、MLLMの高価な試行を避けるために、少量の推論データからの注意統計に基づいて迅速に達成できる。
プルーニングレシピによると、MLLMは推論中に異なる例の冗長な視覚トークンを直接削除することができる。
FitPruneを検証するために、LLaVA-1.5、LLaVA-HR、LLaVA-NEXTを含む最近のMLLMのセットに適用し、ベンチマークのセットで広範な実験を行う。
実験結果から,LLaVA-NEXTは0.5%の精度で高い性能,-54.9%のFLOPを保ちながら,計算複雑性を大幅に低減できることがわかった。
特に、プルーニングレシピを約5分で得ることができる。
私たちのコードはhttps://github.com/ywh187/FitPrune.comから入手可能です。
関連論文リスト
- Inference Optimal VLMs Need Only One Visual Token but Larger Models [54.01228554126122]
視覚言語モデル(VLM)は、様々な視覚的理解と推論タスクにまたがる強力な能力を示している。
VLMは、大量の入力トークンを処理するのに必要な計算量が多いため、推論中に高いレイテンシで制約されることが多い。
高いトークン圧縮設定に適したアプローチを構築するために、最初のステップを踏み出します。
論文 参考訳(メタデータ) (2024-11-05T18:54:21Z) - Pruning Foundation Models for High Accuracy without Retraining [48.256389781305415]
基礎モデルや大規模言語モデル(LLM)の展開は、膨大なパラメータと計算量のために困難である。
ワンショットでLLMを再訓練せずにプルーンする訓練後プルーニング法が提案されている。
本実験は,SOTAベースラインと比較して提案手法の優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-21T01:23:34Z) - Skipping Computations in Multimodal LLMs [63.29737699997859]
本研究では,マルチモーダル大言語モデル(MLLM)における推論時の冗長性について検討する。
ブロック全体,FFN,自己保持層をスキップするなど,計算をスキップするさまざまな手法を提案する。
本研究は,推定時に大量の計算を回避できることを実証した。
論文 参考訳(メタデータ) (2024-10-12T09:21:45Z) - LIME: Less Is More for MLLM Evaluation [36.29820380945517]
半自動パイプラインによるベンチマークであるLIME(Less Is More for MLLM Evaluation)を提案する。
このパイプラインは、非形式的なサンプルをフィルタリングし、イメージベースの理解を必要とするタスクに集中することで、回答のリークを取り除く。
実験の結果,LIMEはサンプル数を76%減らし,評価時間を77%減らした。
論文 参考訳(メタデータ) (2024-09-10T20:19:14Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。
我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。
A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - Shortened LLaMA: Depth Pruning for Large Language Models with Comparison of Retraining Methods [5.135352292810664]
単純深度プルーニングは大規模言語モデル(LLM)を効果的に圧縮できることを示す。
我々のプルーニング法は、特にメモリ制約条件下での推論速度を向上する。
この作業がコンパクトで有能なLLMの構築に役立つことを願っています。
論文 参考訳(メタデータ) (2024-02-05T09:44:49Z) - A Simple and Effective Pruning Approach for Large Language Models [58.716255689941896]
大規模言語モデル(LLM)は、ネットワークプルーニング手法の自然な候補である。
しかし,既存の手法では,2次情報に依存した再訓練や重み復元の問題の解決が求められている。
我々は,事前学習したLLMの空間性を高めるために,Wanda (Pruning by Weights and activations) と呼ばれる新しい,単純で効果的な刈り取り法を導入する。
論文 参考訳(メタデータ) (2023-06-20T17:18:20Z) - LoRAPrune: Structured Pruning Meets Low-Rank Parameter-Efficient Fine-Tuning [56.88751562302793]
低ランク適応 (LoRA) が大型言語モデル (LLM) に登場した。
LoRAPruneは、高度にメモリ効率の良い正確な構造化プルーンドモデルを提供する新しいフレームワークである。
LoRAPruneはWikiText2では4.81、TBでは3.46、メモリ使用量は52.6%減少している。
論文 参考訳(メタデータ) (2023-05-28T15:15:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。