論文の概要: Fit and Prune: Fast and Training-free Visual Token Pruning for Multi-modal Large Language Models
- arxiv url: http://arxiv.org/abs/2409.10197v1
- Date: Mon, 16 Sep 2024 11:43:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-17 15:40:35.110923
- Title: Fit and Prune: Fast and Training-free Visual Token Pruning for Multi-modal Large Language Models
- Title(参考訳): Fit and Prune: マルチモーダル大規模言語モデルのための高速かつトレーニング不要なビジュアルトーケンプルーニング
- Authors: Weihao Ye, Qiong Wu, Wenhao Lin, Yiyi Zhou,
- Abstract要約: トークンプルーニングはMLLMの高速化に有効なソリューションだが、トークンをいつ、どのようにドロップするかは依然として課題である。
本研究では,MLLMの効率的な視覚的トークンプルーニング(FitPrune)のための新しい,トレーニング不要なアプローチを提案する。
- 参考スコア(独自算出の注目度): 10.740051410590553
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent progress in Multimodal Large Language Models(MLLMs) often use large image tokens to compensate the visual shortcoming of MLLMs, which not only exhibits obvious redundancy but also greatly exacerbates the already high computation. Token pruning is an effective solution for speeding up MLLMs, but when and how to drop tokens still remains a challenge. In this paper, we propose a novel and training-free approach for the effective visual token pruning of MLLMs, termed FitPrune, which can quickly produce a complete pruning recipe for MLLMs according to a pre-defined budget. Specifically, FitPrune considers token pruning as a statistical problem of MLLM and its objective is to find out an optimal pruning scheme that can minimize the divergence of the attention distributions before and after pruning. In practice, FitPrune can be quickly accomplished based on the attention statistics from a small batch of inference data, avoiding the expensive trials of MLLMs. According to the pruning recipe, an MLLM can directly remove the redundant visual tokens of different examples during inference. To validate FitPrune, we apply it to a set of recent MLLMs, including LLaVA-1.5, LLaVA-HR and LLaVA-NEXT, and conduct extensive experiments on a set of benchmarks. The experimental results show that our FitPrune can not only reduce the computational complexity to a large extent, while retaining high performance, e.g., -54.9% FLOPs for LLaVA-NEXT with only 0.5% accuracy drop. Notably, the pruning recipe can be obtained in about 5 minutes. Our code is available at https://github.com/ywh187/FitPrune.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)の最近の進歩は、MLLMの視覚的欠点を補うために大きな画像トークンを使用することが多い。
トークンプルーニングはMLLMの高速化に有効なソリューションだが、トークンをいつ、どのようにドロップするかは依然として課題である。
本稿では,MLLMの効率的な視覚的トークンプルーニング(FitPrune)のための新規かつトレーニング不要なアプローチを提案し,事前定義された予算に従ってMLLMの完全なプルーニングレシピを迅速に作成できる。
具体的には、FitPruneはトークンプルーニングをMLLMの統計的問題とみなし、その目的は、プルーニング前後の注意分布のばらつきを最小限に抑える最適なプルーニング手法を見つけることである。
実際にFitPruneは、MLLMの高価な試行を避けるために、少量の推論データからの注意統計に基づいて迅速に達成できる。
プルーニングレシピによると、MLLMは推論中に異なる例の冗長な視覚トークンを直接削除することができる。
FitPruneを検証するために、LLaVA-1.5、LLaVA-HR、LLaVA-NEXTを含む最近のMLLMのセットに適用し、ベンチマークのセットで広範な実験を行う。
実験結果から,LLaVA-NEXTは0.5%の精度で高い性能,-54.9%のFLOPを保ちながら,計算複雑性を大幅に低減できることがわかった。
特に、プルーニングレシピを約5分で得ることができる。
私たちのコードはhttps://github.com/ywh187/FitPrune.comから入手可能です。
関連論文リスト
- Optimization-based Structural Pruning for Large Language Models without Back-Propagation [57.9629676017527]
本稿では,Large-Language Models (LLMs) を用いた最適化に基づく構造解析手法を提案する。
本手法は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。
提案手法は,A100 GPUの13Bモデルに対して,約35GBのメモリで2.7時間動作する。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - Efficient multi-prompt evaluation of LLMs [36.46258631685666]
PromptEvalは,多数のプロンプトに対して性能を推定する手法である。
PromptEvalは一貫して性能分布を推定し,その有効性を実証的に証明する。
論文 参考訳(メタデータ) (2024-05-27T14:24:47Z) - IntactKV: Improving Large Language Model Quantization by Keeping Pivot Tokens Intact [46.32830393597601]
大規模言語モデル(LLM)は自然言語処理に優れるが、集中的な計算を必要とする。
本稿では,LLMにおける従来見過ごされていた外れ値について紹介する。
IntactKVを提案することで、完全精度モデルからピボットトークンのKVキャッシュを損失なく生成する。
論文 参考訳(メタデータ) (2024-03-02T16:05:26Z) - Shortened LLaMA: Depth Pruning for Large Language Models with Comparison of Retraining Methods [5.135352292810664]
単純深度プルーニングは大規模言語モデル(LLM)を効果的に圧縮できることを示す。
我々のプルーニング法は、特にメモリ制約条件下での推論速度を向上する。
この作業がコンパクトで有能なLLMの構築に役立つことを願っています。
論文 参考訳(メタデータ) (2024-02-05T09:44:49Z) - Dynamic Sparse No Training: Training-Free Fine-tuning for Sparse LLMs [67.38165028487242]
そこで我々は,DSnoT(Dynamic Sparse No Training, 動的スパース・ノー・トレーニング)を導入した。
動的スパーストレーニングにインスパイアされたDSnoTは、密度とスパースLLM間の再構成誤差を最小限に抑える。
本稿は, LLMのスパースを, 効率的なトレーニング自由な方法で微調整し, 新たな会場をオープンして, LLMの空間性に大きな可能性を拡大する方法について, 新たな知見を提供する。
論文 参考訳(メタデータ) (2023-10-13T07:38:52Z) - Compressing LLMs: The Truth is Rarely Pure and Never Simple [90.05366363633568]
Knowledge-Intensive Compressed LLM BenchmarKは、圧縮された大言語モデルの評価プロトコルを再定義することを目的としている。
LLM-KICKは、現在のSoTA圧縮方式の多くの有利な利点と不運な点を明らかにしている。
LLM-KICKは、言語理解、推論、生成、テキスト内検索、テキスト内要約などのための圧縮LLMの能力に一様にアクセスできるように設計されている。
論文 参考訳(メタデータ) (2023-10-02T17:42:37Z) - MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models [73.86954509967416]
マルチモーダル言語モデル(MLLM)は、マルチモーダルタスクを実行するために強力なLLMに依存している。
本稿では,MLLM 評価ベンチマーク MME について述べる。
知覚能力と認知能力の両方を合計14のサブタスクで測定する。
論文 参考訳(メタデータ) (2023-06-23T09:22:36Z) - A Simple and Effective Pruning Approach for Large Language Models [58.716255689941896]
大規模言語モデル(LLM)は、ネットワークプルーニング手法の自然な候補である。
しかし,既存の手法では,2次情報に依存した再訓練や重み復元の問題の解決が求められている。
我々は,事前学習したLLMの空間性を高めるために,Wanda (Pruning by Weights and activations) と呼ばれる新しい,単純で効果的な刈り取り法を導入する。
論文 参考訳(メタデータ) (2023-06-20T17:18:20Z) - LoRAPrune: Structured Pruning Meets Low-Rank Parameter-Efficient Fine-Tuning [56.88751562302793]
低ランク適応 (LoRA) が大型言語モデル (LLM) に登場した。
LoRAPruneは、高度にメモリ効率の良い正確な構造化プルーンドモデルを提供する新しいフレームワークである。
LoRAPruneはWikiText2では4.81、TBでは3.46、メモリ使用量は52.6%減少している。
論文 参考訳(メタデータ) (2023-05-28T15:15:48Z) - Batch Prompting: Efficient Inference with Large Language Model APIs [37.70875323133654]
大規模言語モデル(LLM)を用いた大量のサンプルに対する推論は、計算的かつ経済的にコストがかかる可能性がある。
我々は,LLMがバッチで推論を実行できるようにする,シンプルで効果的なプロンプト手法であるバッチプロンプトを提案する。
バッチプロンプトの有効性を,コモンセンスQA,算術的推論,NLI/NLUで検証した。
論文 参考訳(メタデータ) (2023-01-19T02:29:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。