論文の概要: AKVQ-VL: Attention-Aware KV Cache Adaptive 2-Bit Quantization for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2501.15021v1
- Date: Sat, 25 Jan 2025 02:01:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 13:57:29.502124
- Title: AKVQ-VL: Attention-Aware KV Cache Adaptive 2-Bit Quantization for Vision-Language Models
- Title(参考訳): AKVQ-VL:視覚言語モデルのための注意型KVキャッシュ適応2ビット量子化
- Authors: Zunhai Su, Wang Shen, Linge Li, Zhe Chen, Hanyu Wei, Huangqi Yu, Kehong Yuan,
- Abstract要約: 視覚言語モデル(VLM)はマルチモーダルタスクにおいて顕著な性能を示す。
長時間のマルチモーダル入力はキーバリューキャッシュを過大にし、メモリ消費とI/Oボトルネックを引き起こす。
LLM(Large Language Models)の以前のKV量子化手法はこれらの問題を緩和するが、マルチモーダルトークンの注目度差を無視する。
AKVQ-VLはピークメモリ使用量を2.13倍に削減し、最大3.25倍のバッチサイズと2.46倍のスループットをサポートする。
- 参考スコア(独自算出の注目度): 4.794762861776729
- License:
- Abstract: Vision-language models (VLMs) show remarkable performance in multimodal tasks. However, excessively long multimodal inputs lead to oversized Key-Value (KV) caches, resulting in significant memory consumption and I/O bottlenecks. Previous KV quantization methods for Large Language Models (LLMs) may alleviate these issues but overlook the attention saliency differences of multimodal tokens, resulting in suboptimal performance. In this paper, we investigate the attention-aware token saliency patterns in VLM and propose AKVQ-VL. AKVQ-VL leverages the proposed Text-Salient Attention (TSA) and Pivot-Token-Salient Attention (PSA) patterns to adaptively allocate bit budgets. Moreover, achieving extremely low-bit quantization requires effectively addressing outliers in KV tensors. AKVQ-VL utilizes the Walsh-Hadamard transform (WHT) to construct outlier-free KV caches, thereby reducing quantization difficulty. Evaluations of 2-bit quantization on 12 long-context and multimodal tasks demonstrate that AKVQ-VL maintains or even improves accuracy, outperforming LLM-oriented methods. AKVQ-VL can reduce peak memory usage by 2.13x, support up to 3.25x larger batch sizes and 2.46x throughput.
- Abstract(参考訳): 視覚言語モデル(VLM)はマルチモーダルタスクにおいて顕著な性能を示す。
しかし、過度に長いマルチモーダル入力はキーバリュー(KV)キャッシュを過大にし、メモリ消費とI/Oボトルネックを引き起こす。
LLM(Large Language Models)の以前のKV量子化手法はこれらの問題を緩和するが、マルチモーダルトークンの注目度差を見落とし、最適以下の性能をもたらす。
本稿では,VLMにおける注目型トークン・サリエンシパターンについて検討し,AKVQ-VLを提案する。
AKVQ-VLは、ビット予算を適応的に割り当てるために提案されたテキスト・サリアン・アテンション(TSA)とPivot-Token-Salient Attention(PSA)パターンを利用する。
さらに、非常に低ビット量子化を達成するには、KVテンソルの外れ値に効果的に対処する必要がある。
AKVQ-VL はWalsh-Hadamard 変換 (WHT) を用いて外乱のない KV キャッシュを構築し、量子化の難しさを軽減する。
12の長コンテキストおよびマルチモーダルタスクにおける2ビット量子化の評価は、AKVQ-VLが精度を維持したり改善したりすることを示し、LLM指向の手法より優れている。
AKVQ-VLはピークメモリ使用量を2.13倍に削減し、最大3.25倍のバッチサイズと2.46倍のスループットをサポートする。
関連論文リスト
- KVTuner: Sensitivity-Aware Layer-wise Mixed Precision KV Cache Quantization for Efficient and Nearly Lossless LLM Inference [40.97781175723418]
KVキャッシュの量子化は、長いコンテキストにおける大規模言語モデル推論のスループットとレイテンシを改善することができる。
現在の方法では、KVキャッシュの量子化に対する階層的感度を見極めること、オンラインのきめ細かい決定のオーバーヘッドが高いこと、異なるLLMや制約に対する柔軟性の低いこと、の3つの未解決問題がある。
粗粒度のKVキャッシュに対して最適なハードウェアフレンドリなKV量子化ペアを適応的に探索する,シンプルで効果的なフレームワークKVTunerを提案する。
論文 参考訳(メタデータ) (2025-02-06T15:26:26Z) - More Tokens, Lower Precision: Towards the Optimal Token-Precision Trade-off in KV Cache Compression [71.42818367729573]
大規模言語モデル(LLM)では、KVキャッシュのメモリ使用量は推論において重大なボトルネックとなっている。
KVプルーニングやKV量子化を含む主流のKV圧縮法は、主にトークンまたは精度寸法を別々に扱う。
本稿では,KVキャッシュ圧縮におけるトークン精度トレードオフを包括的に検討する。
論文 参考訳(メタデータ) (2024-12-17T09:20:31Z) - VLsI: Verbalized Layers-to-Interactions from Large to Small Vision Language Models [63.27511432647797]
VLsI: Verbalized Layers-to-Interactions, a new VLM family in 2B and 7B model size。
GPT-4Vよりも優れた性能向上(2Bは11.0%、7Bは17.4%)を達成した。
論文 参考訳(メタデータ) (2024-12-02T18:58:25Z) - ZipVL: Efficient Large Vision-Language Models with Dynamic Token Sparsification [29.163757099307553]
大規模視覚言語モデル(LVLM)の効率は、プリフィルフェーズにおける注意機構の計算ボトルネックによって制約される。
本稿では,重要なトークンの動的比割り当て戦略を通じて,LVLM向けに設計された効率的な推論フレームワークZipVLを提案する。
論文 参考訳(メタデータ) (2024-10-11T07:24:21Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - SKVQ: Sliding-window Key and Value Cache Quantization for Large Language Models [43.22490117833939]
SKVQはスライディングウインドウKVキャッシュ量子化の略である。
SKVQは、量子化グループにおけるチャネルの類似性を改善するために、KVキャッシュのチャネルを再構成する。
7bモデルで80GBのメモリGPU上で最大1Mのコンテキスト長を処理でき、最大7倍高速な復号を行うことができる。
論文 参考訳(メタデータ) (2024-05-10T03:06:24Z) - An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference Acceleration for Large Vision-Language Models [65.37846460916042]
視覚的トークンに対する注意計算は,LVLMの深い層において極めて非効率であることがわかった。
本稿では,計算効率の最適化を目的とした多用途プラグアンドプレイ方式であるFastVを紹介する。
論文 参考訳(メタデータ) (2024-03-11T14:35:32Z) - KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache [67.9776980972508]
我々はKIVIというチューニング不要な2ビットKVキャッシュ量子化アルゴリズムを開発した。
KIVI は Llama, Falcon, Mistral のモデルを $mathbf2.6times$ less peak memory を使用しながらほぼ同じ品質を維持することができる。
論文 参考訳(メタデータ) (2024-02-05T06:06:47Z) - KVQuant: Towards 10 Million Context Length LLM Inference with KV Cache Quantization [67.74400574357472]
LLMは、大きなコンテキストウィンドウを必要とするアプリケーションでの利用が増えており、この大きなコンテキストウィンドウでは、KVキャッシュのアクティベーションが推論時のメモリ消費の主要な要因として表面化している。
量子化はKVキャッシュのアクティベーションを圧縮する上で有望な手法であるが、既存のソリューションは4ビット以下の精度でアクティベーションを正確に表現できない。
我々の研究であるKVQuantは、いくつかの新しい手法を取り入れることで、低精度のKVキャッシュ量子化を容易にする。
論文 参考訳(メタデータ) (2024-01-31T18:58:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。