Fugu-MT 論文翻訳(概要): AKVQ-VL: Attention-Aware KV Cache Adaptive 2-Bit Quantization for Vision-Language Models

論文の概要: AKVQ-VL: Attention-Aware KV Cache Adaptive 2-Bit Quantization for Vision-Language Models

arxiv url: http://arxiv.org/abs/2501.15021v1
Date: Sat, 25 Jan 2025 02:01:56 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-28 21:57:03.476264
Title: AKVQ-VL: Attention-Aware KV Cache Adaptive 2-Bit Quantization for Vision-Language Models
Title（参考訳）: AKVQ-VL:視覚言語モデルのための注意型KVキャッシュ適応2ビット量子化
Authors: Zunhai Su, Wang Shen, Linge Li, Zhe Chen, Hanyu Wei, Huangqi Yu, Kehong Yuan,
Abstract要約: 視覚言語モデル(VLM)はマルチモーダルタスクにおいて顕著な性能を示す。長時間のマルチモーダル入力はキーバリューキャッシュを過大にし、メモリ消費とI/Oボトルネックを引き起こす。 LLM(Large Language Models)の以前のKV量子化手法はこれらの問題を緩和するが、マルチモーダルトークンの注目度差を無視する。 AKVQ-VLはピークメモリ使用量を2.13倍に削減し、最大3.25倍のバッチサイズと2.46倍のスループットをサポートする。
参考スコア（独自算出の注目度）: 4.794762861776729
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Vision-language models (VLMs) show remarkable performance in multimodal tasks. However, excessively long multimodal inputs lead to oversized Key-Value (KV) caches, resulting in significant memory consumption and I/O bottlenecks. Previous KV quantization methods for Large Language Models (LLMs) may alleviate these issues but overlook the attention saliency differences of multimodal tokens, resulting in suboptimal performance. In this paper, we investigate the attention-aware token saliency patterns in VLM and propose AKVQ-VL. AKVQ-VL leverages the proposed Text-Salient Attention (TSA) and Pivot-Token-Salient Attention (PSA) patterns to adaptively allocate bit budgets. Moreover, achieving extremely low-bit quantization requires effectively addressing outliers in KV tensors. AKVQ-VL utilizes the Walsh-Hadamard transform (WHT) to construct outlier-free KV caches, thereby reducing quantization difficulty. Evaluations of 2-bit quantization on 12 long-context and multimodal tasks demonstrate that AKVQ-VL maintains or even improves accuracy, outperforming LLM-oriented methods. AKVQ-VL can reduce peak memory usage by 2.13x, support up to 3.25x larger batch sizes and 2.46x throughput.
Abstract（参考訳）: 視覚言語モデル(VLM)はマルチモーダルタスクにおいて顕著な性能を示す。しかし、過度に長いマルチモーダル入力はキーバリュー(KV)キャッシュを過大にし、メモリ消費とI/Oボトルネックを引き起こす。 LLM(Large Language Models)の以前のKV量子化手法はこれらの問題を緩和するが、マルチモーダルトークンの注目度差を見落とし、最適以下の性能をもたらす。本稿では,VLMにおける注目型トークン・サリエンシパターンについて検討し,AKVQ-VLを提案する。 AKVQ-VLは、ビット予算を適応的に割り当てるために提案されたテキスト・サリアン・アテンション(TSA)とPivot-Token-Salient Attention(PSA)パターンを利用する。さらに、非常に低ビット量子化を達成するには、KVテンソルの外れ値に効果的に対処する必要がある。 AKVQ-VL はWalsh-Hadamard 変換 (WHT) を用いて外乱のない KV キャッシュを構築し、量子化の難しさを軽減する。 12の長コンテキストおよびマルチモーダルタスクにおける2ビット量子化の評価は、AKVQ-VLが精度を維持したり改善したりすることを示し、LLM指向の手法より優れている。 AKVQ-VLはピークメモリ使用量を2.13倍に削減し、最大3.25倍のバッチサイズと2.46倍のスループットをサポートする。

関連論文リスト

SmallKV: Small Model Assisted Compensation of KV Cache Compression for Efficient LLM Inference [71.20542521694524]
SmallKVはKVキャッシュ圧縮のための小型モデル補助補償法である。本研究では,SmallKVのスループットがベースライン法よりも1.75～2.56倍高いことを示す。
論文参考訳（メタデータ） (2025-08-03T09:15:36Z)
KV-Latent: Dimensional-level KV Cache Reduction with Frequency-aware Rotary Positional Embedding [72.12756830560217]
Transformer Decodersをベースとした大規模言語モデル(LLM)が、会話生成AIの選択肢として好まれている。デコーダアーキテクチャの全体的な優位性にもかかわらず、推論中にキーバリューキャッシュが徐々に増加し、主要な効率ボトルネックとなっている。キーバリューベクトル次元を潜在空間にダウンサンプリングすることで、KVキャッシュのフットプリントを大幅に削減し、推論速度を向上させることができる。
論文参考訳（メタデータ） (2025-07-15T12:52:12Z)
NQKV: A KV Cache Quantization Scheme Based on Normal Distribution Characteristics [6.048883141729117]
大規模言語モデル(LLM)は、幅広いタスクにまたがる卓越した習熟度を示してきた。 LLMは、スループットを高めるためにより大きなバッチサイズを必要とすることや、タスク要求を満たすために長いコンテキスト長を必要とすることも多い。
論文参考訳（メタデータ） (2025-05-22T04:23:19Z)
Plug-and-Play 1.x-Bit KV Cache Quantization for Video Large Language Models [28.379533608574814]
ビデオ大言語モデル(VideoLLM)は、より長いビデオ入力を処理し、複雑な推論と分析を可能にする能力を実証している。ビデオフレームからの数千のビジュアルトークンのため、キー値(KV)キャッシュはメモリ要求を大幅に増加させることができる。本稿では,KVキャッシュを2ビット未満に圧縮するKVキャッシュ量子化手法であるVidKVを紹介する。
論文参考訳（メタデータ） (2025-03-20T15:52:43Z)
KVShare: An LLM Service System with Efficient and Effective Multi-Tenant KV Cache Reuse [17.301289617498448]
マルチテナントシナリオ下で要求間でKVキャッシュを共有するKVキャッシュ管理モジュールを提案する。 KVShareはTTFTを最大9.39倍に削減し、完全なKV再計算に比べてスループットを1.2倍に向上させる。 KVShareはSOTA法に比べて精度が20.38%向上している。
論文参考訳（メタデータ） (2025-03-17T16:43:35Z)
More Tokens, Lower Precision: Towards the Optimal Token-Precision Trade-off in KV Cache Compression [71.42818367729573]
大規模言語モデル(LLM)では、KVキャッシュのメモリ使用量は推論において重大なボトルネックとなっている。 KVプルーニングやKV量子化を含む主流のKV圧縮法は、主にトークンまたは精度寸法を別々に扱う。本稿では,KVキャッシュ圧縮におけるトークン精度トレードオフを包括的に検討する。
論文参考訳（メタデータ） (2024-12-17T09:20:31Z)
VLsI: Verbalized Layers-to-Interactions from Large to Small Vision Language Models [63.27511432647797]
VLsI: Verbalized Layers-to-Interactions, a new VLM family in 2B and 7B model size。 GPT-4Vよりも優れた性能向上(2Bは11.0%、7Bは17.4%)を達成した。
論文参考訳（メタデータ） (2024-12-02T18:58:25Z)
ZipVL: Efficient Large Vision-Language Models with Dynamic Token Sparsification [29.163757099307553]
大規模視覚言語モデル(LVLM)の効率は、プリフィルフェーズにおける注意機構の計算ボトルネックによって制約される。本稿では,重要なトークンの動的比割り当て戦略を通じて,LVLM向けに設計された効率的な推論フレームワークZipVLを提案する。
論文参考訳（メタデータ） (2024-10-11T07:24:21Z)
ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文参考訳（メタデータ） (2024-07-30T17:59:08Z)
SKVQ: Sliding-window Key and Value Cache Quantization for Large Language Models [43.22490117833939]
SKVQはスライディングウインドウKVキャッシュ量子化の略である。 SKVQは、量子化グループにおけるチャネルの類似性を改善するために、KVキャッシュのチャネルを再構成する。 7bモデルで80GBのメモリGPU上で最大1Mのコンテキスト長を処理でき、最大7倍高速な復号を行うことができる。
論文参考訳（メタデータ） (2024-05-10T03:06:24Z)
An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference Acceleration for Large Vision-Language Models [65.37846460916042]
視覚的トークンに対する注意計算は,LVLMの深い層において極めて非効率であることがわかった。本稿では,計算効率の最適化を目的とした多用途プラグアンドプレイ方式であるFastVを紹介する。
論文参考訳（メタデータ） (2024-03-11T14:35:32Z)
KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache [67.9776980972508]
我々はKIVIというチューニング不要な2ビットKVキャッシュ量子化アルゴリズムを開発した。 KIVI は Llama, Falcon, Mistral のモデルを $mathbf2.6times$ less peak memory を使用しながらほぼ同じ品質を維持することができる。
論文参考訳（メタデータ） (2024-02-05T06:06:47Z)
KVQuant: Towards 10 Million Context Length LLM Inference with KV Cache Quantization [67.74400574357472]
LLMは、大きなコンテキストウィンドウを必要とするアプリケーションでの利用が増えており、この大きなコンテキストウィンドウでは、KVキャッシュのアクティベーションが推論時のメモリ消費の主要な要因として表面化している。量子化はKVキャッシュのアクティベーションを圧縮する上で有望な手法であるが、既存のソリューションは4ビット以下の精度でアクティベーションを正確に表現できない。我々の研究であるKVQuantは、いくつかの新しい手法を取り入れることで、低精度のKVキャッシュ量子化を容易にする。
論文参考訳（メタデータ） (2024-01-31T18:58:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。