論文の概要: NSNQuant: A Double Normalization Approach for Calibration-Free Low-Bit Vector Quantization of KV Cache
- arxiv url: http://arxiv.org/abs/2505.18231v1
- Date: Fri, 23 May 2025 12:40:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.240138
- Title: NSNQuant: A Double Normalization Approach for Calibration-Free Low-Bit Vector Quantization of KV Cache
- Title(参考訳): NSNQuant: KVキャッシュの校正自由低ビットベクトル量子化のための二重正規化手法
- Authors: Donghyun Son, Euntae Choi, Sungjoo Yoo,
- Abstract要約: NSNQuantは、KVキャッシュの低ビット圧縮のために設計されたキャリブレーションフリーベクトル量子化(VQ)技術である。
NSNQuantは1ビットと2ビットの両方の設定において、従来よりも一貫してパフォーマンスが向上している。
- 参考スコア(独自算出の注目度): 6.383640665055313
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Model (LLM) inference is typically memory-intensive, especially when processing large batch sizes and long sequences, due to the large size of key-value (KV) cache. Vector Quantization (VQ) is recently adopted to alleviate this issue, but we find that the existing approach is susceptible to distribution shift due to its reliance on calibration datasets. To address this limitation, we introduce NSNQuant, a calibration-free Vector Quantization (VQ) technique designed for low-bit compression of the KV cache. By applying a three-step transformation-1) a token-wise normalization (Normalize), 2) a channel-wise centering (Shift), and 3) a second token-wise normalization (Normalize)-with Hadamard transform, NSNQuant effectively aligns the token distribution with the standard normal distribution. This alignment enables robust, calibration-free vector quantization using a single reusable codebook. Extensive experiments show that NSNQuant consistently outperforms prior methods in both 1-bit and 2-bit settings, offering strong generalization and up to 3$\times$ throughput gain over full-precision baselines.
- Abstract(参考訳): 大規模言語モデル(LLM)推論は、特に大きなバッチサイズと長いシーケンスを処理する場合、特にキー値(KV)キャッシュが大きいため、メモリ集約的である。
ベクトル量子化(VQ)はこの問題を緩和するために最近採用されているが、既存のアプローチはキャリブレーションデータセットに依存するため、分散シフトの影響を受けやすい。
この制限に対処するために、KVキャッシュの低ビット圧縮のために設計されたキャリブレーションフリーベクトル量子化(VQ)技術であるSNQuantを導入する。
3段階変換を適用することにより、トークンワイド正規化(Normalize)が実現する。
2)チャンネルワイドセンター(シフト)、及び
3) 第二のトークンワイド正規化(Normalize)-アダマール変換により、SNQuantはトークン分布と標準正規分布を効果的に整合させる。
このアライメントは、単一の再利用可能なコードブックを使用して、ロバストでキャリブレーションのないベクトル量子化を可能にする。
大規模な実験により、SNQuantは1ビットと2ビットの両方の設定において、従来手法よりも一貫して優れており、強力な一般化と最大3$\times$スループットの向上を提供する。
関連論文リスト
- NQKV: A KV Cache Quantization Scheme Based on Normal Distribution Characteristics [6.048883141729117]
大規模言語モデル(LLM)は、幅広いタスクにまたがる卓越した習熟度を示してきた。
LLMは、スループットを高めるためにより大きなバッチサイズを必要とすることや、タスク要求を満たすために長いコンテキスト長を必要とすることも多い。
論文 参考訳(メタデータ) (2025-05-22T04:23:19Z) - SQuat: Subspace-orthogonal KV Cache Quantization [19.131705063324883]
SQuat(Subspace-orthogonal KV cache Quantization)を導入し、ピークメモリを2.17から2.82に削減し、スループットを2.45から3.60に改善し、既存のKVキャッシュ量子化アルゴリズムよりも優れたベンチマークスコアを得る。
我々は,ピークメモリを2.17から2.82に削減し,スループットを2.45から3.60に改善し,既存のKVキャッシュ量子化アルゴリズムよりも優れたベンチマークスコアを得ることを示した。
論文 参考訳(メタデータ) (2025-03-31T17:37:32Z) - PolarQuant: Leveraging Polar Transformation for Efficient Key Cache Quantization and Decoding Acceleration [26.972039704548184]
KVキャッシュを低ビット幅に量子化することは、計算コストを削減する効果的な方法である。
従来の手法では、外れ値による鍵ベクトルの定量化に苦労し、過剰なオーバーヘッドが発生する。
そこで我々はPolarQuantと呼ばれる新しい量子化手法を提案する。
論文 参考訳(メタデータ) (2025-02-01T18:59:03Z) - QJL: 1-Bit Quantized JL Transform for KV Cache Quantization with Zero Overhead [10.067037913589175]
LLMをシリアル化するには、KVキャッシュにキーバリューの埋め込みを格納する必要があるため、かなりのメモリを必要とする。
従来の量子化法は、量子化定数を保存する必要があるため、大きなメモリオーバーヘッドに直面している。
ジョンソン-リンデンシュトラウス変換とサインビット量子化を組み合わせた新しい量子化手法であるQJLを導入する。
論文 参考訳(メタデータ) (2024-06-05T17:42:05Z) - Unlocking Data-free Low-bit Quantization with Matrix Decomposition for KV Cache Compression [87.5604418100301]
キー値(KV)キャッシングは,大規模言語モデルの推論を高速化する重要な手法である。
既存の手法はしばしば精度を損なうか、キャリブレーションのために余分なデータを必要とする。
テンソル分解法に基づく新しいデータフリー低ビット量子化手法である textbfDecoQuant を導入する。
論文 参考訳(メタデータ) (2024-05-21T08:35:10Z) - KVQuant: Towards 10 Million Context Length LLM Inference with KV Cache Quantization [67.74400574357472]
LLMは、大きなコンテキストウィンドウを必要とするアプリケーションでの利用が増えており、この大きなコンテキストウィンドウでは、KVキャッシュのアクティベーションが推論時のメモリ消費の主要な要因として表面化している。
量子化はKVキャッシュのアクティベーションを圧縮する上で有望な手法であるが、既存のソリューションは4ビット以下の精度でアクティベーションを正確に表現できない。
我々の研究であるKVQuantは、いくつかの新しい手法を取り入れることで、低精度のKVキャッシュ量子化を容易にする。
論文 参考訳(メタデータ) (2024-01-31T18:58:14Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。