論文の概要: InnerQ: Hardware-aware Tuning-free Quantization of KV Cache for Large Language Models
- arxiv url: http://arxiv.org/abs/2602.23200v1
- Date: Thu, 26 Feb 2026 16:50:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.789327
- Title: InnerQ: Hardware-aware Tuning-free Quantization of KV Cache for Large Language Models
- Title(参考訳): innerQ: 大規模言語モデルのためのハードウェア対応チューニング不要なKVキャッシュの量子化
- Authors: Sayed Mohammadreza Tayaranian Hosseini, Amir Ardakani, Warren J. Gross,
- Abstract要約: innerQはハードウェア対応のKVキャッシュ量子化スキームで、精度を犠牲にすることなく遅延を復号する。
内部次元上のキャッシュ行列をグループ化しながら、グループワイズ量子化を適用する。
Llamaモデルに対する評価実験により、InnerQは非量子化KVキャッシュに匹敵する数ショットのGSM8K性能を維持していることが示された。
- 参考スコア(独自算出の注目度): 4.4248984733976275
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reducing the hardware footprint of large language models (LLMs) during decoding is critical for efficient long-sequence generation. A key bottleneck is the key-value (KV) cache, whose size scales with sequence length and easily dominates the memory footprint of the model. Previous work proposed quantization methods that are focused on compressing the KV cache while maintaining its information. We introduce InnerQ, a hardware-aware KV-cache quantization scheme that lowers decode latency without sacrificing accuracy. InnerQ applies group-wise quantization while grouping the cache matrices over their inner dimension. Unlike previous work that group over the outer dimension, InnerQ aligns dequantization with the vector-matrix multiplication and enables scale factor reuse across GPU compute units. This reduces memory accesses and accelerates dequantization, yielding up to $22\%$ speedup over previous work and up to $88\%$ over half-precision vector-matrix multiplication. To preserve fidelity under aggressive compression, InnerQ incorporates (i) hybrid quantization, selecting symmetric or asymmetric quantization per group based on local statistics; (ii) high-precision windows for both the most recent tokens and the attention sink tokens to mitigate outlier leakage; and (iii) per-channel normalization of the key cache, computed once during prefill and folded into the query to avoid runtime overhead. Our evaluation experiments on Llama models shows that InnerQ maintains a few-shot GSM8K performance comparable to non-quantized KV caches and surpasses prior KV cache quantization methods.
- Abstract(参考訳): 大規模な言語モデル(LLM)のデコード時のハードウェアフットプリントの削減は、効率的なロングシーケンス生成に不可欠である。
鍵値キャッシュ(キー・バリュー・キャッシュ、英: key-value cache、KV)は、配列長でスケールし、モデルのメモリフットプリントを簡易に支配するキャッシュである。
従来の研究では、KVキャッシュの圧縮に重点を置いた量子化手法が提案されていた。
ハードウェアを意識したKVキャッシュ量子化方式であるInnerQを導入する。
内部Qは、内部次元上のキャッシュ行列をグループ化しながら、グループワイド量子化を適用する。
外次元をグループ化する以前の作業とは異なり、InnerQはベクトル行列乗法とデクタント化を一致させ、GPU計算ユニット間でスケールファクタの再利用を可能にする。
これによりメモリアクセスを減らし、デクエント化を加速し、前回の処理よりも最大22\%$スピードアップし、半精度ベクトル行列乗算よりも最大8\%$アップする。
積極的な圧縮下での忠実性を維持するために、InnerQは組み込む
(i) 局所統計に基づく群ごとの対称的又は非対称的な量子化を選択するハイブリッド量子化
(二 最新のトークン及び注目シンクトークンの両方の高精度窓により、流出口漏れを緩和すること。)
3) キーキャッシュのチャネルごとの正規化。プリフィル時に一度計算され、実行時のオーバーヘッドを避けるためにクエリに折り畳まれる。
Llama モデルを用いた評価実験により,InnerQ は非量子化 KV キャッシュに匹敵する数ショットの GSM8K 性能を維持し,従来の KV キャッシュ量子化手法を超越していることがわかった。
関連論文リスト
- VecInfer: Efficient LLM Inference with Low-Bit KV Cache via Outlier-Suppressed Vector Quantization [23.781285860723248]
キーバリュー(KV)キャッシュは、大きな言語モデル(LLM)推論中にメモリオーバーヘッドを導入する。
本稿では,効率的な推論を実現しつつ,能動的KVキャッシュ圧縮のための新しいVQ手法であるVecInferを提案する。
VecInferは、長いコンテキスト理解と数学的推論タスクの両方において、既存の量子化ベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2025-10-07T17:35:28Z) - ReCalKV: Low-Rank KV Cache Compression via Head Reordering and Offline Calibration [69.57122277845293]
ReCalKVは,キーと値の調整を施した低ランクKVキャッシュ圧縮手法である。
キーズでは、構造的に類似した頭部をグループにクラスタリングし、より正確な低ランク近似を可能にするSimisity aware Recontext (HSR)を提案する。
本稿では,オフラインヘッドワイド値(OVC)を提案する。これはトレーニングなしでキャリブレーションデータを用いて,効率的に値予測行列を校正する。
論文 参考訳(メタデータ) (2025-05-30T08:49:27Z) - SQuat: Subspace-orthogonal KV Cache Quantization [19.131705063324883]
SQuat(Subspace-orthogonal KV cache Quantization)を導入し、ピークメモリを2.17から2.82に削減し、スループットを2.45から3.60に改善し、既存のKVキャッシュ量子化アルゴリズムよりも優れたベンチマークスコアを得る。
我々は,ピークメモリを2.17から2.82に削減し,スループットを2.45から3.60に改善し,既存のKVキャッシュ量子化アルゴリズムよりも優れたベンチマークスコアを得ることを示した。
論文 参考訳(メタデータ) (2025-03-31T17:37:32Z) - Cocktail: Chunk-Adaptive Mixed-Precision Quantization for Long-Context LLM Inference [24.184349246524587]
CocktailはKVキャッシュを最適化するためにチャンク適応型混合精度量子化を採用している。
チャンクレベルの量子化探索は、KVキャッシュチャンクの最適ビット幅構成を決定する。
Cocktailは、さまざまなモデルやデータセット上で、最先端のKVキャッシュ量子化手法より優れている。
論文 参考訳(メタデータ) (2025-03-30T03:20:34Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - Unlocking Data-free Low-bit Quantization with Matrix Decomposition for KV Cache Compression [87.5604418100301]
キー値(KV)キャッシングは,大規模言語モデルの推論を高速化する重要な手法である。
既存の手法はしばしば精度を損なうか、キャリブレーションのために余分なデータを必要とする。
テンソル分解法に基づく新しいデータフリー低ビット量子化手法である textbfDecoQuant を導入する。
論文 参考訳(メタデータ) (2024-05-21T08:35:10Z) - KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache [67.9776980972508]
我々はKIVIというチューニング不要な2ビットKVキャッシュ量子化アルゴリズムを開発した。
KIVI は Llama, Falcon, Mistral のモデルを $mathbf2.6times$ less peak memory を使用しながらほぼ同じ品質を維持することができる。
論文 参考訳(メタデータ) (2024-02-05T06:06:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。