論文の概要: TurboAngle: Near-Lossless KV Cache Compression via Uniform Angle Quantization
- arxiv url: http://arxiv.org/abs/2603.27467v1
- Date: Sun, 29 Mar 2026 01:21:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:44.973859
- Title: TurboAngle: Near-Lossless KV Cache Compression via Uniform Angle Quantization
- Title(参考訳): TurboAngle: 一様角量子化によるニアロスレスKVキャッシュ圧縮
- Authors: Dipkumar Patel,
- Abstract要約: 我々は、Fast Walsh-Hadamard領域の角度を量子化することで、KVキャッシュエントリを圧縮する。
我々は、この角量子化器を1層当たりの早期ブーストで拡張し、臨界層のモデル固有のサブセットに高い精度を割り当てる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We compress KV cache entries by quantizing angles in the Fast Walsh-Hadamard domain, where a random diagonal rotation makes consecutive element pairs approximately uniformly distributed on the unit circle. We extend this angular quantizer with per-layer early-boost, which independently configures K and V codebook sizes at each layer, allocating higher precision to a model-specific subset of critical layers. Across seven models (1B to 7B parameters), per-layer early-boost achieves lossless compression on four models and near-lossless quality on six of seven, at 3.28 to 3.67 angle bits per element. Asymmetric norm quantization (8-bit for keys, 4-bit log-space for values) yields 6.56 total bits per element on Mistral-7B with perplexity degradation of +0.0014 and no calibration data. A layer-group sensitivity analysis reveals model-specific bottleneck patterns, including K-dominated versus V-dominated layers and negative-transfer layers where increased precision degrades quality.
- Abstract(参考訳): 我々はFast Walsh-Hadamard領域の角度を量子化することでKVキャッシュエントリを圧縮する。
各層でKとVのコードブックサイズを独立に構成し、臨界層のモデル固有のサブセットに高精度に割り当てる。
7つのモデル(1Bから7Bのパラメータ)にまたがって、層ごとの早期ブーストは、4つのモデルでロスレス圧縮を行い、7つのモデルのうち6つのモデルで3.28から3.67の角度ビットでほぼロスレス品質を実現している。
非対称なノルム量子化(キーは8ビット、値は4ビットの対数空間)はMistral-7B上の1要素あたり6.56ビットのトータルビットを生成し、パープレキシティは+0.0014で、キャリブレーションデータはない。
層群感度分析により,K層とV層を優占層とするモデル固有のボトルネックパターンと,精度の向上によって品質が低下する負転移層が明らかになった。
関連論文リスト
- BPDQ: Bit-Plane Decomposition Quantization on a Variable Grid for Large Language Models [56.504879072674015]
本稿では,ビットプレーンとスカラー係数による可変量子化グリッドを構成するビットプレーン分解量子化(BPDQ)を提案する。
BPDQは、1つのGTX 3090上でQwen2.5-72Bを83.85%のGSM8Kの精度で提供できる(ただし16ビットでは90.83%)。
論文 参考訳(メタデータ) (2026-02-04T02:54:37Z) - AnTKV: Anchor Token-Aware Sub-Bit Vector Quantization for KV Cache in Large Language Models [27.605195979962474]
量子化は、大規模言語モデルにおけるKVキャッシュのメモリフットプリントを削減するために、効果的で軽量なソリューションとして登場した。
我々は、アンカートークン対応ベクトル量子化を利用してKVキャッシュを圧縮するデュアルステージフレームワークAnTKVを提案する。
実験により、AnTKVは従来の手法と4ビットで一致またはオーバーし、超低ビット量子化下でのパープレキシティを著しく低減することが示された。
論文 参考訳(メタデータ) (2025-06-24T10:45:48Z) - KVQuant: Towards 10 Million Context Length LLM Inference with KV Cache Quantization [67.74400574357472]
LLMは、大きなコンテキストウィンドウを必要とするアプリケーションでの利用が増えており、この大きなコンテキストウィンドウでは、KVキャッシュのアクティベーションが推論時のメモリ消費の主要な要因として表面化している。
量子化はKVキャッシュのアクティベーションを圧縮する上で有望な手法であるが、既存のソリューションは4ビット以下の精度でアクティベーションを正確に表現できない。
我々の研究であるKVQuantは、いくつかの新しい手法を取り入れることで、低精度のKVキャッシュ量子化を容易にする。
論文 参考訳(メタデータ) (2024-01-31T18:58:14Z) - Kernel Quantization for Efficient Network Compression [59.55192551370948]
Kernel Quantization(KQ)は、事前訓練された全精度畳み込みニューラルネットワーク(CNN)モデルを、大幅なパフォーマンス損失のない低精度バージョンに効率的に変換することを目的としている。
重み付けからフィルタプルーニングへの進化に触発され,カーネルレベルと重み付けレベルの両方で定量化することを提案する。
ImageNet分類タスクの実験では、KQはVGGとResNet18でそれぞれ平均1.05ビットと1.62ビットを必要とし、畳み込み層の各パラメータを表す。
論文 参考訳(メタデータ) (2020-03-11T08:00:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。