論文の概要: OSCAR: Offline Spectral Covariance-Aware Rotation for 2-bit KV Cache Quantization
- arxiv url: http://arxiv.org/abs/2605.17757v1
- Date: Mon, 18 May 2026 02:24:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:48.59333
- Title: OSCAR: Offline Spectral Covariance-Aware Rotation for 2-bit KV Cache Quantization
- Title(参考訳): OSCAR: 2ビットKVキャッシュ量子化のためのオフラインスペクトル共分散対応ローテーション
- Authors: Zhongzhu Zhou, Donglin Zhuang, Jisen Li, Ziyan Chen, Shuaiwen Leon Song, Ben Athiwaratkun, Xiaoxia Wu,
- Abstract要約: そこで本研究では,アテンション・アウェアの共分散構造をオフラインで推定するUltra-low-bit KVキャッシュ量子化手法を提案する。
このようにして、KV量子化は、注意が実際に消費する共分散構造と整合する。
提案手法は,5つのタスクにまたがる最大32kトークンの推論トレースを用いて,最近の推論モデルを用いて評価する。
- 参考スコア(独自算出の注目度): 14.533966202649806
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: INT2 KV-cache quantization is attractive for long-context LLM serving, but it remains difficult to make both accurate and deployable. Simple rotations such as Hadamard transforms reduce outliers, but still degrade at INT2 because they are not aligned with downstream attention. We propose OSCAR, an Ultra-low-bit KV Cache quantization method that estimates attention-aware covariance structures offline and uses them to derive fixed rotations and clipping thresholds for quantization. In this way, it aligns KV quantization with the covariance structures that attention actually consumes. More importantly, we not only provide theoretical justification but also develop a fully deployable OSCAR system with a custom INT2 attention kernel that remains compatible with paged KV-cache serving and fused kernel pipelines, enabling seamless integration into modern LLM serving frameworks such as SGLang and vLLM. We evaluate our methods on recent reasoning models with reasoning traces of up to 32k tokens across 5 tasks. On Qwen3-4B-Thinking-2507 and Qwen3-8B, OSCAR reduces the BF16 accuracy gap to 3.78 and 1.42 points, respectively, while naive rotation INT2 collapses to nearly zero. We further scale OSCAR to Qwen3-32B and GLM-4.7 (358B params), where it remains effectively on par with BF16. On long context - RULER-NIAH up to 128K, OSCAR remains robust on both Qwen3 models, while naive rotation INT2 collapses. System-wise, OSCAR reduces KV-cache memory by approximately 8x, improves throughput by up to 7x at large batch sizes under the same memory budget, and accelerates batch-size-1 decoding by up to 3x over BF16 due to reduced memory bandwidth overhead.
- Abstract(参考訳): INT2 KV-cache量子化は長文LLMサービスには魅力的だが、正確かつデプロイが難しい。
アダマール変換のような単純な回転は、降圧率を減少させるが、下流の注意と一致しないため、INT2では依然として低下する。
そこで本研究では,注目認識型共分散構造をオフラインで推定し,固定回転とクリッピングしきい値の導出に使用する,Ultra-low-bit KVキャッシュ量子化手法OSCARを提案する。
このようにして、KV量子化は、注意が実際に消費する共分散構造と整合する。
さらに重要なことは、理論的な正当化を提供するだけでなく、ページ化されたKV-cacheサービスと融合されたカーネルパイプラインとの互換性を保ちながら、SGLangやvLLMのようなモダンなLLMサービスフレームワークへのシームレスな統合を可能にする、カスタムのINT2アテンションカーネルを備えた完全なデプロイ可能なOSCARシステムも開発しています。
提案手法は,5つのタスクにまたがる最大32kトークンの推論トレースを用いて,最近の推論モデルを用いて評価する。
Qwen3-4B-Thinking-2507 と Qwen3-8B では、OSCAR は BF16 の精度ギャップを 3.78 と 1.42 に減らし、ナイーブ回転INT2 は 0 に崩壊する。
さらにOSCARをQwen3-32BとGLM-4.7(358Bparams)に拡張し、BF16と同等の効率で継続する。
長い文脈では、RULER-NIAHは最大128Kまで、OSCARは両方のQwen3モデルで堅牢であり、一方、単純回転INT2は崩壊する。
システム面では、OSCARはKVキャッシュメモリを約8倍削減し、同じメモリ予算の下で大きなバッチサイズでスループットを最大7倍改善し、メモリ帯域幅のオーバーヘッドが減ったため、バッチサイズ-1デコーディングを最大3倍高速化する。
関連論文リスト
- NOSA: Native and Offloadable Sparse Attention [27.551376861663556]
我々は、KVキャッシュオフロードをサポートするために設計された訓練可能なスパースアテンションフレームワークであるNOSAを提案する。
我々はNOSAが復号スループットを最大2.3倍に向上させながら、ほぼロスレス性能を保っていることを示す。
論文 参考訳(メタデータ) (2025-10-15T14:33:16Z) - CommVQ: Commutative Vector Quantization for KV Cache Compression [50.37946553931796]
本稿では,長期LLM推論におけるメモリ使用量を大幅に削減するために,CommVQ(CommVQ)を提案する。
まず、KVキャッシュを圧縮するための軽量エンコーダとコードブックを用いた加算量子化を導入する。
提案手法は,RoPE-commutative codebook を用いた加算量子化と低オーバーヘッド化により高い精度を実現する。
論文 参考訳(メタデータ) (2025-06-23T17:50:11Z) - KVTuner: Sensitivity-Aware Layer-Wise Mixed-Precision KV Cache Quantization for Efficient and Nearly Lossless LLM Inference [40.97781175723418]
KVキャッシュの量子化は、長いコンテキストにおける大規模言語モデル推論のスループットとレイテンシを改善することができる。
現在の方法では、KVキャッシュの量子化に対する階層的感度を見極めること、オンラインのきめ細かい決定のオーバーヘッドが高いこと、異なるLLMや制約に対する柔軟性の低いこと、の3つの未解決問題がある。
粗粒度のKVキャッシュに対して最適なハードウェアフレンドリなKV量子化ペアを適応的に探索する,シンプルで効果的なフレームワークKVTunerを提案する。
論文 参考訳(メタデータ) (2025-02-06T15:26:26Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache [67.9776980972508]
我々はKIVIというチューニング不要な2ビットKVキャッシュ量子化アルゴリズムを開発した。
KIVI は Llama, Falcon, Mistral のモデルを $mathbf2.6times$ less peak memory を使用しながらほぼ同じ品質を維持することができる。
論文 参考訳(メタデータ) (2024-02-05T06:06:47Z) - KVQuant: Towards 10 Million Context Length LLM Inference with KV Cache Quantization [67.74400574357472]
LLMは、大きなコンテキストウィンドウを必要とするアプリケーションでの利用が増えており、この大きなコンテキストウィンドウでは、KVキャッシュのアクティベーションが推論時のメモリ消費の主要な要因として表面化している。
量子化はKVキャッシュのアクティベーションを圧縮する上で有望な手法であるが、既存のソリューションは4ビット以下の精度でアクティベーションを正確に表現できない。
我々の研究であるKVQuantは、いくつかの新しい手法を取り入れることで、低精度のKVキャッシュ量子化を容易にする。
論文 参考訳(メタデータ) (2024-01-31T18:58:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。