論文の概要: Kitty: Accurate and Efficient 2-bit KV Cache Quantization with Dynamic Channel-wise Precision Boost
- arxiv url: http://arxiv.org/abs/2511.18643v1
- Date: Sun, 23 Nov 2025 22:54:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.946246
- Title: Kitty: Accurate and Efficient 2-bit KV Cache Quantization with Dynamic Channel-wise Precision Boost
- Title(参考訳): Kitty: 動的チャネルワイズ精度向上による2ビットKVキャッシュの高精度かつ効率的な量子化
- Authors: Haojun Xia, Xiaoxia Wu, Jisen Li, Robert Wu, Junxiong Wang, Jue Wang, Chenxi Li, Aman Singhal, Alay Dilipbhai Shah, Alpay Ariyak, Donglin Zhuang, Zhongzhu Zhou, Ben Athiwaratkun, Zhen Zheng, Shuaiwen Leon Song,
- Abstract要約: Kittyは、混合精度KVキャッシュのためのアルゴリズムとシステムの共同設計である。
KVメモリを8倍近い精度で削減し、最大8倍のバッチと2.1倍-4.1倍のスループットを実現した。
- 参考スコア(独自算出の注目度): 24.865752290192372
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The KV cache is a dominant memory bottleneck for LLM inference. While 4-bit KV quantization preserves accuracy, 2-bit often degrades it, especially on long-context reasoning. We close this gap via an algorithm-system co-design for mixed-precision KV caching: Kitty. On the algorithm side, extensive experiments show that Dynamic Channel-wise Precision Boost -- which ranks Key-cache channels by sensitivity and keeps only a small fraction at higher precision -- maintains near-zero loss in accuracy drop while approaching 2-bit memory. The main challenge is handling dynamic 4-bit channel boosts while keeping the page layout coalesced and the dequantization uniform, with no scattered reads or hard-coded masks. Kitty addresses these issues by decompose each mixed-precision Key page into two tensors with unified 2-bit precision. Based on this, Kitty provides a page-centric KV layout, Triton-compatible page dequantization kernels, and a lightweight runtime pipeline that preserves coalescing and avoids divergence. Across seven tasks and two model families (Qwen3, LLaMA3), Kitty cuts KV memory by nearly 8x with negligible accuracy loss, enabling up to 8x larger batches and 2.1x-4.1x higher throughput under the same memory budget. We release the full implementation of Kitty at https://github.com/Summer-Summer/Kitty.
- Abstract(参考訳): KVキャッシュはLLM推論における主要なメモリボトルネックである。
4ビットのKV量子化は精度を保つが、2ビットはしばしば劣化する。
我々はこのギャップを、混合精度KVキャッシングのためのアルゴリズムとシステムの共同設計で埋める: Kitty。
アルゴリズム側では、Dynamic Channel-wise Precision Boost -- キーキャッシュチャネルを感度でランク付けし、高い精度でわずかに保持する — が、2ビットメモリに近づきながら、ほぼゼロの精度低下を維持していることを示している。
主な課題は、ページレイアウトを合体させながらダイナミックな4ビットチャネルのブーストを処理し、読み出しやハードコードされたマスクを使わずにデカンタライズすることです。
Kittyは、各混合精度キーページを2ビットの精度で2つのテンソルに分解することで、これらの問題に対処する。
これに基づいてKittyは、ページ中心のKVレイアウト、Triton互換のページデクエンタライズカーネル、コネッションを保存し、分散を回避する軽量ランタイムパイプラインを提供する。
7つのタスクと2つのモデルファミリ(Qwen3、LLaMA3)で、KittyはKVメモリをほぼ8倍の精度で削減し、最大8倍のバッチと2.1x-4.1倍のスループットを実現した。
Kittyの完全な実装はhttps://github.com/Summer-Summer/Kitty.comで公開しています。
関連論文リスト
- XQuant: Achieving Ultra-Low Bit KV Cache Quantization with Cross-Layer Compression [54.28208936996186]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにまたがる顕著な機能を示している。
量子化は、歴史的情報を保持しながらメモリ消費を減らすための有望な解決策として現れてきた。
超低等価ビット幅KVキャッシュ量子化を実現するトレーニングフリーでプラグアンドプレイのフレームワークであるXQuantを提案する。
論文 参考訳(メタデータ) (2025-10-13T10:17:21Z) - PatternKV: Flattening KV Representation Expands Quantization Headroom [37.83913102876393]
自己回帰 LLM における KV キャッシュは冗長な再計算を排除しているが、推論時に支配的なメモリと帯域幅のボトルネックとして出現している。
KV量子化はキャッシュコストを削減するキーレバーであるが、ネイティブなKV分布が平坦性に欠けるため、精度は急激に低下する。
Kキャッシュは、コンテキストとともに徐々に進化する安定した構造を維持し、Vキャッシュは潜在意味規則性を持つことを示す。
論文 参考訳(メタデータ) (2025-10-05T12:09:14Z) - R-KV: Redundancy-aware KV Cache Compression for Reasoning Models [77.84539432982307]
共振モデル(R-KV)のための冗長性を考慮したKVキャッシュ圧縮を提案する。
R-KVはKVキャッシュの10%しか使用せず、完全なKVキャッシュ性能のほぼ100%を保っている。
驚くべきことに、R-KVは完全なKVキャッシュ性能の105%を達成し、KVキャッシュの16%を達成している。
論文 参考訳(メタデータ) (2025-05-30T02:03:24Z) - KVmix: Gradient-Based Layer Importance-Aware Mixed-Precision Quantization for KV Cache [13.662270631753135]
量子化は、KVキャッシュによって引き起こされるメモリ圧力を効果的に軽減することができる。
KVmix と呼ばれる KV キャッシュのための新しい混合精度量子化法を提案する。
論文 参考訳(メタデータ) (2025-05-18T07:04:53Z) - SVDq: 1.25-bit and 410x Key Cache Compression for LLM Attention [0.0]
KVキャッシュ圧縮技術の主な3つのタイプ、すなわちスパシティ、チャネル圧縮、量子化が同定された。
本研究は,Kキャッシュの混合精度定量化法であるSVDqを提案する。
論文 参考訳(メタデータ) (2025-02-21T08:55:21Z) - More Tokens, Lower Precision: Towards the Optimal Token-Precision Trade-off in KV Cache Compression [71.42818367729573]
大規模言語モデル(LLM)では、KVキャッシュのメモリ使用量は推論において重大なボトルネックとなっている。
KVプルーニングやKV量子化を含む主流のKV圧縮法は、主にトークンまたは精度寸法を別々に扱う。
本稿では,KVキャッシュ圧縮におけるトークン精度トレードオフを包括的に検討する。
論文 参考訳(メタデータ) (2024-12-17T09:20:31Z) - KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache [67.9776980972508]
我々はKIVIというチューニング不要な2ビットKVキャッシュ量子化アルゴリズムを開発した。
KIVI は Llama, Falcon, Mistral のモデルを $mathbf2.6times$ less peak memory を使用しながらほぼ同じ品質を維持することができる。
論文 参考訳(メタデータ) (2024-02-05T06:06:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。