論文の概要: MixKVQ: Query-Aware Mixed-Precision KV Cache Quantization for Long-Context Reasoning
- arxiv url: http://arxiv.org/abs/2512.19206v1
- Date: Mon, 22 Dec 2025 09:44:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.697766
- Title: MixKVQ: Query-Aware Mixed-Precision KV Cache Quantization for Long-Context Reasoning
- Title(参考訳): MixKVQ:ロングコンテキスト推論のためのクエリ対応Mixed-Precision KVキャッシュ量子化
- Authors: Tao Zhang, Ziqian Zeng, Hao Peng, Huiping Zhuang, Cen Chen,
- Abstract要約: Long Chain-of-Thought (CoT)推論は、Large Language Models (LLM)の機能を大幅に進歩させた。
既存の低ビット量子化法は、複雑な推論タスクにおいて深刻な性能劣化を示すことが多い。
重要鍵チャネルを識別・保存するための軽量なクエリ対応アルゴリズムであるMixKVQを提案する。
- 参考スコア(独自算出の注目度): 30.527521568636242
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Long Chain-of-Thought (CoT) reasoning has significantly advanced the capabilities of Large Language Models (LLMs), but this progress is accompanied by substantial memory and latency overhead from the extensive Key-Value (KV) cache. Although KV cache quantization is a promising compression technique, existing low-bit quantization methods often exhibit severe performance degradation on complex reasoning tasks. Fixed-precision quantization struggles to handle outlier channels in the key cache, while current mixed-precision strategies fail to accurately identify components requiring high-precision representation. We find that an effective low-bit KV cache quantization strategy must consider two factors: a key channel's intrinsic quantization difficulty and its relevance to the query. Based on this insight, we propose MixKVQ, a novel plug-and-play method that introduces a lightweight, query-aware algorithm to identify and preserve critical key channels that need higher precision, while applying per-token quantization for value cache. Experiments on complex reasoning datasets demonstrate that our approach significantly outperforms existing low-bit methods, achieving performance comparable to a full-precision baseline at a substantially reduced memory footprint.
- Abstract(参考訳): Long Chain-of-Thought(CoT)推論は、Large Language Models(LLM)の機能を大幅に向上させたが、この進歩には、大規模なKey-Value(KV)キャッシュからのかなりのメモリと遅延オーバーヘッドが伴っている。
KVキャッシュの量子化は有望な圧縮手法であるが、既存の低ビットの量子化手法は複雑な推論タスクにおいて深刻な性能劣化を示すことが多い。
固定精度量子化はキーキャッシュの外部チャネルを扱うのに苦労するが、現在の混合精度戦略では高精度表現を必要とするコンポーネントを正確に識別することができない。
有効な低ビットKVキャッシュ量子化戦略は、キーチャネル固有の量子化の難しさとクエリとの関連性という2つの要因を考慮しなければならない。
この知見に基づいて,より高精度なキーチャネルを識別・保存する軽量なクエリ対応アルゴリズムであるMixKVQを提案する。
複雑な推論データセットの実験は、我々のアプローチが既存の低ビット法よりも大幅に優れており、メモリフットプリントを大幅に削減した完全精度ベースラインに匹敵する性能を実現していることを示している。
関連論文リスト
- XQuant: Achieving Ultra-Low Bit KV Cache Quantization with Cross-Layer Compression [54.28208936996186]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにまたがる顕著な機能を示している。
量子化は、歴史的情報を保持しながらメモリ消費を減らすための有望な解決策として現れてきた。
超低等価ビット幅KVキャッシュ量子化を実現するトレーニングフリーでプラグアンドプレイのフレームワークであるXQuantを提案する。
論文 参考訳(メタデータ) (2025-10-13T10:17:21Z) - TaDA: Training-free recipe for Decoding with Adaptive KV Cache Compression and Mean-centering [10.427881558469442]
量子化精度の高いKVキャッシュ圧縮のためのトレーニング不要なレシピであるTaDAを紹介する。
提案手法は,様々なコンテキスト長をサポートする複数のモデルに対して,大幅な精度向上を実現する。
本手法は,言語モデルにおけるスケーラブルで高性能な推論手法である。
論文 参考訳(メタデータ) (2025-06-05T05:23:38Z) - ReCalKV: Low-Rank KV Cache Compression via Head Reordering and Offline Calibration [69.57122277845293]
ReCalKVは,キーと値の調整を施した低ランクKVキャッシュ圧縮手法である。
キーズでは、構造的に類似した頭部をグループにクラスタリングし、より正確な低ランク近似を可能にするSimisity aware Recontext (HSR)を提案する。
本稿では,オフラインヘッドワイド値(OVC)を提案する。これはトレーニングなしでキャリブレーションデータを用いて,効率的に値予測行列を校正する。
論文 参考訳(メタデータ) (2025-05-30T08:49:27Z) - Cocktail: Chunk-Adaptive Mixed-Precision Quantization for Long-Context LLM Inference [24.184349246524587]
CocktailはKVキャッシュを最適化するためにチャンク適応型混合精度量子化を採用している。
チャンクレベルの量子化探索は、KVキャッシュチャンクの最適ビット幅構成を決定する。
Cocktailは、さまざまなモデルやデータセット上で、最先端のKVキャッシュ量子化手法より優れている。
論文 参考訳(メタデータ) (2025-03-30T03:20:34Z) - SVDq: 1.25-bit and 410x Key Cache Compression for LLM Attention [0.0]
KVキャッシュ圧縮技術の主な3つのタイプ、すなわちスパシティ、チャネル圧縮、量子化が同定された。
本研究は,Kキャッシュの混合精度定量化法であるSVDqを提案する。
論文 参考訳(メタデータ) (2025-02-21T08:55:21Z) - More Tokens, Lower Precision: Towards the Optimal Token-Precision Trade-off in KV Cache Compression [71.42818367729573]
大規模言語モデル(LLM)では、KVキャッシュのメモリ使用量は推論において重大なボトルネックとなっている。
KVプルーニングやKV量子化を含む主流のKV圧縮法は、主にトークンまたは精度寸法を別々に扱う。
本稿では,KVキャッシュ圧縮におけるトークン精度トレードオフを包括的に検討する。
論文 参考訳(メタデータ) (2024-12-17T09:20:31Z) - QAQ: Quality Adaptive Quantization for LLM KV Cache [3.163526369095745]
モデルデプロイメントのボトルネックは、コンテキスト長のキーバリューキャッシュの線形拡張によって生じる。
KVキャッシュのための品質適応量子化スキームQAQを提案する。
論文 参考訳(メタデータ) (2024-03-07T16:42:37Z) - SubGen: Token Generation in Sublinear Time and Memory [48.35076900702408]
大規模言語モデル(LLM)はトークン生成に広範なメモリ要件を持つ。
本研究では,KVキャッシュの効率的な圧縮手法の開発に焦点をあてる。
我々は,キートークンにオンラインクラスタリングを導入し,値に$ell$をサンプリングする,サブ線形複雑性を持つ新しいキャッシング手法を考案した。
このアルゴリズムは、サブリニアメモリフットプリントとサブリニアタイムの複雑さを保証するだけでなく、我々のアプローチに厳密なエラーを課す。
論文 参考訳(メタデータ) (2024-02-08T22:17:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。