論文の概要: PM-KVQ: Progressive Mixed-precision KV Cache Quantization for Long-CoT LLMs
- arxiv url: http://arxiv.org/abs/2505.18610v1
- Date: Sat, 24 May 2025 09:18:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.545051
- Title: PM-KVQ: Progressive Mixed-precision KV Cache Quantization for Long-CoT LLMs
- Title(参考訳): PM-KVQ:Long-CoT LLMのためのプログレッシブ混合精度KVキャッシュ量子化
- Authors: Tengxuan Liu, Shiyao Li, Jiayi Yang, Tianchen Zhao, Feng Zhou, Xiaohui Song, Guohao Dai, Shengen Yan, Huazhong Yang, Yu Wang,
- Abstract要約: トレーニング後のKVキャッシュ量子化は、有望な圧縮技術として登場した。
既存のメソッドは、利用可能なメモリを適切に活用できない。
短いコンテキストのキャリブレーションでは、キーキャッシュ内の頻度の低いチャネルの分散を考慮できません。
- 参考スコア(独自算出の注目度): 18.315998135174652
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, significant progress has been made in developing reasoning-capable Large Language Models (LLMs) through long Chain-of-Thought (CoT) techniques. However, this long-CoT reasoning process imposes substantial memory overhead due to the large Key-Value (KV) Cache memory overhead. Post-training KV Cache quantization has emerged as a promising compression technique and has been extensively studied in short-context scenarios. However, directly applying existing methods to long-CoT LLMs causes significant performance degradation due to the following two reasons: (1) Large cumulative error: Existing methods fail to adequately leverage available memory, and they directly quantize the KV Cache during each decoding step, leading to large cumulative quantization error. (2) Short-context calibration: Due to Rotary Positional Embedding (RoPE), the use of short-context data during calibration fails to account for the distribution of less frequent channels in the Key Cache, resulting in performance loss. We propose Progressive Mixed-Precision KV Cache Quantization (PM-KVQ) for long-CoT LLMs to address the above issues in two folds: (1) To reduce cumulative error, we design a progressive quantization strategy to gradually lower the bit-width of KV Cache in each block. Then, we propose block-wise memory allocation to assign a higher bit-width to more sensitive transformer blocks. (2) To increase the calibration length without additional overhead, we propose a new calibration strategy with positional interpolation that leverages short calibration data with positional interpolation to approximate the data distribution of long-context data. Extensive experiments on 7B-70B long-CoT LLMs show that PM-KVQ improves reasoning benchmark performance by up to 8% over SOTA baselines under the same memory budget. Our code is available at https://github.com/thu-nics/PM-KVQ.
- Abstract(参考訳): 近年,Long Chain-of-Thought (CoT) 技術による推論可能なLarge Language Models (LLMs) の開発が著しい進展を遂げている。
しかし、この長いCoT推論プロセスは、キーバリュー(KV)キャッシュのオーバーヘッドが大きいため、かなりのメモリオーバーヘッドを課している。
トレーニング後のKVキャッシュ量子化は有望な圧縮技術として登場し、短いコンテキストシナリオで広く研究されてきた。
しかし、既存のメソッドを長いCoT LLMに直接適用すると、次の2つの理由により、大きな累積誤差:既存のメソッドは利用可能なメモリを適切に活用できず、復号ステップごとにKVキャッシュを直接量子化し、大規模な累積量子化エラーをもたらす。
2) 短コンテキストキャリブレーション: ロータリー位置埋め込み(RoPE)により、キャリブレーション中の短コンテキストデータの使用は、キーキャッシュ内の頻度の低いチャネルの分散を考慮できないため、性能が低下する。
1) 累積誤差を低減するため, 各ブロックのKVキャッシュのビット幅を徐々に小さくするプログレッシブ量子化戦略を設計する。
そこで我々は,高いビット幅を高感度な変圧器ブロックに割り当てるブロックワイドメモリアロケーションを提案する。
2) 余分なオーバーヘッドを伴わずにキャリブレーション長を増大させるため, 位置補間による短いキャリブレーションデータを利用して, 長文データのデータの分布を近似する新たなキャリブレーション戦略を提案する。
7B-70B long-CoT LLMの大規模な実験により、PM-KVQは同じメモリ予算下でSOTAベースラインよりも最大8%高い推論ベンチマーク性能が向上した。
私たちのコードはhttps://github.com/thu-nics/PM-KVQ.comで利用可能です。
関連論文リスト
- DBudgetKV: Dynamic Budget in KV Cache Compression for Ensuring Optimal Performance [125.81664663201282]
我々はDBudgetKVと呼ばれる新しいKVキャッシュ圧縮手法を提案する。
これは、残りのKVキャッシュがフルキャッシュのパフォーマンスにマッチしそうにない場合に、注意に基づくメトリクスを信号として、プルーニングプロセスを停止させる。
提案手法は,メモリ空間を最適化するだけでなく,既存の手法に比べて推論時間を短縮する。
論文 参考訳(メタデータ) (2025-02-24T06:33:39Z) - QuantSpec: Self-Speculative Decoding with Hierarchical Quantized KV Cache [67.84112700032007]
大きな言語モデル(LLM)は、長いコンテキスト設定のためにエッジデバイスにデプロイされることが増えている。
これらのシナリオでは、キーバリュー(KV)キャッシュがGPUメモリとレイテンシの両方において主要なボトルネックとなっている。
そこで本研究では,ターゲットモデルのアーキテクチャを共有するが,階層的な4ビット量子化KVキャッシュと4ビット量子化重みを併用して高速化を行う,新たな自己推論型デコーディングフレームワークであるQuantSpecを提案する。
論文 参考訳(メタデータ) (2025-02-05T20:43:48Z) - ClusterKV: Manipulating LLM KV Cache in Semantic Space for Recallable Compression [10.003118268356017]
ロングコンテキストは推論効率に重大な課題をもたらす。
本稿では,意味クラスタの粒度でトークンをリコールするClusterKVを紹介する。
実験結果から、ClusterKVは32kのコンテキスト長を持つ様々なタスクにおいて、無視可能な精度の損失が得られることがわかった。
論文 参考訳(メタデータ) (2024-12-04T10:58:27Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - Model Tells You Where to Merge: Adaptive KV Cache Merging for LLMs on Long-Context Tasks [21.815661269986425]
KVMergerと呼ばれる新しいKVキャッシュマージ手法を提案し、長文タスクに対して適応的なKVキャッシュ圧縮を実現する。
我々のアプローチは、キー状態が1つのシーケンス内のトークンレベルで高い類似性を示すという興味深い観察にインスパイアされている。
我々は,制約メモリ予算下での長時間コンテキストタスクに対するKVMergerの有効性を示すため,広範囲な実験を行った。
論文 参考訳(メタデータ) (2024-07-11T12:50:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。