Fugu-MT 論文翻訳(概要): RotateKV: Accurate and Robust 2-Bit KV Cache Quantization for LLMs via Outlier-Aware Adaptive Rotations

論文の概要: RotateKV: Accurate and Robust 2-Bit KV Cache Quantization for LLMs via Outlier-Aware Adaptive Rotations

arxiv url: http://arxiv.org/abs/2501.16383v2
Date: Sun, 02 Feb 2025 03:04:54 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-04 14:01:55.116522
Title: RotateKV: Accurate and Robust 2-Bit KV Cache Quantization for LLMs via Outlier-Aware Adaptive Rotations
Title（参考訳）: RotateKV:outlier-Aware Adaptive RotationsによるLCMの精度とロバスト2ビットKVキャッシュ量子化
Authors: Zunhai Su, Zhe Chen, Wang Shen, Hanyu Wei, Linge Li, Huangqi Yu, Kehong Yuan,
Abstract要約: キーバリュー(KV)キャッシュは、過去のKVの再計算を避けることにより、効率的な大言語モデル(LLM)推論を容易にする。既存のKV量子化は、微細な量子化や高ビット幅キャッシュのかなりの部分の保持に依存している。本稿では,以下の技術革新を通じて正確で堅牢な性能を実現するRotateKVを提案する。
参考スコア（独自算出の注目度）: 4.794762861776729
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Key-Value (KV) cache facilitates efficient large language models (LLMs) inference by avoiding recomputation of past KVs. As the batch size and context length increase, the oversized KV caches become a significant memory bottleneck, highlighting the need for efficient compression. Existing KV quantization rely on fine-grained quantization or the retention of a significant portion of high bit-widths caches, both of which compromise compression ratio and often fail to maintain robustness at extremely low average bit-widths. In this work, we explore the potential of rotation technique for 2-bit KV quantization and propose RotateKV, which achieves accurate and robust performance through the following innovations: (i) Outlier-Aware Rotation, which utilizes channel-reordering to adapt the rotations to varying channel-wise outlier distributions without sacrificing the computational efficiency of the fast Walsh-Hadamard transform (FWHT); (ii) Pre-RoPE Grouped-Head Rotation, which mitigates the impact of rotary position embedding (RoPE) on proposed outlier-aware rotation and further smooths outliers across heads; (iii) Attention-Sink-Aware Quantization, which leverages the massive activations to precisely identify and protect attention sinks. RotateKV achieves less than 0.3 perplexity (PPL) degradation with 2-bit quantization on WikiText-2 using LLaMA-2-13B, maintains strong CoT reasoning and long-context capabilities, with less than 1.7\% degradation on GSM8K, outperforming existing methods even at lower average bit-widths. RotateKV also showcases a 3.97x reduction in peak memory usage, supports 5.75x larger batch sizes, and achieves a 2.32x speedup in decoding stage.
Abstract（参考訳）: キーバリュー(KV)キャッシュは、過去のKVの再計算を避けることにより、効率的な大言語モデル(LLM)推論を容易にする。バッチサイズとコンテキスト長が大きくなるにつれて、過大なKVキャッシュは重要なメモリボトルネックとなり、効率的な圧縮の必要性が強調される。既存のKV量子化は、高いビット幅のキャッシュのかなりの部分の微細化や保持に依存しており、どちらも妥協圧縮比があり、非常に低い平均ビット幅で堅牢性を維持することができない。本研究では,2ビットKV量子化のための回転技術の可能性を探究し,以下の革新を通じて高精度で堅牢な性能を実現するRotateKVを提案する。一高速ウォルシュ・アダマール変換(FWHT)の計算効率を犠牲にすることなく、チャネルリダクションを利用して異なるチャネルワイド・アダマール分布に回転を適用すること。 (II) 回転位置埋め込み(RoPE)が提案された外周認識回転に与える影響を緩和し、さらに頭部の外周を平滑にする前回転型群頭回転三大量のアクティベーションを活用して注意シンクを正確に識別し、保護する注意シンク対応量子化。 RotateKVは、LLaMA-2-13Bを用いてWikiText-2上で2ビット量子化を行い、0.3パープレキシティ (PPL) 未満の分解を達成し、強いCoT推論と長いコンテキスト能力を維持し、GSM8Kでは1.7%未満の劣化を達成し、平均ビット幅でも既存手法よりも優れている。 RotateKVはまた、ピークメモリ使用量の3.97倍を削減し、5.75倍のバッチサイズをサポートし、デコード段階では2.32倍のスピードアップを達成する。

関連論文リスト

KV-Latent: Dimensional-level KV Cache Reduction with Frequency-aware Rotary Positional Embedding [72.12756830560217]
Transformer Decodersをベースとした大規模言語モデル(LLM)が、会話生成AIの選択肢として好まれている。デコーダアーキテクチャの全体的な優位性にもかかわらず、推論中にキーバリューキャッシュが徐々に増加し、主要な効率ボトルネックとなっている。キーバリューベクトル次元を潜在空間にダウンサンプリングすることで、KVキャッシュのフットプリントを大幅に削減し、推論速度を向上させることができる。
論文参考訳（メタデータ） (2025-07-15T12:52:12Z)
ReCalKV: Low-Rank KV Cache Compression via Head Reordering and Offline Calibration [81.81027217759433]
大きな言語モデル(LLM)はキーバリュー(KV)キャッシュを保存するのに必要な過剰なメモリによって制約されることが多い。近年,KVキャッシュの隠蔽次元の低減について検討されている。本稿では,KVキャッシュの隠れ次元を削減した後学習KVキャッシュ圧縮手法ReCalKVを提案する。
論文参考訳（メタデータ） (2025-05-30T08:49:27Z)
PM-KVQ: Progressive Mixed-precision KV Cache Quantization for Long-CoT LLMs [18.315998135174652]
トレーニング後のKVキャッシュ量子化は、有望な圧縮技術として登場した。既存のメソッドは、利用可能なメモリを適切に活用できない。短いコンテキストのキャリブレーションでは、キーキャッシュ内の頻度の低いチャネルの分散を考慮できません。
論文参考訳（メタデータ） (2025-05-24T09:18:11Z)
DBudgetKV: Dynamic Budget in KV Cache Compression for Ensuring Optimal Performance [125.81664663201282]
我々はDBudgetKVと呼ばれる新しいKVキャッシュ圧縮手法を提案する。これは、残りのKVキャッシュがフルキャッシュのパフォーマンスにマッチしそうにない場合に、注意に基づくメトリクスを信号として、プルーニングプロセスを停止させる。提案手法は,メモリ空間を最適化するだけでなく,既存の手法に比べて推論時間を短縮する。
論文参考訳（メタデータ） (2025-02-24T06:33:39Z)
KVCrush: Key value cache size-reduction using similarity in head-behaviour [40.792661186062396]
大規模言語モデル(LLM)における推論を高速化する重要な最適化手法としてキーバリューキャッシュ(KV)が登場している。しかしながら、KVのメモリフットプリントは、モデルのバッチサイズに直接影響を与えるモデルデプロイメントにおいて、大きなボトルネックとなります。我々は,KVCrushと多くのKV圧縮技術を組み合わせることで,より小さなメモリでモデル精度を向上させることを提案する。
論文参考訳（メタデータ） (2025-02-24T02:57:51Z)
SVDq: 1.25-bit and 410x Key Cache Compression for LLM Attention [0.0]
KVキャッシュ圧縮技術の主な3つのタイプ、すなわちスパシティ、チャネル圧縮、量子化が同定された。本研究は,Kキャッシュの混合精度定量化法であるSVDqを提案する。
論文参考訳（メタデータ） (2025-02-21T08:55:21Z)
RocketKV: Accelerating Long-Context LLM Inference via Two-Stage KV Cache Compression [25.190765258589707]
RocketKVは、デコードフェーズにおけるKVキャッシュのメモリ帯域幅とキャパシティ要求の両方を削減するために設計された、トレーニング不要なKVキャッシュ圧縮戦略である。 RocketKVは、NVIDIA H100 GPU上のデコードフェーズで最大31%のピークメモリ削減とともに、エンドツーエンドのスピードアップを最大3$times$で提供することを示す。
論文参考訳（メタデータ） (2025-02-19T19:12:46Z)
HACK: Homomorphic Acceleration via Compression of the Key-Value Cache for Disaggregated LLM Inference [24.068304021577358]
Disaggregated Large Language Model (LLM) 推論は、計算集約型プリフィルステージとメモリ集約型デコードステージを分離する。キーバリュー(KV)データを2つのステージ間で送信することは、特に長いプロンプトにおいてボトルネックとなる可能性がある。分散LDM推論のためのKVキャッシュ(HACK)の圧縮によるホモモルフィック高速化を提案する。
論文参考訳（メタデータ） (2025-02-05T20:09:51Z)
MiniKV: Pushing the Limits of LLM Inference via 2-Bit Layer-Discriminative KV Cache [17.58398289266989]
Mini KVは、KVキャッシュサイズを大幅に削減しつつ、長時間のコンテキストタスクの精度を同時に保持するKVキャッシュ最適化手法である。我々は,Mini KVが86%のKVキャッシュ圧縮比を実現し,98.5%以上の精度を回復し,最先端の手法より優れていることを示す。
論文参考訳（メタデータ） (2024-11-27T06:10:49Z)
LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文参考訳（メタデータ） (2024-10-04T03:10:53Z)
ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文参考訳（メタデータ） (2024-07-30T17:59:08Z)
Effectively Compress KV Heads for LLM [28.0801697946958]
キーバリュー(KV)キャッシュを圧縮する新しい手法を提案する。提案手法は,従来のLLMに匹敵する性能を維持しつつ,KVヘッドの4分の1以上を圧縮することができる。
論文参考訳（メタデータ） (2024-06-11T08:37:33Z)
Unlocking Data-free Low-bit Quantization with Matrix Decomposition for KV Cache Compression [87.5604418100301]
キー値(KV)キャッシングは,大規模言語モデルの推論を高速化する重要な手法である。既存の手法はしばしば精度を損なうか、キャリブレーションのために余分なデータを必要とする。テンソル分解法に基づく新しいデータフリー低ビット量子化手法である textbfDecoQuant を導入する。
論文参考訳（メタデータ） (2024-05-21T08:35:10Z)
KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache [67.9776980972508]
我々はKIVIというチューニング不要な2ビットKVキャッシュ量子化アルゴリズムを開発した。 KIVI は Llama, Falcon, Mistral のモデルを $mathbf2.6times$ less peak memory を使用しながらほぼ同じ品質を維持することができる。
論文参考訳（メタデータ） (2024-02-05T06:06:47Z)
KVQuant: Towards 10 Million Context Length LLM Inference with KV Cache Quantization [67.74400574357472]
LLMは、大きなコンテキストウィンドウを必要とするアプリケーションでの利用が増えており、この大きなコンテキストウィンドウでは、KVキャッシュのアクティベーションが推論時のメモリ消費の主要な要因として表面化している。量子化はKVキャッシュのアクティベーションを圧縮する上で有望な手法であるが、既存のソリューションは4ビット以下の精度でアクティベーションを正確に表現できない。我々の研究であるKVQuantは、いくつかの新しい手法を取り入れることで、低精度のKVキャッシュ量子化を容易にする。
論文参考訳（メタデータ） (2024-01-31T18:58:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。