論文の概要: GEAR: An Efficient KV Cache Compression Recipe for Near-Lossless
Generative Inference of LLM
- arxiv url: http://arxiv.org/abs/2403.05527v2
- Date: Mon, 11 Mar 2024 18:55:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 13:09:32.210786
- Title: GEAR: An Efficient KV Cache Compression Recipe for Near-Lossless
Generative Inference of LLM
- Title(参考訳): GEAR: LLMのニアロスレス生成推論のための効率的なKVキャッシュ圧縮
- Authors: Hao Kang, Qingru Zhang, Souvik Kundu, Geonhwa Jeong, Zaoxing Liu,
Tushar Krishna, Tuo Zhao
- Abstract要約: キーバリュー(KV)キャッシングは,大規模言語モデル(LLM)推論における生成速度を高速化するデファクトとなっている。
既存の方法は、重要でないトークンをドロップしたり、全てのエントリを均一に定量化することに依存している。
本稿では,高速なKVキャッシュ圧縮フレームワークであるGEARを提案する。
- 参考スコア(独自算出の注目度): 39.77567916589569
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Key-value (KV) caching has become the de-facto to accelerate generation speed
for large language models (LLMs) inference. However, the growing cache demand
with increasing sequence length has transformed LLM inference to be a memory
bound problem, significantly constraining the system throughput. Existing
methods rely on dropping unimportant tokens or quantizing all entries
uniformly. Such methods, however, often incur high approximation errors to
represent the compressed matrices. The autoregressive decoding process further
compounds the error of each step, resulting in critical deviation in model
generation and deterioration of performance. To tackle this challenge, we
propose GEAR, an efficient KV cache compression framework that achieves
near-lossless high-ratio compression. GEAR first applies quantization to
majority of entries of similar magnitudes to ultra-low precision. It then
employs a low rank matrix to approximate the quantization error, and a sparse
matrix to remedy individual errors from outlier entries. By adeptly integrating
three techniques, GEAR is able to fully exploit their synergistic potentials.
Our experiments demonstrate that compared to alternatives, GEAR achieves
near-lossless 4-bit KV cache compression with up to 2.38x throughput
improvement, while reducing peak-memory size up to 2.29x. Our code is publicly
available at https://github.com/HaoKang-Timmy/GEAR.
- Abstract(参考訳): キーバリュー(KV)キャッシングは,大規模言語モデル(LLM)推論における生成速度を高速化するデファクトとなっている。
しかし、シーケンス長の増加に伴うキャッシュ需要の増加は、LLM推論をメモリバウンド問題に転換し、システムのスループットを著しく制限している。
既存のメソッドは、重要でないトークンをドロップしたり、すべてのエントリを一様に定量化する。
しかし、そのような方法はしばしば圧縮行列を表現するために高い近似誤差を生じる。
自己回帰復号プロセスは、各ステップの誤差をさらに複雑にし、モデル生成と性能低下の致命的な偏差をもたらす。
そこで本研究では,高精細度圧縮を実現する効率的なkvキャッシュ圧縮フレームワークであるgearを提案する。
GEAR は最初、超低精度に近い大きさの成分のほとんどに量子化を適用する。
その後、量子化誤差を近似する低ランク行列と、外れたエントリから個々のエラーを修正できるスパース行列を用いる。
3つの技術を統合することで、GEARはシナジスティックなポテンシャルを完全に活用することができる。
我々の実験では、GEARは代替技術と比較して、最大2.38倍のスループット向上を実現し、ピークメモリサイズを2.29倍に削減した。
私たちのコードはhttps://github.com/HaoKang-Timmy/GEAR.comで公開されています。
関連論文リスト
- LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - Palu: Compressing KV-Cache with Low-Rank Projection [7.2863629986391025]
本稿では,Paluと呼ばれるKVキャッシュ圧縮フレームワークを提案する。
Paluは線形層を低ランクの行列に分解し、圧縮された中間状態をキャッシュし、フライ時に全キーと値を再構築する。
実験の結果、PuluはKVキャッシュを50%圧縮し、高い精度を維持し、RoPEベースのアテンションモジュール上で最大1.89倍の精度を提供することがわかった。
論文 参考訳(メタデータ) (2024-07-30T18:19:38Z) - ZipCache: Accurate and Efficient KV Cache Quantization with Salient Token Identification [19.985314022860432]
KVキャッシュは、再計算を避けるために、以前のトークンからキーと値の状態を格納する。
KVキャッシュ圧縮はトークンの正当性を識別し、重要でないトークンを積極的に圧縮しながら重要な情報を保存する。
LLMの高精度かつ効率的なKVキャッシュ量子化手法ZipCacheを提案する。
論文 参考訳(メタデータ) (2024-05-23T07:37:16Z) - Unlocking Data-free Low-bit Quantization with Matrix Decomposition for KV Cache Compression [87.5604418100301]
キー値(KV)キャッシングは,大規模言語モデルの推論を高速化する重要な手法である。
既存の手法はしばしば精度を損なうか、キャリブレーションのために余分なデータを必要とする。
テンソル分解法に基づく新しいデータフリー低ビット量子化手法である textbfDecoQuant を導入する。
論文 参考訳(メタデータ) (2024-05-21T08:35:10Z) - PyramidInfer: Pyramid KV Cache Compression for High-throughput LLM Inference [57.53291046180288]
大規模言語モデル(LLM)は、目覚ましい理解能力を示しているが、推論中のGPUメモリ使用の課題に直面している。
本稿では,KVキャッシュを重要なコンテキストを階層的に保持することで圧縮するPraamidInferを提案する。
PyramidInferは、KVキャッシュで54%以上のGPUメモリを削減したAccelerateと比較して、2.2倍のスループットを改善している。
論文 参考訳(メタデータ) (2024-05-21T06:46:37Z) - Get More with LESS: Synthesizing Recurrence with KV Cache Compression for Efficient LLM Inference [78.65321721142624]
我々はキー値(KV)キャッシュによって課されるメモリボトルネックに焦点を当てる。
既存のKVキャッシュ手法は、比較的重要でないKVペアの大きなスワストを刈り取ったり、取り除いたりすることでこの問題に対処する。
本稿では,固定サイズキャッシュと退避型キャッシュを簡易に統合したLESSを提案する。
論文 参考訳(メタデータ) (2024-02-14T18:54:56Z) - KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache [67.9776980972508]
我々はKIVIというチューニング不要な2ビットKVキャッシュ量子化アルゴリズムを開発した。
KIVI は Llama, Falcon, Mistral のモデルを $mathbf2.6times$ less peak memory を使用しながらほぼ同じ品質を維持することができる。
論文 参考訳(メタデータ) (2024-02-05T06:06:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。