論文の概要: GEAR: An Efficient KV Cache Compression Recipe for Near-Lossless
Generative Inference of LLM
- arxiv url: http://arxiv.org/abs/2403.05527v2
- Date: Mon, 11 Mar 2024 18:55:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 13:09:32.210786
- Title: GEAR: An Efficient KV Cache Compression Recipe for Near-Lossless
Generative Inference of LLM
- Title(参考訳): GEAR: LLMのニアロスレス生成推論のための効率的なKVキャッシュ圧縮
- Authors: Hao Kang, Qingru Zhang, Souvik Kundu, Geonhwa Jeong, Zaoxing Liu,
Tushar Krishna, Tuo Zhao
- Abstract要約: キーバリュー(KV)キャッシングは,大規模言語モデル(LLM)推論における生成速度を高速化するデファクトとなっている。
既存の方法は、重要でないトークンをドロップしたり、全てのエントリを均一に定量化することに依存している。
本稿では,高速なKVキャッシュ圧縮フレームワークであるGEARを提案する。
- 参考スコア(独自算出の注目度): 39.77567916589569
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Key-value (KV) caching has become the de-facto to accelerate generation speed
for large language models (LLMs) inference. However, the growing cache demand
with increasing sequence length has transformed LLM inference to be a memory
bound problem, significantly constraining the system throughput. Existing
methods rely on dropping unimportant tokens or quantizing all entries
uniformly. Such methods, however, often incur high approximation errors to
represent the compressed matrices. The autoregressive decoding process further
compounds the error of each step, resulting in critical deviation in model
generation and deterioration of performance. To tackle this challenge, we
propose GEAR, an efficient KV cache compression framework that achieves
near-lossless high-ratio compression. GEAR first applies quantization to
majority of entries of similar magnitudes to ultra-low precision. It then
employs a low rank matrix to approximate the quantization error, and a sparse
matrix to remedy individual errors from outlier entries. By adeptly integrating
three techniques, GEAR is able to fully exploit their synergistic potentials.
Our experiments demonstrate that compared to alternatives, GEAR achieves
near-lossless 4-bit KV cache compression with up to 2.38x throughput
improvement, while reducing peak-memory size up to 2.29x. Our code is publicly
available at https://github.com/HaoKang-Timmy/GEAR.
- Abstract(参考訳): キーバリュー(KV)キャッシングは,大規模言語モデル(LLM)推論における生成速度を高速化するデファクトとなっている。
しかし、シーケンス長の増加に伴うキャッシュ需要の増加は、LLM推論をメモリバウンド問題に転換し、システムのスループットを著しく制限している。
既存のメソッドは、重要でないトークンをドロップしたり、すべてのエントリを一様に定量化する。
しかし、そのような方法はしばしば圧縮行列を表現するために高い近似誤差を生じる。
自己回帰復号プロセスは、各ステップの誤差をさらに複雑にし、モデル生成と性能低下の致命的な偏差をもたらす。
そこで本研究では,高精細度圧縮を実現する効率的なkvキャッシュ圧縮フレームワークであるgearを提案する。
GEAR は最初、超低精度に近い大きさの成分のほとんどに量子化を適用する。
その後、量子化誤差を近似する低ランク行列と、外れたエントリから個々のエラーを修正できるスパース行列を用いる。
3つの技術を統合することで、GEARはシナジスティックなポテンシャルを完全に活用することができる。
我々の実験では、GEARは代替技術と比較して、最大2.38倍のスループット向上を実現し、ピークメモリサイズを2.29倍に削減した。
私たちのコードはhttps://github.com/HaoKang-Timmy/GEAR.comで公開されています。
関連論文リスト
- Dynamic Memory Compression: Retrofitting LLMs for Accelerated Inference [1.9639467358416092]
本稿では,動的メモリ圧縮(DMC)を提案する。
DMCトランスフォーマーにプリトレーニング済みの大規模言語モデル(LLM)を適合させ,NVIDIA H100 GPUで最大3.7倍のスループット向上を実現した。
論文 参考訳(メタデータ) (2024-03-14T17:59:26Z) - Get More with LESS: Synthesizing Recurrence with KV Cache Compression
for Efficient LLM Inference [83.34219335496073]
我々はキー値(KV)キャッシュによって課されるメモリボトルネックに焦点を当てる。
既存のKVキャッシュ手法は、比較的重要でないKVペアの大きなスワストを刈り取ったり、取り除いたりすることでこの問題に対処する。
本稿では,固定サイズキャッシュと退避型キャッシュを簡易に統合したLESSを提案する。
論文 参考訳(メタデータ) (2024-02-14T18:54:56Z) - Compression of Structured Data with Autoencoders: Provable Benefit of
Nonlinearities and Depth [83.15263499262824]
勾配勾配勾配は入力のスパース構造を完全に無視する解に収束することを示す。
浅層構造にデノナイジング関数を付加することにより,スパースデータの圧縮におけるガウス性能の改善方法を示す。
CIFAR-10 や MNIST などの画像データセットに対して,本研究の成果を検証した。
論文 参考訳(メタデータ) (2024-02-07T16:32:29Z) - KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache [70.90551156819498]
大規模言語モデル(LLM)は、要求毎のコストを削減するために、多くのリクエストを一緒に要求する。
キー値(KV)キャッシュはメモリ要求を大幅に増加させ、スピードとメモリ使用における新たなボトルネックとなる。
KVキャッシュサイズを減らすための単純で効果的な解決策は量子化であり、KVキャッシュが取る全バイトを削減する。
KIVIは、Llama (Llama-2)、Falcon、Mistralモデルとほぼ同じ品質を維持しながら、$mathbf2.6times$のピークメモリ使用量を減らすことができる。
論文 参考訳(メタデータ) (2024-02-05T06:06:47Z) - LoMA: Lossless Compressed Memory Attention [0.0]
Lossless Compressed Memory Attention (LoMA) は、自己回帰生成時のメモリと計算要求を減らす新しいアプローチである。
LoMAには、圧縮コンテキストに最適化された自己回帰生成アルゴリズムとともに、特別なトレーニングや微調整の事前処理が組み込まれている。
実験的検証により、LoMAは計算消費とメモリ使用量を大幅に削減した。
論文 参考訳(メタデータ) (2024-01-16T09:18:46Z) - SqueezeLLM: Dense-and-Sparse Quantization [83.7810943431625]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - Error Feedback Can Accurately Compress Preconditioners [46.78453240839177]
ディープ・ネットワークの規模での損失に関する2次情報を活用することは、ディープ・ラーニングのための電流の性能を改善するための主要なアプローチの1つである。
しかし、GGT (Full-Matrix Adagrad) やM-FAC (Matrix-Free Approximate Curvature) のような、正確な完全行列プリコンディショニングのための既存のアプローチは、小規模モデルにも適用した場合に膨大なストレージコストを被る。
本稿では, コンバージェンスを損なうことなく, プリコンディショナーを最大2桁圧縮できる新しい, 効率的なエラーフィードバック手法により, この問題に対処する。
論文 参考訳(メタデータ) (2023-06-09T17:58:47Z) - DiffRate : Differentiable Compression Rate for Efficient Vision
Transformers [98.33906104846386]
Token圧縮は、プルーニング(ドロップ)やトークンのマージによって、大規模な視覚変換器(ViTなど)を高速化することを目的としている。
DiffRate(ディフレート)は、先行技術にはないいくつかの魅力的な特性を持つ新しいトークン圧縮手法である。
論文 参考訳(メタデータ) (2023-05-29T10:15:19Z) - Reducing The Mismatch Between Marginal and Learned Distributions in
Neural Video Compression [3.093890460224435]
機械学習(ML)技術は圧縮技術の全コンポーネントを学習し、実際の優位性を説明する。
エンドツーエンドのMLモデルは、VVCのような従来のビデオコーデックのパフォーマンスにはまだ達していない。
本稿では,3つの最先端MLビデオ圧縮手法のアモータイズギャップを評価することを提案する。
論文 参考訳(メタデータ) (2022-10-12T21:25:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。