論文の概要: Get More with LESS: Synthesizing Recurrence with KV Cache Compression
for Efficient LLM Inference
- arxiv url: http://arxiv.org/abs/2402.09398v1
- Date: Wed, 14 Feb 2024 18:54:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-15 13:57:52.329411
- Title: Get More with LESS: Synthesizing Recurrence with KV Cache Compression
for Efficient LLM Inference
- Title(参考訳): LESSでさらなる情報を得る:効率的なLLM推論のためのKVキャッシュ圧縮による再帰の合成
- Authors: Harry Dong, Xinyu Yang, Zhenyu Zhang, Zhangyang Wang, Yuejie Chi,
Beidi Chen
- Abstract要約: 我々はキー値(KV)キャッシュによって課されるメモリボトルネックに焦点を当てる。
既存のKVキャッシュ手法は、比較的重要でないKVペアの大きなスワストを刈り取ったり、取り除いたりすることでこの問題に対処する。
本稿では,固定サイズキャッシュと退避型キャッシュを簡易に統合したLESSを提案する。
- 参考スコア(独自算出の注目度): 83.34219335496073
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many computational factors limit broader deployment of large language models.
In this paper, we focus on a memory bottleneck imposed by the key-value (KV)
cache, a computational shortcut that requires storing previous KV pairs during
decoding. While existing KV cache methods approach this problem by pruning or
evicting large swaths of relatively less important KV pairs to dramatically
reduce the memory footprint of the cache, they can have limited success in
tasks that require recollecting a majority of previous tokens. To alleviate
this issue, we propose LESS, a simple integration of a (nearly free) constant
sized cache with eviction-based cache methods, such that all tokens can be
queried at later decoding steps. Its ability to retain information throughout
time shows merit on a variety of tasks where we demonstrate LESS can help
reduce the performance gap from caching everything, sometimes even matching it,
all while being efficient.
- Abstract(参考訳): 多くの計算要素は、大きな言語モデルのより広範な展開を制限する。
本稿では,鍵値キャッシュ(KV)によるメモリボトルネックに着目し,復号時に従来のKVペアを格納する必要がある計算ショートカットについて述べる。
既存のKVキャッシュメソッドは、キャッシュのメモリフットプリントを劇的に削減するために、比較的重要でないKVペアの大きなスワストを刈り取ったり、取り除いたりすることで、この問題にアプローチするが、以前のトークンの大部分を再コンパイルする必要のあるタスクでは、限られた成功しか得られない。
この問題を軽減するため,eviction ベースのキャッシュメソッドと (ほぼフリーな) 定数サイズのキャッシュを簡易に統合することで,すべてのトークンを後続のデコードステップでクエリすることができる。
情報を保持する能力は、LESSが全てをキャッシュすることからパフォーマンスのギャップを減らし、時にはマッチすることまでも、効率的であることを実証する様々なタスクにおいてメリットを示します。
関連論文リスト
- QAQ: Quality Adaptive Quantization for LLM KV Cache [3.4559252920522985]
モデルデプロイメントのボトルネックは、コンテキスト長のキーバリューキャッシュの線形拡張によって生じる。
KVキャッシュのための品質適応量子化スキームQAQを提案する。
論文 参考訳(メタデータ) (2024-03-07T16:42:37Z) - SubGen: Token Generation in Sublinear Time and Memory [48.35076900702408]
大規模言語モデル(LLM)はトークン生成に広範なメモリ要件を持つ。
本研究では,KVキャッシュの効率的な圧縮手法の開発に焦点をあてる。
我々は,キートークンにオンラインクラスタリングを導入し,値に$ell$をサンプリングする,サブ線形複雑性を持つ新しいキャッシング手法を考案した。
このアルゴリズムは、サブリニアメモリフットプリントとサブリニアタイムの複雑さを保証するだけでなく、我々のアプローチに厳密なエラーを課す。
論文 参考訳(メタデータ) (2024-02-08T22:17:40Z) - KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache [70.90551156819498]
大規模言語モデル(LLM)は、要求毎のコストを削減するために、多くのリクエストを一緒に要求する。
キー値(KV)キャッシュはメモリ要求を大幅に増加させ、スピードとメモリ使用における新たなボトルネックとなる。
KVキャッシュサイズを減らすための単純で効果的な解決策は量子化であり、KVキャッシュが取る全バイトを削減する。
KIVIは、Llama (Llama-2)、Falcon、Mistralモデルとほぼ同じ品質を維持しながら、$mathbf2.6times$のピークメモリ使用量を減らすことができる。
論文 参考訳(メタデータ) (2024-02-05T06:06:47Z) - CacheGen: Fast Context Loading for Language Model Applications via KV Cache Streaming [31.766738294505767]
CacheGenは、大きな言語モデル(LLM)のための高速なコンテキストローディングモジュールである
KVキャッシュを符号化/復号のオーバーヘッドを無視して、よりコンパクトなビットストリーム表現にエンコードする。
ストリーミング戦略を適用して、利用可能な帯域幅の変化に対処する。
論文 参考訳(メタデータ) (2023-10-11T07:08:20Z) - Model Tells You What to Discard: Adaptive KV Cache Compression for LLMs [86.98304577162465]
大規模言語モデル(LLM)における生成推論のメモリフットプリントを削減するプラグイン・アンド・プレイ方式である適応KVキャッシュ圧縮を導入する。
我々は,アテンションモジュールの本質的な構造を明らかにするために,ターゲットプロファイリングを行う。
認識された構造に基づいて、我々はKVキャッシュを適応的に構築する: 注意頭上の長距離コンテキストを排除し、局所的なコンテキストを強調し、特別なトークンを中心とした注意頭上の特別なトークンを排除し、すべてのトークンに広く参加する注目頭に対して標準のKVキャッシュのみを使用する。
論文 参考訳(メタデータ) (2023-10-03T05:17:08Z) - Efficient Streaming Language Models with Attention Sinks [76.50701824191107]
StreamingLLMは、大規模言語モデルが微調整なしで無限のシーケンス長に一般化できる効率的なフレームワークである。
StreamingLLMはLlama-2, MPT, Falcon, Pythiaを最大400万のトークンで安定かつ効率的な言語モデリングを実現できることを示す。
論文 参考訳(メタデータ) (2023-09-29T17:59:56Z) - H$_2$O: Heavy-Hitter Oracle for Efficient Generative Inference of Large
Language Models [110.06476624089679]
メモリフットプリントを大幅に削減する新しいKVキャッシュの実装手法を提案する。
我々のアプローチは、トークンのごく一部が、注意点の計算において、ほとんどの価値に寄与する、という観察に基づいている。
我々は,最近のトークンとH$のバランスを動的に保持するKVキャッシュ消去ポリシーであるヘビーヒッター(H$O)を提案する。
論文 参考訳(メタデータ) (2023-06-24T20:11:14Z) - Scissorhands: Exploiting the Persistence of Importance Hypothesis for
LLM KV Cache Compression at Test Time [38.147965013060144]
大規模言語モデル(LLM)は、エキサイティングなAIアプリケーションに新たな波を巻き起こした。
デプロイメントにおける重要なメモリボトルネックのひとつは、コンテキストウィンドウにある。
固定予算でKVキャッシュのメモリ使用量を維持するシステムであるScisorhandsを提案する。
論文 参考訳(メタデータ) (2023-05-26T17:39:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。