論文の概要: Locret: Enhancing Eviction in Long-Context LLM Inference with Trained Retaining Heads
- arxiv url: http://arxiv.org/abs/2410.01805v1
- Date: Wed, 02 Oct 2024 17:59:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-03 15:23:09.833215
- Title: Locret: Enhancing Eviction in Long-Context LLM Inference with Trained Retaining Heads
- Title(参考訳): Locret: 訓練された保持頭部を用いた長期LLM推論におけるエミッション向上
- Authors: Yuxiang Huang, Binhang Yuan, Xu Han, Chaojun Xiao, Zhiyuan Liu,
- Abstract要約: Locretは、単一のNvidia 4090 GPU上でのLLM推論のためのフレームワークである。
推論中、チャンクされたプリフィルパターンとともに低重要キャッシュユニットを排除し、GPUのピークメモリ使用量を大幅に削減した。
我々の知る限り、Locretは単一のNvidia 4090 GPU上にLlama-3.1-8Bまたは同様のモデルをデプロイできる最初のフレームワークである。
- 参考スコア(独自算出の注目度): 30.690302709678758
- License:
- Abstract: Large language models (LLMs) have shown remarkable advances in supporting long-context comprehension and processing tasks. However, scaling the generation inference of LLMs to such long contexts incurs significant additional computation load, and demands a substantial GPU memory footprint to maintain the key-value (KV) cache of transformer-based LLMs. Existing KV cache compression methods, such as quantization, face memory bottlenecks as context length increases, while static-sized caches, such as eviction, suffer from inefficient policies. These limitations restrict deployment on consumer-grade devices like a single Nvidia 4090 GPU. To overcome this, we propose Locret, a framework for long-context LLM inference that introduces retaining heads to evaluate the causal importance of KV cache units, allowing for more accurate eviction within a fixed cache size. Locret is fine-tuned on top of the frozen backbone LLM using a minimal amount of data from standard long-context SFT datasets. During inference, we evict low-importance cache units along with a chunked prefill pattern, significantly reducing peak GPU memory usage. We conduct an extensive empirical study to evaluate Locret, where the experimental results show that Locret outperforms the recent competitive approaches, including InfLLM, Quantization, SirLLM, and MInference, in terms of memory efficiency and the quality of generated contents -- Locret achieves over a 20x and 8x KV cache compression ratio compared to the full KV cache for Phi-3-mini-128K and Llama-3.1-8B-instruct. Additionally, Locret can be combined with other methods, such as quantization and token merging. To our knowledge, Locret is the first framework capable of deploying Llama-3.1-8B or similar models on a single Nvidia 4090 GPU, enabling 128K long-context inference without compromising generation quality, and requiring little additional system optimizations.
- Abstract(参考訳): 大規模言語モデル(LLM)は、長文理解と処理タスクのサポートにおいて顕著な進歩を見せている。
しかし、LLMの生成をこのような長いコンテキストにスケールすると、計算負荷が大幅に増加し、トランスフォーマーベースのLLMのキー値(KV)キャッシュを維持するために相当量のGPUメモリフットプリントが要求される。
量子化のような既存のKVキャッシュ圧縮手法では、コンテキスト長が増加するにつれて顔メモリボトルネックが増加し、エビクションのような静的なサイズのキャッシュは非効率なポリシーに悩まされる。
これらの制限により、単一のNvidia 4090 GPUのようなコンシューマグレードデバイスへのデプロイメントが制限される。
そこで本稿では,KVキャッシュユニットの因果的重要性を評価するために,長期LLM推論のためのフレームワークであるLocretを提案する。
Locretは、標準のLong-context SFTデータセットから最小限のデータを使用して、冷凍バックボーンLLM上に微調整される。
推論中、チャンクされたプリフィルパターンとともに低重要キャッシュユニットを排除し、GPUのピークメモリ使用量を大幅に削減した。
LocretはPhi-3-mini-128KとLlama-3.1-8BのフルKVキャッシュと比較して,20倍,8倍のKVキャッシュ圧縮比を実現している。
さらに、Locretは量子化やトークンのマージといった他の方法と組み合わせることができる。
我々の知る限り、Locretは単一のNvidia 4090 GPUにLlama-3.1-8Bなどのモデルをデプロイできる最初のフレームワークである。
関連論文リスト
- vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文 参考訳(メタデータ) (2024-07-22T14:37:58Z) - Fast Matrix Multiplications for Lookup Table-Quantized LLMs [58.11584672945781]
FLUTEはLUT量子化LLM用のフレキシブルなルックアップテーブルエンジンである。
バッチサイズ32と量子化グループサイズ128では、FLUTEカーネルは既存のGEMMカーネルよりも2〜4倍高速である。
論文 参考訳(メタデータ) (2024-07-15T17:55:42Z) - Model Tells You Where to Merge: Adaptive KV Cache Merging for LLMs on Long-Context Tasks [21.815661269986425]
KVMergerと呼ばれる新しいKVキャッシュマージ手法を提案し、長文タスクに対して適応的なKVキャッシュ圧縮を実現する。
我々のアプローチは、キー状態が1つのシーケンス内のトークンレベルで高い類似性を示すという興味深い観察にインスパイアされている。
我々は,制約メモリ予算下での長時間コンテキストタスクに対するKVMergerの有効性を示すため,広範囲な実験を行った。
論文 参考訳(メタデータ) (2024-07-11T12:50:42Z) - MiniCache: KV Cache Compression in Depth Dimension for Large Language Models [48.03117580340151]
キーバリュー(KV)キャッシュは、以前に生成されたトークンのキー値状態を格納する。
KVキャッシュのサイズはシーケンス長とともに線形に増加し、長いコンテキスト入力と広範囲なシーケンス生成を必要とするアプリケーションの課題を提起する。
レイヤ間のKVキャッシュを,新しい奥行きの観点から圧縮する,MiniCacheという,シンプルで効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2024-05-23T09:43:52Z) - CORM: Cache Optimization with Recent Message for Large Language Model Inference [57.109354287786154]
メモリフットプリントを大幅に最小化するKVキャッシュを最適化する革新的な手法を提案する。
KVキャッシュ消去ポリシーであるCORMは、モデル微調整を必要とせずに、推論に必要なキーと値のペアを動的に保持する。
検証の結果,CORMはKVキャッシュの推論メモリ使用量を最大70%削減し,LongBenchの6つのタスクで性能劣化を無視できることがわかった。
論文 参考訳(メタデータ) (2024-04-24T16:11:54Z) - QAQ: Quality Adaptive Quantization for LLM KV Cache [3.163526369095745]
モデルデプロイメントのボトルネックは、コンテキスト長のキーバリューキャッシュの線形拡張によって生じる。
KVキャッシュのための品質適応量子化スキームQAQを提案する。
論文 参考訳(メタデータ) (2024-03-07T16:42:37Z) - KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache [67.9776980972508]
我々はKIVIというチューニング不要な2ビットKVキャッシュ量子化アルゴリズムを開発した。
KIVI は Llama, Falcon, Mistral のモデルを $mathbf2.6times$ less peak memory を使用しながらほぼ同じ品質を維持することができる。
論文 参考訳(メタデータ) (2024-02-05T06:06:47Z) - KVQuant: Towards 10 Million Context Length LLM Inference with KV Cache Quantization [67.74400574357472]
LLMは、大きなコンテキストウィンドウを必要とするドキュメント分析や要約のようなアプリケーションでの利用が増えている。
KVキャッシュアクティベーションは、推論中のメモリ消費の主要な要因である。
量子化はKVキャッシュアクティベーションを圧縮するための有望なアプローチである。
KVアクティベーションを定量化する新しい手法を取り入れたKVQuantを提案する。
論文 参考訳(メタデータ) (2024-01-31T18:58:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。