論文の概要: PQCache: Product Quantization-based KVCache for Long Context LLM Inference
- arxiv url: http://arxiv.org/abs/2407.12820v1
- Date: Mon, 1 Jul 2024 13:05:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-22 08:47:38.336533
- Title: PQCache: Product Quantization-based KVCache for Long Context LLM Inference
- Title(参考訳): PQCache:長期LLM推論のための製品量子化ベースのKVCache
- Authors: Hailin Zhang, Xiaodong Ji, Yilin Chen, Fangcheng Fu, Xupeng Miao, Xiaonan Nie, Weipeng Chen, Bin Cui,
- Abstract要約: キーバリューキャッシュ(KVCache)は、大規模言語モデル(LLM)において重要なコンポーネントである
現在の手法では、この問題に対処するためにLLMにおける自己注意に適したキーと値を選択的に決定する。
本稿では,KVCacheの管理にPQ(Product Quantization)を採用しているPQCacheを提案する。
- 参考スコア(独自算出の注目度): 27.523568511043273
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As the field of Large Language Models (LLMs) continues to evolve, the context length in inference is steadily growing. Key-Value Cache (KVCache), a crucial component in LLM inference, has now become the primary memory bottleneck due to limited GPU memory. Current methods selectively determine suitable keys and values for self-attention computation in LLMs to address the issue. However, they either fall short in maintaining model quality or result in high serving latency. Drawing inspiration from advanced embedding retrieval techniques used in the database community, we consider the storage and searching of KVCache as a typical embedding retrieval problem. We propose PQCache, which employs Product Quantization (PQ) to manage KVCache, maintaining model quality while ensuring low serving latency. During the prefilling phase, we apply PQ to tokens' keys for each LLM layer and head. During the autoregressive decoding phase, for each newly generated token, we first identify important tokens through Maximum Inner-Product Search (MIPS) using PQ codes and centroids, then fetch the corresponding key-value pairs for self-attention computation. Through meticulous design of overlapping and caching, we minimize any additional computation and communication overhead during both phases. Extensive experiments show that PQCache achieves both effectiveness and efficiency. It maintains model quality even when only 1/5 of the tokens are involved in attention, while attaining acceptable system latency.
- Abstract(参考訳): 大規模言語モデル(LLM)の分野が発展を続けるにつれ、推論における文脈長は着実に伸びている。
LLM推論において重要なコンポーネントであるキーバリューキャッシュ(KVCache)は、GPUメモリの制限により、主要なメモリボトルネックとなっている。
現在の手法では, LLMにおける自己注意計算に適したキーと値を選択的に決定し, この問題に対処する。
しかし、それらはモデル品質の維持に不足しているか、高いサービスレイテンシをもたらす。
データベースコミュニティで使われている高度な埋め込み検索技術からインスピレーションを得て,KVCacheの保存と検索を一般的な埋め込み検索問題とみなす。
本稿では,KVCacheの管理にPQ(Product Quantization)を採用しているPQCacheを提案する。
プリフィルフェーズでは,各LDM層およびヘッドのトークンのキーにPQを適用する。
自己回帰復号フェーズにおいて、新たに生成されたトークン毎に、まずPQ符号とセントロイドを用いて、最大内積探索(MIPS)を通して重要なトークンを識別し、それに対応するキー値ペアを自己アテンション計算のために取得する。
オーバラップとキャッシングの巧妙な設計により、両フェーズ間の計算と通信のオーバーヘッドを最小限に抑える。
大規模な実験により、PQCacheは有効性と効率の両方を達成することが示された。
トークンの1/5しか注意を払っていない場合でも、許容できるシステムレイテンシを実現しながら、モデル品質を維持します。
関連論文リスト
- Squeezed Attention: Accelerating Long Context Length LLM Inference [64.11145320159126]
本稿では,入力プロンプトの大部分を固定したLLMアプリケーションを高速化する機構として,Squeezed Attentionを提案する。
K-meansクラスタリングをオフラインで使用して、セマンティックな類似性に基づいて、固定されたコンテキストのキーをグループ化し、各クラスタを単一のセントロイド値で表現します。
そして、固定された文脈から重要なキーのみを用いて正確な注意を計算し、帯域幅と計算コストを削減する。
論文 参考訳(メタデータ) (2024-11-14T18:54:19Z) - Efficient Inference of Vision Instruction-Following Models with Elastic Cache [76.44955111634545]
我々は,命令追従型大規模視覚言語モデルの効率的なデプロイのための新しい戦略であるElastic Cacheを紹介する。
本稿では,冗長キャッシュを具現化する重要なキャッシュマージ戦略を提案する。
命令符号化では,キャッシュの重要性を評価するために周波数を利用する。
様々なLVLMの結果は、Elastic Cacheが効率を向上するだけでなく、言語生成における既存のプルーニングメソッドよりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-25T15:29:05Z) - Training-Free Exponential Context Extension via Cascading KV Cache [49.608367376911694]
カスケードサブキャッシュバッファを利用して,最も関連性の高いトークンを選択的に保持する機構を導入する。
本手法は,1Mトークンのフラッシュアテンションと比較して,プリフィルステージ遅延を6.8倍削減する。
論文 参考訳(メタデータ) (2024-06-24T03:59:17Z) - Efficient LLM Inference with Kcache [3.945956673130761]
大規模言語モデル(LLM)はAIアプリケーションに大きな影響を与えている。
KVキャッシュ技術は業界で最も広く使われている技術の一つである。
本稿では,LLM 推論プロセスにおけるメモリボトルネック問題を軽減するため,新しい KCache 手法を提案する。
論文 参考訳(メタデータ) (2024-04-28T03:11:42Z) - CORM: Cache Optimization with Recent Message for Large Language Model Inference [57.109354287786154]
メモリフットプリントを大幅に最小化するKVキャッシュを最適化する革新的な手法を提案する。
KVキャッシュ消去ポリシーであるCORMは、モデル微調整を必要とせずに、推論に必要なキーと値のペアを動的に保持する。
検証の結果,CORMはKVキャッシュの推論メモリ使用量を最大70%削減し,LongBenchの6つのタスクで性能劣化を無視できることがわかった。
論文 参考訳(メタデータ) (2024-04-24T16:11:54Z) - QAQ: Quality Adaptive Quantization for LLM KV Cache [3.163526369095745]
モデルデプロイメントのボトルネックは、コンテキスト長のキーバリューキャッシュの線形拡張によって生じる。
KVキャッシュのための品質適応量子化スキームQAQを提案する。
論文 参考訳(メタデータ) (2024-03-07T16:42:37Z) - Get More with LESS: Synthesizing Recurrence with KV Cache Compression for Efficient LLM Inference [78.65321721142624]
我々はキー値(KV)キャッシュによって課されるメモリボトルネックに焦点を当てる。
既存のKVキャッシュ手法は、比較的重要でないKVペアの大きなスワストを刈り取ったり、取り除いたりすることでこの問題に対処する。
本稿では,固定サイズキャッシュと退避型キャッシュを簡易に統合したLESSを提案する。
論文 参考訳(メタデータ) (2024-02-14T18:54:56Z) - KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache [67.9776980972508]
我々はKIVIというチューニング不要な2ビットKVキャッシュ量子化アルゴリズムを開発した。
KIVI は Llama, Falcon, Mistral のモデルを $mathbf2.6times$ less peak memory を使用しながらほぼ同じ品質を維持することができる。
論文 参考訳(メタデータ) (2024-02-05T06:06:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。