論文の概要: Keyformer: KV Cache Reduction through Key Tokens Selection for Efficient Generative Inference
- arxiv url: http://arxiv.org/abs/2403.09054v1
- Date: Thu, 14 Mar 2024 02:42:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-15 21:57:10.151680
- Title: Keyformer: KV Cache Reduction through Key Tokens Selection for Efficient Generative Inference
- Title(参考訳): Keyformer: 効率的な生成推論のためのキートークン選択によるKVキャッシュ削減
- Authors: Muhammad Adnan, Akhil Arunkumar, Gaurav Jain, Prashant J. Nair, Ilya Soloveychik, Purushotham Kamath,
- Abstract要約: キーフォーマー」は、KVキャッシュサイズとメモリ帯域幅利用に関する課題を軽減する革新的な推論時アプローチである。
我々はKeyformerの性能を,GPT-J,Cerebras-GPT,MPTの3つの基礎モデルで評価した。
- 参考スコア(独自算出の注目度): 2.8241099113277666
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformers have emerged as the underpinning architecture for Large Language Models (LLMs). In generative language models, the inference process involves two primary phases: prompt processing and token generation. Token generation, which constitutes the majority of the computational workload, primarily entails vector-matrix multiplications and interactions with the Key-Value (KV) Cache. This phase is constrained by memory bandwidth due to the overhead of transferring weights and KV cache values from the memory system to the computing units. This memory bottleneck becomes particularly pronounced in applications that require long-context and extensive text generation, both of which are increasingly crucial for LLMs. This paper introduces "Keyformer", an innovative inference-time approach, to mitigate the challenges associated with KV cache size and memory bandwidth utilization. Keyformer leverages the observation that approximately 90% of the attention weight in generative inference focuses on a specific subset of tokens, referred to as "key" tokens. Keyformer retains only the key tokens in the KV cache by identifying these crucial tokens using a novel score function. This approach effectively reduces both the KV cache size and memory bandwidth usage without compromising model accuracy. We evaluate Keyformer's performance across three foundational models: GPT-J, Cerebras-GPT, and MPT, which employ various positional embedding algorithms. Our assessment encompasses a variety of tasks, with a particular emphasis on summarization and conversation tasks involving extended contexts. Keyformer's reduction of KV cache reduces inference latency by 2.1x and improves token generation throughput by 2.4x, while preserving the model's accuracy.
- Abstract(参考訳): トランスフォーマーは、LLM(Large Language Models)の基盤となるアーキテクチャとして登場した。
生成言語モデルでは、推論プロセスはプロンプト処理とトークン生成の2つの主要なフェーズを含む。
計算ワークロードの大部分を構成するトークン生成は、主にベクトル行列の乗算とキーバリュー(KV)キャッシュとの相互作用を必要とする。
この位相は、メモリシステムからコンピュータユニットへの重みとKVキャッシュ値の転送のオーバーヘッドにより、メモリ帯域幅に制約される。
このメモリボトルネックは、長いコンテキストと広範なテキスト生成を必要とするアプリケーションでは特に顕著になり、これらはLLMにとってますます重要になっている。
本稿では、KVキャッシュサイズとメモリ帯域幅利用に伴う課題を軽減するために、革新的な推論時間アプローチである"Keyformer"を紹介する。
キーフォーマーは、生成推論における注意重みの約90%が「キー」トークンと呼ばれるトークンの特定のサブセットに焦点を当てているという観察を活用している。
Keyformerは、新しいスコア関数を使用してこれらの重要なトークンを識別することで、KVキャッシュ内のキートークンのみを保持する。
このアプローチは、モデル精度を損なうことなく、KVキャッシュサイズとメモリ帯域幅使用量の両方を効果的に削減する。
我々は,3つの基本モデル(GPT-J,Cerebras-GPT,MPT)にまたがってKeyformerの性能を評価する。
我々の評価は様々なタスクを包含しており、特に拡張コンテキストを含む要約や会話タスクに重点を置いている。
KVキャッシュの削減により、推論遅延を2.1倍削減し、モデルの精度を維持しながらトークン生成スループットを2.4倍改善する。
関連論文リスト
- Bifurcated Attention for Single-Context Large-Batch Sampling [39.16152482491236]
Bifurcated attentionは、単一コンテキストのバッチサンプリングコンテキストにおける言語モデル推論のために開発された手法である。
2つの異なるGEMM演算にインクリメンタルデコーディング中にアテンション機構を分割することで、この処理を実現する。
論文 参考訳(メタデータ) (2024-03-13T16:30:57Z) - QAQ: Quality Adaptive Quantization for LLM KV Cache [3.4559252920522985]
モデルデプロイメントのボトルネックは、コンテキスト長のキーバリューキャッシュの線形拡張によって生じる。
KVキャッシュのための品質適応量子化スキームQAQを提案する。
論文 参考訳(メタデータ) (2024-03-07T16:42:37Z) - ChunkAttention: Efficient Self-Attention with Prefix-Aware KV Cache and
Two-Phase Partition [3.997915521571668]
ChunkAttentionは、大きな言語モデルのためのプレフィックス対応のセルフアテンションモジュールである。
複数のリクエストにまたがる一致したプロンプトプレフィックスを検出し、実行時にそのキー/値テンソルをメモリで共有する。
実験によると、ChunkAttentionは、最先端の実装と比較して、自己保持カーネルを3.2-4.8$times$で高速化できる。
論文 参考訳(メタデータ) (2024-02-23T09:29:19Z) - Get More with LESS: Synthesizing Recurrence with KV Cache Compression
for Efficient LLM Inference [83.34219335496073]
我々はキー値(KV)キャッシュによって課されるメモリボトルネックに焦点を当てる。
既存のKVキャッシュ手法は、比較的重要でないKVペアの大きなスワストを刈り取ったり、取り除いたりすることでこの問題に対処する。
本稿では,固定サイズキャッシュと退避型キャッシュを簡易に統合したLESSを提案する。
論文 参考訳(メタデータ) (2024-02-14T18:54:56Z) - Anchor-based Large Language Models [48.5524307381447]
本研究ではアンカーベースの自己アテンションネットワーク(AnSAN)とアンカーベースの推論戦略を利用するアンカーベースのLSM(AnLLM)を紹介する。
AnLLMも同様の精度を維持し、最大99%のキー/バリューキャッシュの削減、最大3.5倍の高速推論を実現している。
論文 参考訳(メタデータ) (2024-02-12T12:48:02Z) - SubGen: Token Generation in Sublinear Time and Memory [48.35076900702408]
大規模言語モデル(LLM)はトークン生成に広範なメモリ要件を持つ。
本研究では,KVキャッシュの効率的な圧縮手法の開発に焦点をあてる。
我々は,キートークンにオンラインクラスタリングを導入し,値に$ell$をサンプリングする,サブ線形複雑性を持つ新しいキャッシング手法を考案した。
このアルゴリズムは、サブリニアメモリフットプリントとサブリニアタイムの複雑さを保証するだけでなく、我々のアプローチに厳密なエラーを課す。
論文 参考訳(メタデータ) (2024-02-08T22:17:40Z) - KVQuant: Towards 10 Million Context Length LLM Inference with KV Cache
Quantization [71.14107773100079]
LLMは、大きなコンテキストウィンドウを必要とするドキュメント分析や要約のようなアプリケーションでの利用が増えている。
KVキャッシュアクティベーションは、推論中のメモリ消費の主要な要因である。
本稿では,KVアクティベーションを定量化するための新しい手法を導入することで,この問題に対処するKVQuantを提案する。
論文 参考訳(メタデータ) (2024-01-31T18:58:14Z) - Model Tells You What to Discard: Adaptive KV Cache Compression for LLMs [86.98304577162465]
大規模言語モデル(LLM)における生成推論のメモリフットプリントを削減するプラグイン・アンド・プレイ方式である適応KVキャッシュ圧縮を導入する。
我々は,アテンションモジュールの本質的な構造を明らかにするために,ターゲットプロファイリングを行う。
認識された構造に基づいて、我々はKVキャッシュを適応的に構築する: 注意頭上の長距離コンテキストを排除し、局所的なコンテキストを強調し、特別なトークンを中心とした注意頭上の特別なトークンを排除し、すべてのトークンに広く参加する注目頭に対して標準のKVキャッシュのみを使用する。
論文 参考訳(メタデータ) (2023-10-03T05:17:08Z) - Towards Model-Size Agnostic, Compute-Free, Memorization-based Inference
of Deep Learning [5.41530201129053]
本稿では,新しい暗記ベース推論(MBI)を提案する。
具体的には、リカレント・アテンション・モデル(RAM)の推論機構に着目します。
低次元のスリープ性を活用することで、我々の推論手順は、スリープ位置、パッチベクトルなどからなるキー値対をテーブルに格納する。
計算は、テーブルを利用してキーと値のペアを読み出し、暗記による計算自由推論を実行することにより、推論中に妨げられる。
論文 参考訳(メタデータ) (2023-07-14T21:01:59Z) - ClusTR: Exploring Efficient Self-attention via Clustering for Vision
Transformers [70.76313507550684]
本稿では,密集自己注意の代替として,コンテンツに基づくスパースアテンション手法を提案する。
具体的には、合計トークン数を減少させるコンテンツベースの方法として、キーとバリュートークンをクラスタ化し、集約する。
結果として得られたクラスタ化されたTokenシーケンスは、元の信号のセマンティックな多様性を保持するが、より少ない計算コストで処理できる。
論文 参考訳(メタデータ) (2022-08-28T04:18:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。