論文の概要: AttentionStore: Cost-effective Attention Reuse across Multi-turn Conversations in Large Language Model Serving
- arxiv url: http://arxiv.org/abs/2403.19708v1
- Date: Sat, 23 Mar 2024 10:42:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-07 23:24:36.890579
- Title: AttentionStore: Cost-effective Attention Reuse across Multi-turn Conversations in Large Language Model Serving
- Title(参考訳): AttentionStore: 大規模言語モデルにおけるマルチターン会話における費用対効果の回避
- Authors: Bin Gao, Zhuomin He, Puru Sharma, Qingxuan Kang, Djordje Jevdjic, Junbo Deng, Xingkun Yang, Zhou Yu, Pengfei Zuo,
- Abstract要約: 本稿では,マルチターン会話におけるKVキャッシュの再利用を可能にする新しい注意機構であるAttentionStoreを提案する。
実験の結果、AttentionStoreは第1トークン(TTFT)までの時間を最大88%減少させることがわかった。
また、マルチターン会話のスループットを8.2$times$改善し、エンドツーエンドの推論コストを最大56%削減する。
- 参考スコア(独自算出の注目度): 13.041210267981613
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Interacting with humans through multi-turn conversations is a fundamental feature of large language models (LLMs). However, existing LLM serving engines for executing multi-turn conversations are inefficient due to the need to repeatedly compute the key-value (KV) caches of historical tokens, incurring high serving costs. To address the problem, this paper proposes AttentionStore, a new attention mechanism that enables the reuse of KV caches (i.e., attention reuse) across multi-turn conversations, significantly reducing the repetitive computation overheads. AttentionStore maintains a hierarchical KV caching system that leverages cost-effective memory/storage mediums to save KV caches for all requests. To reduce KV cache access overheads from slow mediums, AttentionStore employs layer-wise pre-loading and asynchronous saving schemes to overlap the KV cache access with the GPU computation. To ensure that the KV caches to be accessed are placed in the fastest hierarchy, AttentionStore employs scheduler-aware fetching and eviction schemes to consciously place the KV caches in different layers based on the hints from the inference job scheduler. To avoid the invalidation of the saved KV caches incurred by context window overflow, AttentionStore enables the saved KV caches to remain valid via decoupling the positional encoding and effectively truncating the KV caches. Extensive experimental results demonstrate that AttentionStore significantly decreases the time to the first token (TTFT) by up to 88%, improves the prompt prefilling throughput by 8.2$\times$ for multi-turn conversations, and reduces the end-to-end inference cost by up to 56%. For long sequence inference, AttentionStore reduces the TTFT by up to 95% and improves the prompt prefilling throughput by 22$\times$.
- Abstract(参考訳): マルチターン会話を通して人間と対話することは、大きな言語モデル(LLM)の基本的特徴である。
しかし、過去のトークンのキー値(KV)キャッシュを何度も計算する必要があるため、マルチターン会話を実行するための既存のLLMサービスエンジンは非効率である。
本稿では,マルチターン会話におけるKVキャッシュの再利用を可能にする新しいアテンション機構であるAttentionStoreを提案する。
AttentionStoreは、コスト効率のよいメモリ/ストレージ媒体を活用して、すべてのリクエストにKVキャッシュを保存する階層的なKVキャッシュシステムを維持している。
遅い媒体からKVキャッシュアクセスのオーバーヘッドを低減するため、AttentionStoreでは、KVキャッシュアクセスとGPU計算を重複させるために、レイヤワイズプレロードと非同期保存スキームを採用している。
アクセスすべきKVキャッシュを最速階層に配置するために、AttentionStoreでは、スケジューラ対応のフェッチとエビクションスキームを使用して、推論ジョブスケジューラのヒントに基づいて、KVキャッシュを異なるレイヤに意識的に配置する。
コンテキストウィンドウオーバーフローによって発生する保存されたKVキャッシュの無効化を回避するため、AttentionStoreは、保存されたKVキャッシュを位置エンコーディングを分離し、KVキャッシュを効果的に停止することで有効にすることができる。
大規模な実験結果から, AttentionStoreは第1トークン(TTFT)までの時間を最大88%削減し, マルチターン会話のスループットを8.2$\times$で改善し, エンドツーエンドの推論コストを最大56%削減した。
長いシーケンス推論のために、AttentionStoreはTTFTを最大95%削減し、プロンプトプリフィルのスループットを22$\times$で改善する。
関連論文リスト
- Sequence can Secretly Tell You What to Discard [57.109354287786154]
メモリフットプリントを大幅に削減するKVキャッシュを最適化するための新しい手法を提案する。
我々は,KVキャッシュの消去ポリシーであるCORMを提案し,モデルに微調整を加えることなく,推論のためのキーと値のペアを動的に保持する。
CORMは、LongBenchの6つのタスクで顕著なパフォーマンス劣化を伴わずに、KVキャッシュの推論メモリ使用量を最大70%削減する。
論文 参考訳(メタデータ) (2024-04-24T16:11:54Z) - SqueezeAttention: 2D Management of KV-Cache in LLM Inference via Layer-wise Optimal Budget [11.977210887770225]
注意層の重要性を同定することにより、KV-cacheを2次元から共同で最適化できることが判明した。
シーケンスとレイヤの寸法からKVキャッシュを最適化することで、SqueezeAttentionはメモリの約30%から70%の削減と最大2.2倍のスループット向上を実現している。
論文 参考訳(メタデータ) (2024-04-07T03:08:14Z) - No Token Left Behind: Reliable KV Cache Compression via Importance-Aware
Mixed Precision Quantization [31.806112535762367]
キーバリューキャッシングは、生成型大規模言語モデル(LLM)の推論速度とスループットを加速する重要な技術となっている。
論文 参考訳(メタデータ) (2024-02-28T06:34:54Z) - Get More with LESS: Synthesizing Recurrence with KV Cache Compression
for Efficient LLM Inference [83.34219335496073]
我々はキー値(KV)キャッシュによって課されるメモリボトルネックに焦点を当てる。
既存のKVキャッシュ手法は、比較的重要でないKVペアの大きなスワストを刈り取ったり、取り除いたりすることでこの問題に対処する。
本稿では,固定サイズキャッシュと退避型キャッシュを簡易に統合したLESSを提案する。
論文 参考訳(メタデータ) (2024-02-14T18:54:56Z) - KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache [70.90551156819498]
大規模言語モデル(LLM)は、要求毎のコストを削減するために、多くのリクエストを一緒に要求する。
キー値(KV)キャッシュはメモリ要求を大幅に増加させ、スピードとメモリ使用における新たなボトルネックとなる。
KVキャッシュサイズを減らすための単純で効果的な解決策は量子化であり、KVキャッシュが取る全バイトを削減する。
KIVIは、Llama (Llama-2)、Falcon、Mistralモデルとほぼ同じ品質を維持しながら、$mathbf2.6times$のピークメモリ使用量を減らすことができる。
論文 参考訳(メタデータ) (2024-02-05T06:06:47Z) - LoMA: Lossless Compressed Memory Attention [0.0]
Lossless Compressed Memory Attention (LoMA) は、自己回帰生成時のメモリと計算要求を減らす新しいアプローチである。
LoMAには、圧縮コンテキストに最適化された自己回帰生成アルゴリズムとともに、特別なトレーニングや微調整の事前処理が組み込まれている。
実験的検証により、LoMAは計算消費とメモリ使用量を大幅に削減した。
論文 参考訳(メタデータ) (2024-01-16T09:18:46Z) - Model Tells You What to Discard: Adaptive KV Cache Compression for LLMs [86.98304577162465]
大規模言語モデル(LLM)における生成推論のメモリフットプリントを削減するプラグイン・アンド・プレイ方式である適応KVキャッシュ圧縮を導入する。
我々は,アテンションモジュールの本質的な構造を明らかにするために,ターゲットプロファイリングを行う。
認識された構造に基づいて、我々はKVキャッシュを適応的に構築する: 注意頭上の長距離コンテキストを排除し、局所的なコンテキストを強調し、特別なトークンを中心とした注意頭上の特別なトークンを排除し、すべてのトークンに広く参加する注目頭に対して標準のKVキャッシュのみを使用する。
論文 参考訳(メタデータ) (2023-10-03T05:17:08Z) - Efficient Streaming Language Models with Attention Sinks [72.20260088848987]
StreamingLLMは、大規模言語モデルが微調整なしで無限のシーケンス長に一般化できる効率的なフレームワークである。
StreamingLLMはLlama-2, MPT, Falcon, Pythiaを最大400万のトークンで安定かつ効率的な言語モデリングを実現できることを示す。
論文 参考訳(メタデータ) (2023-09-29T17:59:56Z) - H$_2$O: Heavy-Hitter Oracle for Efficient Generative Inference of Large
Language Models [110.06476624089679]
メモリフットプリントを大幅に削減する新しいKVキャッシュの実装手法を提案する。
我々のアプローチは、トークンのごく一部が、注意点の計算において、ほとんどの価値に寄与する、という観察に基づいている。
我々は,最近のトークンとH$のバランスを動的に保持するKVキャッシュ消去ポリシーであるヘビーヒッター(H$O)を提案する。
論文 参考訳(メタデータ) (2023-06-24T20:11:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。