Fugu-MT 論文翻訳(概要): AttentionStore: Cost-effective Attention Reuse across Multi-turn Conversations in Large Language Model Serving

論文の概要: AttentionStore: Cost-effective Attention Reuse across Multi-turn Conversations in Large Language Model Serving

arxiv url: http://arxiv.org/abs/2403.19708v1
Date: Sat, 23 Mar 2024 10:42:49 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-07 23:24:36.890579
Title: AttentionStore: Cost-effective Attention Reuse across Multi-turn Conversations in Large Language Model Serving
Title（参考訳）: AttentionStore: 大規模言語モデルにおけるマルチターン会話における費用対効果の回避
Authors: Bin Gao, Zhuomin He, Puru Sharma, Qingxuan Kang, Djordje Jevdjic, Junbo Deng, Xingkun Yang, Zhou Yu, Pengfei Zuo,
Abstract要約: 本稿では,マルチターン会話におけるKVキャッシュの再利用を可能にする新しい注意機構であるAttentionStoreを提案する。実験の結果、AttentionStoreは第1トークン(TTFT)までの時間を最大88%減少させることがわかった。また、マルチターン会話のスループットを8.2$times$改善し、エンドツーエンドの推論コストを最大56%削減する。
参考スコア（独自算出の注目度）: 13.041210267981613
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Interacting with humans through multi-turn conversations is a fundamental feature of large language models (LLMs). However, existing LLM serving engines for executing multi-turn conversations are inefficient due to the need to repeatedly compute the key-value (KV) caches of historical tokens, incurring high serving costs. To address the problem, this paper proposes AttentionStore, a new attention mechanism that enables the reuse of KV caches (i.e., attention reuse) across multi-turn conversations, significantly reducing the repetitive computation overheads. AttentionStore maintains a hierarchical KV caching system that leverages cost-effective memory/storage mediums to save KV caches for all requests. To reduce KV cache access overheads from slow mediums, AttentionStore employs layer-wise pre-loading and asynchronous saving schemes to overlap the KV cache access with the GPU computation. To ensure that the KV caches to be accessed are placed in the fastest hierarchy, AttentionStore employs scheduler-aware fetching and eviction schemes to consciously place the KV caches in different layers based on the hints from the inference job scheduler. To avoid the invalidation of the saved KV caches incurred by context window overflow, AttentionStore enables the saved KV caches to remain valid via decoupling the positional encoding and effectively truncating the KV caches. Extensive experimental results demonstrate that AttentionStore significantly decreases the time to the first token (TTFT) by up to 88%, improves the prompt prefilling throughput by 8.2$\times$ for multi-turn conversations, and reduces the end-to-end inference cost by up to 56%. For long sequence inference, AttentionStore reduces the TTFT by up to 95% and improves the prompt prefilling throughput by 22$\times$.
Abstract（参考訳）: マルチターン会話を通して人間と対話することは、大きな言語モデル(LLM)の基本的特徴である。しかし、過去のトークンのキー値(KV)キャッシュを何度も計算する必要があるため、マルチターン会話を実行するための既存のLLMサービスエンジンは非効率である。本稿では,マルチターン会話におけるKVキャッシュの再利用を可能にする新しいアテンション機構であるAttentionStoreを提案する。 AttentionStoreは、コスト効率のよいメモリ/ストレージ媒体を活用して、すべてのリクエストにKVキャッシュを保存する階層的なKVキャッシュシステムを維持している。遅い媒体からKVキャッシュアクセスのオーバーヘッドを低減するため、AttentionStoreでは、KVキャッシュアクセスとGPU計算を重複させるために、レイヤワイズプレロードと非同期保存スキームを採用している。アクセスすべきKVキャッシュを最速階層に配置するために、AttentionStoreでは、スケジューラ対応のフェッチとエビクションスキームを使用して、推論ジョブスケジューラのヒントに基づいて、KVキャッシュを異なるレイヤに意識的に配置する。コンテキストウィンドウオーバーフローによって発生する保存されたKVキャッシュの無効化を回避するため、AttentionStoreは、保存されたKVキャッシュを位置エンコーディングを分離し、KVキャッシュを効果的に停止することで有効にすることができる。大規模な実験結果から, AttentionStoreは第1トークン(TTFT)までの時間を最大88%削減し, マルチターン会話のスループットを8.2$\times$で改善し, エンドツーエンドの推論コストを最大56%削減した。長いシーケンス推論のために、AttentionStoreはTTFTを最大95%削減し、プロンプトプリフィルのスループットを22$\times$で改善する。

関連論文リスト

EVICPRESS: Joint KV-Cache Compression and Eviction for Efficient LLM Serving [27.616284276071855]
KVキャッシュの再利用はLarge Language Model(LLM)推論システムの高効率化に不可欠である。以前の作業では、KVキャッシュを低層ストレージデバイスに解放するか、KVキャッシュを圧縮して、より多くのKVキャッシュを高速メモリに適合させることが提案されていた。複数のストレージ層にまたがるKVキャッシュに損失圧縮と適応消去を適用したKVキャッシュ管理システムEVICPRESSを提案する。
論文参考訳（メタデータ） (2025-12-16T22:21:55Z)
EpiCache: Episodic KV Cache Management for Long Conversational Question Answering [15.288494370436469]
長時間会話型質問応答のためのトレーニング不要なKVキャッシュ管理フレームワークであるEpiCacheを紹介した。 EpiCacheはブロックワイズプリフィルを通じてキャッシュの成長を制限し、エピソードKV圧縮を通じてトピック関連コンテキストを保存する。 3つのLongConvQAベンチマークで、EpiCacheは40%の精度向上を実現し、4-6倍の圧縮でほぼ完全なKVの精度を維持し、レイテンシ/メモリを2.4倍/3.5倍に削減した。
論文参考訳（メタデータ） (2025-09-22T06:56:35Z)
KVzip: Query-Agnostic KV Cache Compression with Context Reconstruction [37.489744618357655]
トランスフォーマーベースの大規模言語モデル(LLM)は、推論中にキー値(KV)ペアとしてキャッシュコンテキストを持つ。コンテキストの長さが大きくなると、KVキャッシュのサイズが拡大し、メモリオーバーヘッドが大きくなり、注意の遅延が増大する。本稿では,クエリに依存しないKVキャッシュ消去手法であるKVzipを紹介する。
論文参考訳（メタデータ） (2025-05-29T13:05:47Z)
Lookahead Q-Cache: Achieving More Consistent KV Cache Eviction via Pseudo Query [48.52389201779425]
KVキャッシュメモリの使用は、長いテキストシーケンスで大幅に増加する。プリフィルステージアテンションスコアを用いた既存のKVキャッシュ消去手法Pruneトークン Lookahead Q-Cacheは、真のデコードステージクエリをよりよく近似するために、低コストの疑似ルックアヘッドクエリを生成する。
論文参考訳（メタデータ） (2025-05-24T10:34:38Z)
FlowKV: Enhancing Multi-Turn Conversational Coherence in LLMs via Isolated Key-Value Cache Management [27.734106884226005]
FlowKVはKVキャッシュ管理のための新しいマルチターン分離機構である。蓄積された圧縮KVキャッシュを過去のターンから保存する。古い文脈の再圧縮を防ぎ、破滅的な忘れを和らげる。
論文参考訳（メタデータ） (2025-05-21T10:20:46Z)
DBudgetKV: Dynamic Budget in KV Cache Compression for Ensuring Optimal Performance [125.81664663201282]
我々はDBudgetKVと呼ばれる新しいKVキャッシュ圧縮手法を提案する。これは、残りのKVキャッシュがフルキャッシュのパフォーマンスにマッチしそうにない場合に、注意に基づくメトリクスを信号として、プルーニングプロセスを停止させる。提案手法は,メモリ空間を最適化するだけでなく,既存の手法に比べて推論時間を短縮する。
論文参考訳（メタデータ） (2025-02-24T06:33:39Z)
QuantSpec: Self-Speculative Decoding with Hierarchical Quantized KV Cache [67.84112700032007]
大きな言語モデル(LLM)は、長いコンテキスト設定のためにエッジデバイスにデプロイされることが増えている。これらのシナリオでは、キーバリュー(KV)キャッシュがGPUメモリとレイテンシの両方において主要なボトルネックとなっている。そこで本研究では,ターゲットモデルのアーキテクチャを共有するが,階層的な4ビット量子化KVキャッシュと4ビット量子化重みを併用して高速化を行う,新たな自己推論型デコーディングフレームワークであるQuantSpecを提案する。
論文参考訳（メタデータ） (2025-02-05T20:43:48Z)
SCBench: A KV Cache-Centric Analysis of Long-Context Methods [61.025422435235456]
KVキャッシュ中心の視点から長文の手法を評価するベンチマークであるSCBenchを紹介する。我々は、Gated Linear RNNsやMamba-Attention Hybridsを含む8つのカテゴリの長期コンテキストソリューションについて、広範なKVキャッシュ中心の分析を行う。本研究は,O(n)メモリとサブO(n2)プリフィルによるスパース符号化が堅牢に動作する一方で,サブO(n)メモリ手法がマルチターンシナリオに悩まされていることを示す。
論文参考訳（メタデータ） (2024-12-13T17:59:52Z)
ClusterKV: Manipulating LLM KV Cache in Semantic Space for Recallable Compression [10.003118268356017]
ロングコンテキストは推論効率に重大な課題をもたらす。本稿では,意味クラスタの粒度でトークンをリコールするClusterKVを紹介する。実験結果から、ClusterKVは32kのコンテキスト長を持つ様々なタスクにおいて、無視可能な精度の損失が得られることがわかった。
論文参考訳（メタデータ） (2024-12-04T10:58:27Z)
KVSharer: Efficient Inference via Layer-Wise Dissimilar KV Cache Sharing [58.29726147780976]
我々は,層間をKVキャッシュで共有し,層間圧縮を実現する,textit KVSharerと呼ばれるプラグアンドプレイ方式を提案する。実験の結果、textit KVSharerはKVキャッシュの計算を30%削減し、メモリ消費を削減できることがわかった。我々は,textit KVSharerが既存の層内KVキャッシュ圧縮手法と互換性があることを検証する。
論文参考訳（メタデータ） (2024-10-24T08:06:41Z)
Lossless KV Cache Compression to 2% [22.98828332096935]
この研究は、KVキャッシュを元のサイズの2%未満に圧縮することを目的とした、新しいアーキテクチャであるCLLA(Cross-Layer Latent Attention)を導入している。 CLLAは、アテンションヘッド/ディメンション低減、レイヤ共有、量子化技術を結合的なフレームワークに統合する。
論文参考訳（メタデータ） (2024-10-20T02:17:35Z)
Compute Or Load KV Cache? Why Not Both? [6.982874528357836]
Cakeは、双方向並列化KVキャッシュ生成戦略を採用した、新しいKVキャッシュローダである。プレフィックスキャッシュ位置から保存されたKVキャッシュを同時に動的にロードし、ローカルGPU上でKVキャッシュを計算する。最大68.1%のTTFT(Time To First Token)削減を計算専用法と比較し、94.6%のTTFT削減をI/O専用法と比較する。
論文参考訳（メタデータ） (2024-10-04T01:11:09Z)
ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文参考訳（メタデータ） (2024-07-30T17:59:08Z)
Model Tells You Where to Merge: Adaptive KV Cache Merging for LLMs on Long-Context Tasks [21.815661269986425]
KVMergerと呼ばれる新しいKVキャッシュマージ手法を提案し、長文タスクに対して適応的なKVキャッシュ圧縮を実現する。我々のアプローチは、キー状態が1つのシーケンス内のトークンレベルで高い類似性を示すという興味深い観察にインスパイアされている。我々は,制約メモリ予算下での長時間コンテキストタスクに対するKVMergerの有効性を示すため,広範囲な実験を行った。
論文参考訳（メタデータ） (2024-07-11T12:50:42Z)
PyramidKV: Dynamic KV Cache Compression based on Pyramidal Information Funneling [53.08975547824068]
本研究では,大規模言語モデル(LLM)内の注意に基づく情報フローが,長期的文脈処理のための顕著なパターンによって集約されるかどうかを検討する。観測の結果,LLMは下層に広く注意が散らばっているピラミッド情報ファンリングを通じて情報を集約することがわかった。これらの知見に触発され、我々は新しい効率的なKVキャッシュ圧縮法であるPraamid KVを開発した。
論文参考訳（メタデータ） (2024-06-04T07:51:30Z)
CacheBlend: Fast Large Language Model Serving for RAG with Cached Knowledge Fusion [15.344568214955688]
大規模な言語モデル(LLM)は、必要なコンテキストを提供するために、入力に複数のテキストチャンクを組み込むことが多い。プリフィルを高速化するために、テキストのKVキャッシュをプリコンプリートし、コンテキストが別のLCM入力のプレフィックスとして再利用されるときにKVキャッシュを再使用することができる。我々は,プリコンパイルされたKVキャッシュをプレフィックスの有無にかかわらず再利用し,トークンの小さなサブセットのKV値を選択的に再計算し,再利用されたKVキャッシュを部分的に更新する方式であるCacheBlendを提案する。
論文参考訳（メタデータ） (2024-05-26T06:00:17Z)
CORM: Cache Optimization with Recent Message for Large Language Model Inference [57.109354287786154]
メモリフットプリントを大幅に最小化するKVキャッシュを最適化する革新的な手法を提案する。 KVキャッシュ消去ポリシーであるCORMは、モデル微調整を必要とせずに、推論に必要なキーと値のペアを動的に保持する。検証の結果,CORMはKVキャッシュの推論メモリ使用量を最大70%削減し,LongBenchの6つのタスクで性能劣化を無視できることがわかった。
論文参考訳（メタデータ） (2024-04-24T16:11:54Z)
Get More with LESS: Synthesizing Recurrence with KV Cache Compression for Efficient LLM Inference [78.65321721142624]
我々はキー値(KV)キャッシュによって課されるメモリボトルネックに焦点を当てる。既存のKVキャッシュ手法は、比較的重要でないKVペアの大きなスワストを刈り取ったり、取り除いたりすることでこの問題に対処する。本稿では,固定サイズキャッシュと退避型キャッシュを簡易に統合したLESSを提案する。
論文参考訳（メタデータ） (2024-02-14T18:54:56Z)
KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache [67.9776980972508]
我々はKIVIというチューニング不要な2ビットKVキャッシュ量子化アルゴリズムを開発した。 KIVI は Llama, Falcon, Mistral のモデルを $mathbf2.6times$ less peak memory を使用しながらほぼ同じ品質を維持することができる。
論文参考訳（メタデータ） (2024-02-05T06:06:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。