論文の概要: Mitigating KV Cache Competition to Enhance User Experience in LLM Inference
- arxiv url: http://arxiv.org/abs/2503.13773v1
- Date: Mon, 17 Mar 2025 23:38:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-19 14:16:46.730940
- Title: Mitigating KV Cache Competition to Enhance User Experience in LLM Inference
- Title(参考訳): LLM推論におけるユーザエクスペリエンス向上のためのKVキャッシュ競合の緩和
- Authors: Haiying Shen, Tanmoy Sen,
- Abstract要約: KVキャッシュ競合を緩和するシステムであるCacheOPTを提案する。
要求の出力長を推定し、要求到着率に基づいて調整された、高い特定の確率で偏差をバウンドする。
リクエストが割り当てられる前にKVCを積極的に割り当て、プリエンプションを防ぐためにKVCをグローバルに予約する。
- 参考スコア(独自算出の注目度): 8.964981700274059
- License:
- Abstract: In Large Language Model (LLM) serving, the KV-cache (KVC) bottleneck causes high tail Time-to-First-Token (TTFT) and Time-Between-Tokens (TBT), impairing user experience, particularly in time-sensitive applications. However, satisfying both TTFT and TBT service-level objectives (SLOs) is challenging. To address this, we propose a system, named CacheOPT for mitigating KV Cache competition, based on key insights from our measurements, incorporating novel components. First, it estimates a request's output length, bounding the deviation with a high specified probability, adjusted based on the request arrival rate. Second, it allocates the estimated KVC demand to a request, and reuses other requests' allocated KVC to avoid preemptions while reducing waiting time. Third, it proactively allocates KVC before instead of at the time a request exhausts its allocation and reserves KVC globally to prevent preemptions. Fourth, it chooses a request that has long TBT SLO, long job remaining time and short preemption time to preempt. Fifth, it selects the shortest-latency strategy between swapping and recomputation for preemptions. Experiments show that CacheOPT achieves up to 3.29$\times$ and 2.83$\times$ lower tail TBT and tail TTFT, 47\% and 53\% higher TTFT and TBT SLO attainments, and supports up to 1.58$\times$ higher request arrival rate than the state-of-the-art methods.
- Abstract(参考訳): 大規模言語モデル (LLM) では、KV-cache (KVC) のボトルネックは、特に時間に敏感なアプリケーションにおいてユーザーエクスペリエンスを損なう、TTFT (Time-to-First-Token) とTBT (Time-Between-Tokens) を引き起こす。
しかし,TTFT と TBT のサービスレベル目標 (SLO) を満たすことは困難である。
そこで本研究では,KVキャッシュ競合を緩和するシステムであるCacheOPTを提案する。
まず、リクエストの出力長を推定し、要求到着率に基づいて調整された、高い特定の確率で偏差を限定する。
第二に、見積KVC要求を要求に割り当て、他の要求の割り当てられたKVCを再利用して、待ち時間を短縮しながらプリエンプションを回避する。
第3に、要求が割り当てられる前にKVCを積極的に割り当て、プリエンプションを防ぐためにKVCを世界中に予約する。
第4に、長いTBT SLO、長い仕事の残り時間、短いプリエンプション時間を持つリクエストを選択します。
第5に、プリエンプションのスワップと再計算の間の最短レイテンシ戦略を選択する。
実験の結果、CacheOPT は 3.29$\times$ と 2.83$\times$ のテール TBT とtail TTFT に到達し、47\% と 53\% の TTFT と TBT SLO に到達し、最先端のメソッドよりも 1.58$\times$ の要求到着率をサポートする。
関連論文リスト
- A$^2$ATS: Retrieval-Based KV Cache Reduction via Windowed Rotary Position Embedding and Query-Aware Vector Quantization [17.342214950859145]
ロングコンテキストの大規模言語モデル(LLM)は、メモリフットプリントが大きく、KVキャッシュのアクセスオーバーヘッドが大きいため、効率的なサービスを実現する上で大きな課題となる。
検索ベースのKVキャッシュ削減手法は、一般的に完全なKVキャッシュをCPUにオフロードし、推論時に必要なトークンを取得することで、これらの課題を軽減することができる。
本稿では,新しい検索方式KVキャッシュ削減手法であるA$2$ATSを提案する。
論文 参考訳(メタデータ) (2025-02-18T09:11:51Z) - FastSwitch: Optimizing Context Switching Efficiency in Fairness-aware Large Language Model Serving [2.5833506260502306]
既存のシステムはスループットを過度に優先順位付けし、プリエンプションによって引き起こされるコンテキストスイッチによって引き起こされるオーバーヘッドを見渡す傾向がある。
FastSwitchは、既存のKVキャッシュメモリ割り当てポリシーに適合するだけでなく、コンテキストスイッチングオーバーヘッドを軽減するフェアネス対応のサービスシステムである。
我々の評価によると、FastSwitchは最先端のLLMサービスシステムであるvLLMよりも、尾部TTFTとTBTで1.4-11.2xの高速化を実現している。
論文 参考訳(メタデータ) (2024-11-27T15:07:28Z) - Efficient Inference for Large Language Model-based Generative Recommendation [78.38878421030522]
LLM(Large Language Model)ベースの生成レコメンデーションは目覚ましい成功を収めた。
ジェネレーティブレコメンデーションにSD(Speculative Decoding)を適用すると、トップKアイテムを生成する必要があるため、ユニークな課題が提示される。
我々は,厳密なトップK検証の下でトップKアライメントを最適化する AtSpeed-S というアライメントフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-07T16:23:36Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - LayerKV: Optimizing Large Language Model Serving with Layer-wise KV Cache Management [23.431794605498084]
ハードウェアの追加や出力性能の向上を必要とせずにTTFTを効果的に削減する,シンプルで効果的なプラグイン手法であるLayer KVを提案する。
レイヤKVは、システムメモリのきめ細かい制御のために、レイヤワイズなKVブロック割り当て、管理、オフロードを導入します。
様々なGPU構成の7Bから70Bパラメータを含む代表モデルの包括的な評価は、Layer KVがTTFTレイテンシを69倍に改善し、SLO違反率を28.7%削減することを示した。
論文 参考訳(メタデータ) (2024-10-01T06:23:17Z) - Training-Free Exponential Context Extension via Cascading KV Cache [49.608367376911694]
カスケードサブキャッシュバッファを利用して,最も関連性の高いトークンを選択的に保持する機構を導入する。
本手法は,1Mトークンのフラッシュアテンションと比較して,プリフィルステージ遅延を6.8倍削減する。
論文 参考訳(メタデータ) (2024-06-24T03:59:17Z) - Cost-Efficient Large Language Model Serving for Multi-turn Conversations with CachedAttention [13.041210267981613]
CachedAttentionは、マルチターン会話間でKVキャッシュの再利用を可能にする新しいアテンションメカニズムである。
これは、最初のトークン(TTFT)までの時間を最大87%削減し、マルチターン会話のスループットを最大7.8$times$に改善し、エンドツーエンドの推論コストを最大70%削減する。
論文 参考訳(メタデータ) (2024-03-23T10:42:49Z) - KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache [67.9776980972508]
我々はKIVIというチューニング不要な2ビットKVキャッシュ量子化アルゴリズムを開発した。
KIVI は Llama, Falcon, Mistral のモデルを $mathbf2.6times$ less peak memory を使用しながらほぼ同じ品質を維持することができる。
論文 参考訳(メタデータ) (2024-02-05T06:06:47Z) - TFMQ-DM: Temporal Feature Maintenance Quantization for Diffusion Models [52.454274602380124]
拡散モデルは非常に時間ステップ$t$に大きく依存し、良好なマルチラウンドデノジングを実現している。
本稿では,時間情報ブロック上に構築した時間的特徴保守量子化(TFMQ)フレームワークを提案する。
先駆的なブロック設計により、時間情報認識再構成(TIAR)と有限集合キャリブレーション(FSC)を考案し、完全な時間的特徴を整列させる。
論文 参考訳(メタデータ) (2023-11-27T12:59:52Z) - Efficient Federated Prompt Tuning for Black-box Large Pre-trained Models [62.838689691468666]
我々は,各ローカルデータセットを最適に活用するためのフェデレートブラックボックス・プロンプト・チューニング(Fed-BBPT)を提案する。
Fed-BBPTは、ローカルユーザーがレギュラーアグリゲーションを通じてプロンプトジェネレータを協調的に訓練するのを支援する中央サーバーに重点を置いている。
大規模な微調整とは対照的に、Fed-BBPTは、PTMストレージとローカルマシンの微調整に関連するメモリの課題を、十分にサイドステップで解決している。
論文 参考訳(メタデータ) (2023-10-04T19:30:49Z) - TT-Rec: Tensor Train Compression for Deep Learning Recommendation Models [5.577715465378262]
深層学習レコメンデーションモデル(dlrms)におけるテーブル埋め込みのメモリ容量は劇的に増加している。
DLRM(TT-Rec)の列車分解の可能性を示す。
TT-Recは、メモリ容量、精度、タイミング性能の3つの重要な設計次元で評価する。
論文 参考訳(メタデータ) (2021-01-25T23:19:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。