論文の概要: KunServe: Parameter-centric Memory Management for Efficient Memory Throttling Handling in LLM Serving
- arxiv url: http://arxiv.org/abs/2412.18169v3
- Date: Mon, 19 May 2025 06:42:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 17:08:51.753067
- Title: KunServe: Parameter-centric Memory Management for Efficient Memory Throttling Handling in LLM Serving
- Title(参考訳): KunServe: LLMにおける効率的なメモリスロットリング処理のためのパラメータ中心メモリ管理
- Authors: Rongxin Cheng, Yuxin Lai, Xingda Wei, Rong Chen, Haibo Chen,
- Abstract要約: 本稿では、複製されたパラメータを即座にフリーな要求メモリに選択的にドロップすることで、スロットリングを扱うための最初のパラメータ中心のアプローチを提案する。
Llumnix, vLLM, InferCept などの最先端システムと比較して,sys はスロットリング中のリクエストのテールTTFTを最大72.2倍削減することを示す。
- 参考スコア(独自算出の注目度): 4.756193814649289
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Serving LLMs with a cluster of GPUs is common nowadays, where the serving system must meet strict latency SLOs required by applications. However, the stateful nature of LLM serving requires maintaining huge states (i.e., KVCache) in limited GPU memory. Under spikes in real-world workloads, GPU memory can be easily throttled, leading to orders of magnitude higher response latency due to queuing introduced by waiting for KVCache to be reclaimed. Prior KVCache-centric approaches handle load throttling by dropping, migrating, or swapping KVCache. These methods fail to release sufficient memory quickly with requests still queued. This paper proposes the first parameter-centric approach to handling throttling by selectively dropping replicated parameters to instantly free memory for requests, based on an unnoticed observation that model parameters are commonly replicated across GPUs for serving LLMs. With additional memory, all requests can be served with a larger batch without queuing. To make the parameter-centric approach correct and efficient, we cooperatively execute requests on GPUs with a complete copy of parameters using pipeline parallelism, and derive an appropriate drop plan without unnecessary cooperation. We also design techniques to minimize the performance overhead due to pipeline parallelism with the execution patterns of requests under drop. Evaluations show that {\sys} reduces the tail TTFT of requests under throttling by up to 72.2 times compared to the state-of-the-art systems including Llumnix, vLLM and InferCept.
- Abstract(参考訳): 現在では、GPUのクラスタでLLMを実行することが一般的であり、アプリケーションに必要な厳格なレイテンシSLOをサービスシステムは満たさなければならない。
しかし、LLMのステートフルな性質は、限られたGPUメモリにおける巨大な状態(すなわちKVCache)を維持する必要がある。
現実世界のワークロードのスパイクの下では、GPUメモリは簡単にスロットルでき、KVCacheの再利用を待つことで導入されたキューによって、レスポンスレイテンシが桁違いに遅くなる。
以前のKVCache中心のアプローチは、KVCacheのドロップ、マイグレーション、スワップによってロードスロットリングを処理する。
これらのメソッドは、要求がまだキューされている間、十分なメモリを素早くリリースすることができない。
本稿では,LLMを実現するためにGPU間でモデルパラメータが一般的に複製されるという未知の観測に基づいて,複製されたパラメータを即座に要求のメモリに選択的にドロップすることで,スロットリングを処理するための最初のパラメータ中心のアプローチを提案する。
追加のメモリでは、すべてのリクエストはキューすることなく、より大きなバッチで提供できます。
パラメータ中心のアプローチを正確かつ効率的にするために、パイプライン並列性を用いてパラメータの完全なコピーでGPU上でリクエストを協調的に実行し、不要な協調を伴わずに適切なドロッププランを導出する。
また、パイプライン並列化によるパフォーマンスオーバーヘッドを最小化し、リクエストの実行パターンをドロップで実行する手法も設計しています。
評価結果は、Llumnix、vLLM、InferCeptなどの最先端システムと比較して、trottling中のリクエストのテールTTFTを最大72.2倍削減することを示している。
関連論文リスト
- Efficient LLM Serving on Hybrid Real-time and Best-effort Requests [0.6291443816903801]
BROSは、RT/BEリクエストをコロケーションし、BEリクエストのスループットを維持しながらRTリクエストのレイテンシ要求を満たすことを目的とした、ハイブリッド言語モデル(LLM)サービスシステムである。
RTリクエストのレイテンシ(最大74.20%)を大幅に削減し、サービスレベル目標(SLO)の達成率(最大36.38倍)を改善し、BEリクエストのスループットを低下させる。
論文 参考訳(メタデータ) (2025-04-13T14:16:57Z) - Recurrent Diffusion for Large-Scale Parameter Generation [52.98888368644455]
リカレント拡散(Recurrent Diffusion for Large Scale Generation)は、単一のGPU上で最大数億のニューラルネットワークパラメータを生成する新しいフレームワークである。
RPGはAI生成において重要な進歩であり、以前は不可能と考えられていたスケールでの効率的な重量生成を可能にする可能性がある。
論文 参考訳(メタデータ) (2025-01-20T16:46:26Z) - CSR:Achieving 1 Bit Key-Value Cache via Sparse Representation [63.65323577445951]
キャッシュスパース表現(CSR)と呼ばれる新しい手法を提案する。
CSRは、密度の高いKey-Valueキャッシュテンソルをスパースインデックスとウェイトに変換し、LLM推論中によりメモリ効率のよい表現を提供する。
我々の実験は、CSRが最先端KVキャッシュ量子化アルゴリズムに匹敵する性能を達成することを示した。
論文 参考訳(メタデータ) (2024-12-16T13:01:53Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - CORM: Cache Optimization with Recent Message for Large Language Model Inference [57.109354287786154]
メモリフットプリントを大幅に最小化するKVキャッシュを最適化する革新的な手法を提案する。
KVキャッシュ消去ポリシーであるCORMは、モデル微調整を必要とせずに、推論に必要なキーと値のペアを動的に保持する。
検証の結果,CORMはKVキャッシュの推論メモリ使用量を最大70%削減し,LongBenchの6つのタスクで性能劣化を無視できることがわかった。
論文 参考訳(メタデータ) (2024-04-24T16:11:54Z) - RelayAttention for Efficient Large Language Model Serving with Long System Prompts [59.50256661158862]
本稿では,長いシステムプロンプトを含むLCMサービスの効率を向上させることを目的とする。
これらのシステムプロンプトの処理には、既存の因果注意アルゴリズムにおいて、大量のメモリアクセスが必要である。
本稿では,DRAMから入力トークンのバッチに対して,DRAMから隠れた状態を正確に1回読み取ることのできるアテンションアルゴリズムであるRelayAttentionを提案する。
論文 参考訳(メタデータ) (2024-02-22T18:58:28Z) - Efficient NLP Inference at the Edge via Elastic Pipelining [0.42970700836450487]
WRXは2つの新しい手法によってレイテンシ/メモリの緊張を緩和する。
We build WRX and evaluation that on a range of NLP tasks, under a practical range of target latencies, on both CPU and GPU。
論文 参考訳(メタデータ) (2022-07-11T17:15:57Z) - Sparsification via Compressed Sensing for Automatic Speech Recognition [0.0]
大規模機械学習アプリケーションはモデル量子化と圧縮を必要とする。
本稿では,これらの問題に効果的に対応するために,圧縮センシングベースプルーニング(CSP)手法を提案する。
CSPは文学における既存のアプローチよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2021-02-09T16:41:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。