論文の概要: LoongServe: Efficiently Serving Long-context Large Language Models with Elastic Sequence Parallelism
- arxiv url: http://arxiv.org/abs/2404.09526v1
- Date: Mon, 15 Apr 2024 07:45:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-16 12:20:54.993074
- Title: LoongServe: Efficiently Serving Long-context Large Language Models with Elastic Sequence Parallelism
- Title(参考訳): LoongServe: 弾力的シーケンス並列性を備えた長文大言語モデルの効率的な実行
- Authors: Bingyang Wu, Shengyu Liu, Yinmin Zhong, Peng Sun, Xuanzhe Liu, Xin Jin,
- Abstract要約: 既存の大規模言語モデル(LLM)は、異なるフェーズにおける可変長要求を効率的に提供できない。
本稿では,異なる要求と位相の分散に対応するために,新しい並列性パラダイムである弾性列並列性(ESP)を提案する。
LoongServeは、チャンクプレフィルと比較して最大スループットを最大3.85$times$、プリフィルデコードデアグリゲーションと比較して5.81$times$に改善する。
- 参考スコア(独自算出の注目度): 12.521026493432181
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The context window of large language models (LLMs) is rapidly increasing, leading to a huge variance in resource usage between different requests as well as between different phases of the same request. Restricted by static parallelism strategies, existing LLM serving systems cannot efficiently utilize the underlying resources to serve variable-length requests in different phases. To address this problem, we propose a new parallelism paradigm, elastic sequence parallelism (ESP), to elastically adapt to the variance between different requests and phases. Based on ESP, we design and build LoongServe, an LLM serving system that (1) improves computation efficiency by elastically adjusting the degree of parallelism in real-time, (2) improves communication efficiency by reducing key-value cache migration overhead and overlapping partial decoding communication with computation, and (3) improves GPU memory efficiency by reducing key-value cache fragmentation across instances. Our evaluation under diverse real-world datasets shows that LoongServe improves the maximum throughput by up to 3.85$\times$ compared to the chunked prefill and 5.81$\times$ compared to the prefill-decoding disaggregation.
- Abstract(参考訳): 大規模言語モデル(LLM)のコンテキストウィンドウは急速に増加しており、異なる要求と同じ要求の異なるフェーズ間のリソース使用量に大きなばらつきをもたらしている。
静的並列化戦略によって制限され、既存のLLMサービスシステムは、異なるフェーズにおける可変長要求を効率的に利用できない。
この問題に対処するために、異なる要求と位相の分散に弾性的に適応する新しい並列性パラダイム、弾性列並列性(ESP)を提案する。
ESPに基づいて,(1)リアルタイムに並列性の度合いを弾性的に調整し,計算効率を向上させるLongServeを設計・構築し,(2)鍵値キャッシュマイグレーションオーバーヘッドの低減と計算による部分復号通信の重複による通信効率の向上,(3)インスタンス間のキー値キャッシュフラグメンテーションの低減によるGPUメモリ効率の向上を図った。
多様な実世界のデータセットによる評価では、LoongServeはチャンクプリフィルと比較して最大スループットを最大3.85$\times$、プリフィルデコードデアグリゲーションと比較して5.81$\times$に改善している。
関連論文リスト
- Efficient Interactive LLM Serving with Proxy Model-based Sequence Length Prediction [8.705908108054878]
大型モデル(LLM)は、多くのドメインにわたるAIアプリケーションの新しい波を駆動している。
LLM出力シーケンス長の予測に光プロキシモデルを用いる投機的ショートストジョブファースト(SSJF)スケジューラを提案する。
論文 参考訳(メタデータ) (2024-04-12T14:46:15Z) - HiRE: High Recall Approximate Top-$k$ Estimation for Efficient LLM
Inference [68.59839755875252]
HiREは2つの新しいコンポーネントから構成される: (i) (i) (i) (i) (i) (i) (i) (i) (i) (i) (ii) DA-TOP-$k$: 効率的なマルチデバイス近似トップ-k$演算子) (i) (i) (i) (i) (i) (i) (i) DA-TOP-$k$演算子) 。
我々は、10億のパラメータモデルにおいて、HiREがソフトマックスとフィードフォワード層の両方に適用され、ほぼ一致した事前学習と下流の精度を実現し、1台のTPUv5eデバイスで1.47Times$の推論遅延を高速化することを示した。
論文 参考訳(メタデータ) (2024-02-14T18:04:36Z) - Low-Latency ML Inference by Grouping Correlated Data Objects and
Computation [0.20482269513546453]
アプリケーション固有のデータアクセス相関を簡単に表現できる新しい相関グルーピング機構を提案する。
レイテンシに敏感なMLベースのアプリケーションに基づく実験は、標準手法の限界を確認する。
提案するメカニズムは,作業負荷の増加とスケールアウトの増加に伴い,レイテンシの大幅な低減,ノード利用率の向上を実現している。
論文 参考訳(メタデータ) (2023-11-30T16:02:04Z) - SpotServe: Serving Generative Large Language Models on Preemptible
Instances [64.18638174004151]
SpotServeは、プリエンプティブルインスタンスにシステムを提供する最初の分散大規模言語モデルである。
SpotServeは、既存のLLMサービスシステムと比較して、P99テールのレイテンシを2.4~9.1倍削減できることを示す。
また、SpotServeはプリエンプティブインスタンスの価格優位性を利用して、オンデマンドインスタンスのみを使用する場合と比較して54%の金銭的コストを節約できることも示しています。
論文 参考訳(メタデータ) (2023-11-27T06:31:17Z) - Federated Learning of Large Language Models with Parameter-Efficient
Prompt Tuning and Adaptive Optimization [71.87335804334616]
フェデレートラーニング(FL)は、分散データとの協調モデルトレーニングを可能にする、有望なパラダイムである。
LLM(Large Language Models)のトレーニングプロセスは一般的に重要なパラメータの更新を引き起こす。
本稿では,性能と効率を同時に向上する効率的な部分的プロンプトチューニング手法を提案する。
論文 参考訳(メタデータ) (2023-10-23T16:37:59Z) - Distributed Evolution Strategies with Multi-Level Learning for
Large-Scale Black-Box Optimization [14.570608891347446]
本稿では,CMA-ES(Re limited-Memory CMA-ES)と呼ばれる,CMA-ES(Re limited-Memory CMA-ES)とCMA-ES(Restrict-Memory CMA-ES)を並列化する手法を提案する。
分散LM-CMAのためのマルチレベル学習ベースのメタフレームワークを提案する。階層的に構成された構造のため、Meta-ESは分散メタフレームワークを実装するのに適している。
論文 参考訳(メタデータ) (2023-10-09T03:24:51Z) - UniPT: Universal Parallel Tuning for Transfer Learning with Efficient
Parameter and Memory [69.33445217944029]
PETLは、トレーニング済みモデルを下流ドメインに適応するための効果的な戦略である。
最近のPETLは、より価値の高いメモリ効率特性に焦点を当てている。
メモリ効率の良い新しいPETL戦略Universal Parallel Tuning (UniPT)を提案する。
論文 参考訳(メタデータ) (2023-08-28T05:38:43Z) - Parallel Training of Deep Networks with Local Updates [84.30918922367442]
ローカル並列性(Local Parallelism)は、グローバルバックプロパゲーションを切り捨てられたレイヤワイズバックプロパゲーションに置き換えることで、ディープネットワーク内の個々のレイヤのトレーニングを並列化するフレームワークである。
我々は、様々なアーキテクチャセットにわたるビジョンと言語領域の両方で結果を示し、局所的並列性は特に高コンピュートなシステムにおいて有効であることを見出した。
論文 参考訳(メタデータ) (2020-12-07T16:38:45Z) - Scaling Distributed Deep Learning Workloads beyond the Memory Capacity
with KARMA [58.040931661693925]
冗長な再計算とアウト・オブ・コアの手法を組み合わせた戦略を提案する。
最先端のアウト・オブ・コア手法を用いて,6種類のモデルで平均1.22倍の高速化を実現した。
我々のデータ並列化ソリューションは,Megatron-LMやTurning-NLGといった大規模モデルのトレーニングにおいて,複雑なハイブリッドモデル並列性よりも優れる。
論文 参考訳(メタデータ) (2020-08-26T07:24:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。