論文の概要: SpotServe: Serving Generative Large Language Models on Preemptible
Instances
- arxiv url: http://arxiv.org/abs/2311.15566v1
- Date: Mon, 27 Nov 2023 06:31:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-28 16:50:11.907595
- Title: SpotServe: Serving Generative Large Language Models on Preemptible
Instances
- Title(参考訳): SpotServe:プリエンプティブルインスタンス上で生成可能な大規模言語モデルを実現する
- Authors: Xupeng Miao, Chunan Shi, Jiangfei Duan, Xiaoli Xi, Dahua Lin, Bin Cui,
Zhihao Jia
- Abstract要約: SpotServeは、プリエンプティブルインスタンスにシステムを提供する最初の分散大規模言語モデルである。
SpotServeは、既存のLLMサービスシステムと比較して、P99テールのレイテンシを2.4~9.1倍削減できることを示す。
また、SpotServeはプリエンプティブインスタンスの価格優位性を利用して、オンデマンドインスタンスのみを使用する場合と比較して54%の金銭的コストを節約できることも示しています。
- 参考スコア(独自算出の注目度): 64.18638174004151
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The high computational and memory requirements of generative large language
models (LLMs) make it challenging to serve them cheaply. This paper aims to
reduce the monetary cost for serving LLMs by leveraging preemptible GPU
instances on modern clouds, which offer accesses to spare GPUs at a much
cheaper price than regular instances but may be preempted by the cloud at any
time. Serving LLMs on preemptible instances requires addressing challenges
induced by frequent instance preemptions and the necessity of migrating
instances to handle these preemptions.
This paper presents SpotServe, the first distributed LLM serving system on
preemptible instances. Several key techniques in SpotServe realize fast and
reliable serving of generative LLMs on cheap preemptible instances. First,
SpotServe dynamically adapts the LLM parallelization configuration for dynamic
instance availability and fluctuating workload, while balancing the trade-off
among the overall throughput, inference latency and monetary costs. Second, to
minimize the cost of migrating instances for dynamic reparallelization, the
task of migrating instances is formulated as a bipartite graph matching
problem, which uses the Kuhn-Munkres algorithm to identify an optimal migration
plan that minimizes communications. Finally, to take advantage of the grace
period offered by modern clouds, we introduce stateful inference recovery, a
new inference mechanism that commits inference progress at a much finer
granularity and allows SpotServe to cheaply resume inference upon preemption.
We evaluate on real spot instance preemption traces and various popular LLMs
and show that SpotServe can reduce the P99 tail latency by 2.4 - 9.1x compared
with the best existing LLM serving systems. We also show that SpotServe can
leverage the price advantage of preemptive instances, saving 54% monetary cost
compared with only using on-demand instances.
- Abstract(参考訳): 生成型大規模言語モデル(LLM)の高い計算とメモリ要求は、それらを安価に提供することを困難にしている。
本稿では,現在のクラウド上でプリエンプティブルGPUインスタンスを利用することで,LLMを提供するための金銭的コストを削減することを目的としている。
プリエンプティブルインスタンス上でのLSMの実行には、頻繁にインスタンスプリエンプティブルによって引き起こされる課題と、これらのプリエンプティブルを扱うインスタンスの移行の必要性に対処する必要がある。
本稿では,プリエンプティブルインスタンスを対象とした最初の分散LLMサービスシステムであるSpotServeを提案する。
SpotServeのいくつかの重要な技術は、安価でプリエンプティブルなインスタンス上の生成LDMの高速かつ信頼性の高い提供を実現する。
まず、SpotServeはLLM並列化設定を動的インスタンス可用性と変動するワークロードに動的に適用し、全体的なスループット、推論レイテンシ、金銭的コストのトレードオフをバランスさせる。
第二に、動的並列化のためのインスタンスの移行コストを最小化するために、インスタンスの移行タスクは、Kuhn-Munkresアルゴリズムを用いて通信を最小化する最適な移行計画を特定する二部グラフマッチング問題として定式化される。
最後に、現代のクラウドが提供する優雅な期間を利用するために、より細かい粒度で推論の進捗をコミットし、spoterveがプリエンプション時に安く推論を再開できる新しい推論メカニズムであるステートフル推論リカバリを導入します。
実スポットインスタンスプリエンプショントレースと各種のLLMを評価し,既存のLLMサービスシステムと比較して,SpotServeはP99テールレイテンシを2.4~9.1倍削減できることを示した。
また、SpotServeはプリエンプティブインスタンスの価格優位性を活用し、オンデマンドインスタンスのみを使用する場合と比較して54%の金銭的コストを節約できることを示した。
関連論文リスト
- Mitigating Catastrophic Forgetting in Large Language Models with
Self-Synthesized Rehearsal [51.36134981232229]
大規模言語モデル(LLM)は、連続学習中に破滅的な忘れ込みに悩まされる。
自己合成リハーサル(Self-Synthesized Rehearsal, SSR)と呼ばれるフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-02T16:11:23Z) - MobiLlama: Towards Accurate and Lightweight Fully Transparent GPT [87.4910758026772]
近年のLarge Language Models (LLM) 開発において,"Bigger the Better" が主流となっている。
本稿では、リソース制約のあるデバイスに対して、正確かつ効率的なSLM(Small Language Models)を設計する上での課題に対処し、"less is more"パラダイムについて考察する。
論文 参考訳(メタデータ) (2024-02-26T18:59:03Z) - HiRE: High Recall Approximate Top-$k$ Estimation for Efficient LLM
Inference [68.59839755875252]
HiREは2つの新しいコンポーネントから構成される: (i) (i) (i) (i) (i) (i) (i) (i) (i) (i) (ii) DA-TOP-$k$: 効率的なマルチデバイス近似トップ-k$演算子) (i) (i) (i) (i) (i) (i) (i) DA-TOP-$k$演算子) 。
我々は、10億のパラメータモデルにおいて、HiREがソフトマックスとフィードフォワード層の両方に適用され、ほぼ一致した事前学習と下流の精度を実現し、1台のTPUv5eデバイスで1.47Times$の推論遅延を高速化することを示した。
論文 参考訳(メタデータ) (2024-02-14T18:04:36Z) - Low-Latency ML Inference by Grouping Correlated Data Objects and
Computation [0.20482269513546453]
アプリケーション固有のデータアクセス相関を簡単に表現できる新しい相関グルーピング機構を提案する。
レイテンシに敏感なMLベースのアプリケーションに基づく実験は、標準手法の限界を確認する。
提案するメカニズムは,作業負荷の増加とスケールアウトの増加に伴い,レイテンシの大幅な低減,ノード利用率の向上を実現している。
論文 参考訳(メタデータ) (2023-11-30T16:02:04Z) - Unleashing the Power of Pre-trained Language Models for Offline
Reinforcement Learning [54.682106515794864]
オフライン強化学習(RL)は、事前コンパイルされたデータセットを使用して、ほぼ最適ポリシーを見つけることを目的としている。
本稿では、オフラインRLに事前学習言語モデル(LM)を使用するための決定変換器に基づく一般的なフレームワークである、$textbfMo$tion Control用の$textbfLanguage Models(textbfLaMo$)を紹介する。
経験的な結果から、$textbfLaMo$はスパース・リワードタスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-10-31T16:24:17Z) - Cache me if you Can: an Online Cost-aware Teacher-Student framework to
Reduce the Calls to Large Language Models [13.799197575126442]
中小企業(中小企業)は、大規模なタスク固有のトレーニングデータセットを作成する費用を支払うことができない。
大規模言語モデルをプロンプトできるサードパーティサービスは、現在、通話1回あたりの支払いを必要としている。
本稿では,従来の応答をキャッシュし,ローカルな安価なモデルをトレーニングすることで,LCMへの呼び出しを削減できるフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-20T10:05:07Z) - Dynamic Sparse No Training: Training-Free Fine-tuning for Sparse LLMs [67.38165028487242]
そこで我々は,DSnoT(Dynamic Sparse No Training, 動的スパース・ノー・トレーニング)を導入した。
動的スパーストレーニングにインスパイアされたDSnoTは、密度とスパースLLM間の再構成誤差を最小限に抑える。
本稿は, LLMのスパースを, 効率的なトレーニング自由な方法で微調整し, 新たな会場をオープンして, LLMの空間性に大きな可能性を拡大する方法について, 新たな知見を提供する。
論文 参考訳(メタデータ) (2023-10-13T07:38:52Z) - Fast Distributed Inference Serving for Large Language Models [12.682341873843882]
大規模言語モデル(LLM)は、ChatGPTで実証された対話型AIアプリケーションの新しい世代のパワーである。
これらのアプリケーションのインタラクティブな性質は、モデル推論に低いジョブ完了時間(JCT)を必要とする。
LLMのための分散推論サービスシステムであるFastServeについて述べる。
論文 参考訳(メタデータ) (2023-05-10T06:17:50Z) - Machine Learning on Volatile Instances [40.19551148721116]
この研究は、(プリエンプションの結果)アクティブワーカーノード数の変動がSGD収束とモデルをトレーニングする時間にどのように影響するかを定量化した最初のものである。
我々は,標準的なインスタンスよりも安価な揮発性クラウドインスタンスを利用するための費用対効果戦略を提案する。
論文 参考訳(メタデータ) (2020-03-12T07:47:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。