Fugu-MT 論文翻訳(概要): SpotServe: Serving Generative Large Language Models on Preemptible Instances

論文の概要: SpotServe: Serving Generative Large Language Models on Preemptible Instances

arxiv url: http://arxiv.org/abs/2311.15566v1
Date: Mon, 27 Nov 2023 06:31:17 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-28 16:50:11.907595
Title: SpotServe: Serving Generative Large Language Models on Preemptible Instances
Title（参考訳）: SpotServe:プリエンプティブルインスタンス上で生成可能な大規模言語モデルを実現する
Authors: Xupeng Miao, Chunan Shi, Jiangfei Duan, Xiaoli Xi, Dahua Lin, Bin Cui, Zhihao Jia
Abstract要約: SpotServeは、プリエンプティブルインスタンスにシステムを提供する最初の分散大規模言語モデルである。 SpotServeは、既存のLLMサービスシステムと比較して、P99テールのレイテンシを2.4～9.1倍削減できることを示す。また、SpotServeはプリエンプティブインスタンスの価格優位性を利用して、オンデマンドインスタンスのみを使用する場合と比較して54%の金銭的コストを節約できることも示しています。
参考スコア（独自算出の注目度）: 64.18638174004151
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The high computational and memory requirements of generative large language models (LLMs) make it challenging to serve them cheaply. This paper aims to reduce the monetary cost for serving LLMs by leveraging preemptible GPU instances on modern clouds, which offer accesses to spare GPUs at a much cheaper price than regular instances but may be preempted by the cloud at any time. Serving LLMs on preemptible instances requires addressing challenges induced by frequent instance preemptions and the necessity of migrating instances to handle these preemptions. This paper presents SpotServe, the first distributed LLM serving system on preemptible instances. Several key techniques in SpotServe realize fast and reliable serving of generative LLMs on cheap preemptible instances. First, SpotServe dynamically adapts the LLM parallelization configuration for dynamic instance availability and fluctuating workload, while balancing the trade-off among the overall throughput, inference latency and monetary costs. Second, to minimize the cost of migrating instances for dynamic reparallelization, the task of migrating instances is formulated as a bipartite graph matching problem, which uses the Kuhn-Munkres algorithm to identify an optimal migration plan that minimizes communications. Finally, to take advantage of the grace period offered by modern clouds, we introduce stateful inference recovery, a new inference mechanism that commits inference progress at a much finer granularity and allows SpotServe to cheaply resume inference upon preemption. We evaluate on real spot instance preemption traces and various popular LLMs and show that SpotServe can reduce the P99 tail latency by 2.4 - 9.1x compared with the best existing LLM serving systems. We also show that SpotServe can leverage the price advantage of preemptive instances, saving 54% monetary cost compared with only using on-demand instances.
Abstract（参考訳）: 生成型大規模言語モデル(LLM)の高い計算とメモリ要求は、それらを安価に提供することを困難にしている。本稿では,現在のクラウド上でプリエンプティブルGPUインスタンスを利用することで,LLMを提供するための金銭的コストを削減することを目的としている。プリエンプティブルインスタンス上でのLSMの実行には、頻繁にインスタンスプリエンプティブルによって引き起こされる課題と、これらのプリエンプティブルを扱うインスタンスの移行の必要性に対処する必要がある。本稿では,プリエンプティブルインスタンスを対象とした最初の分散LLMサービスシステムであるSpotServeを提案する。 SpotServeのいくつかの重要な技術は、安価でプリエンプティブルなインスタンス上の生成LDMの高速かつ信頼性の高い提供を実現する。まず、SpotServeはLLM並列化設定を動的インスタンス可用性と変動するワークロードに動的に適用し、全体的なスループット、推論レイテンシ、金銭的コストのトレードオフをバランスさせる。第二に、動的並列化のためのインスタンスの移行コストを最小化するために、インスタンスの移行タスクは、Kuhn-Munkresアルゴリズムを用いて通信を最小化する最適な移行計画を特定する二部グラフマッチング問題として定式化される。最後に、現代のクラウドが提供する優雅な期間を利用するために、より細かい粒度で推論の進捗をコミットし、spoterveがプリエンプション時に安く推論を再開できる新しい推論メカニズムであるステートフル推論リカバリを導入します。実スポットインスタンスプリエンプショントレースと各種のLLMを評価し,既存のLLMサービスシステムと比較して,SpotServeはP99テールレイテンシを2.4～9.1倍削減できることを示した。また、SpotServeはプリエンプティブインスタンスの価格優位性を活用し、オンデマンドインスタンスのみを使用する場合と比較して54%の金銭的コストを節約できることを示した。

関連論文リスト

BucketServe: Bucket-Based Dynamic Batching for Smart and Efficient LLM Inference Serving [3.620158146761518]
BucketServeは、推論パフォーマンスを最適化するために設計されたバケットベースの動的フレームワークである。 UELLMと比較して1.93倍の要求負荷を達成でき、UELLMよりも1.975倍高いシステム負荷能力を示す。
論文参考訳（メタデータ） (2025-07-23T01:51:48Z)
Federated Learning-Enabled Hybrid Language Models for Communication-Efficient Token Transmission [87.68447072141402]
ハイブリッド言語モデル(HLM)は、エッジデバイス上でのSLM(Small Language Model)の低レイテンシ効率と、集中型サーバ上でのLLM(Large Language Model)の高精度を組み合わせたものである。我々は、不確実性を考慮した推論とフェデレートラーニング(FL)を統合する通信効率の高いHLMフレームワークであるFedHLMを提案する。
論文参考訳（メタデータ） (2025-06-30T02:56:11Z)
Apt-Serve: Adaptive Request Scheduling on Hybrid Cache for Scalable LLM Inference Serving [22.66354939370058]
Apt-Serveは、大規模言語モデル(LLM)推論サービスシステムにおける効果的なスループットを高めるために設計されたフレームワークである。新たなハイブリッドキャッシュスキームでは、KVキャッシュとメモリ効率の高い隠れキャッシュを組み合わせることで、再利用可能な入力隠れ状態ベクタを実現し、バッチサイズを大きくし、要求を改善する。 Apt-Serveは,最先端の推論サービスシステムと比較して,スループットが最大8.8倍向上することを示す。
論文参考訳（メタデータ） (2025-04-10T06:51:23Z)
Memory Is Not the Bottleneck: Cost-Efficient Continual Learning via Weight Space Consolidation [55.77835198580209]
連続学習(CL)は、メモリが主要なボトルネックであると仮定して、メモリ使用量の最小化を伝統的に強調してきた。本稿では, CLを十分なメモリでより現実的な環境下で再検討し, システムが過去のデータの代表的部分を保持できることを示す。この体制下では、忘れることを減らすことによって安定性が向上するが、モデルが以前のタスクに偏り、新しいタスクに適応するのに苦労すると、可塑性は低下する。
論文参考訳（メタデータ） (2025-02-11T05:40:52Z)
Locality-aware Fair Scheduling in LLM Serving [28.707749238946253]
大規模言語モデル(LLM)推論ワークロードは、さまざまな現代的なAIアプリケーションを支配している。公平性と効率性のバランスをとることは、さまざまなプレフィックスパターンで多様なクライアントワークロードを管理する上で非常に重要です。本稿では,最初の局所性を考慮したフェアスケジューリングアルゴリズムであるDeficit Longest Prefix Match(DLPM)を紹介する。
論文参考訳（メタデータ） (2025-01-24T08:12:47Z)
A Little Help Goes a Long Way: Efficient LLM Training by Leveraging Small LMs [74.35290684163718]
大規模言語モデル(LLM)開発における最大の課題は、その面倒な事前トレーニングコストである。本稿では,小言語モデル(SLM)を活用して,LLMの事前学習効率と品質を改善するための有望なパラダイムについて検討する。
論文参考訳（メタデータ） (2024-10-24T14:31:52Z)
Mixture of Attentions For Speculative Decoding [17.344416130742232]
投機的復号法(SD)は、より小さなモデルを利用して将来のトークンを効率的に提案し、それを大規模言語モデルによって並列に検証する。 SDモデルには、トレーニング中のオン・ポリティネスの欠如や部分観測可能性の欠如など、いくつかの制限がある。 SD用ミクチャ・オブ・アテンションの導入により,小型モデルのより基礎的なアーキテクチャを提案する。
論文参考訳（メタデータ） (2024-10-04T10:25:52Z)
Efficient Hybrid Inference for LLMs: Reward-Based Token Modelling with Selective Cloud Assistance [0.0]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおける例外的な性能で知られている。より小型の言語モデル(SLM)は、より低価格のエッジデバイスにデプロイできるが、より大きなデバイスの性能に匹敵する。本稿では,両モデルの強みを生かした新しいハイブリッド推論手法を提案する。
論文参考訳（メタデータ） (2024-09-15T15:12:45Z)
FedBiOT: LLM Local Fine-tuning in Federated Learning without Full Model [48.33280660752336]
大規模言語モデル(LLM)は、適切なデータで微調整した後、多くのドメイン固有のタスクで素晴らしいパフォーマンスを示す。多くのドメイン固有のデータは、プライベートに複数の所有者に分散される。我々は,フェデレート学習のための資源効率の高いLLM微調整手法であるFedBiOTを紹介する。
論文参考訳（メタデータ） (2024-06-25T16:45:47Z)
Delta-CoMe: Training-Free Delta-Compression with Mixed-Precision for Large Language Models [79.46938238953916]
多様なアプリケーションへの微調整された大規模言語モデル(LLM)は、複雑な要求を満たすために不可欠である。近年の研究では、微調整LDMをベースモデルと対応するデルタウェイトに分解し、低ランクまたは低ビットのアプローチで圧縮してコストを削減することが示唆されている。本研究では,従来の低ランク圧縮法と低ビット圧縮法がタスク固有の微調整LDMのモデル性能を著しく損なうことを観察する。
論文参考訳（メタデータ） (2024-06-13T07:57:27Z)
Llumnix: Dynamic Scheduling for Large Language Model Serving [17.919408899409113]
大規模言語モデル(LLM)に対する推論は、その可能性を解き放つ鍵である。 Llumnixは、実行時再スケジューリングによって、不均一で予測不能な要求に応答するLLMサービスシステムである。 Llumnixはテールレイテンシを桁違いに改善し,高優先度要求を最大1.5倍高速化し,最大36%のコスト削減を実現している。
論文参考訳（メタデータ） (2024-06-05T13:20:18Z)
HiRE: High Recall Approximate Top-$k$ Estimation for Efficient LLM Inference [68.59839755875252]
HiREは2つの新しいコンポーネントから構成される: (i) (i) (i) (i) (i) (i) (i) (i) (i) (i) (ii) DA-TOP-$k$: 効率的なマルチデバイス近似トップ-k$演算子) (i) (i) (i) (i) (i) (i) (i) DA-TOP-$k$演算子) 。我々は、10億のパラメータモデルにおいて、HiREがソフトマックスとフィードフォワード層の両方に適用され、ほぼ一致した事前学習と下流の精度を実現し、1台のTPUv5eデバイスで1.47Times$の推論遅延を高速化することを示した。
論文参考訳（メタデータ） (2024-02-14T18:04:36Z)
Cache me if you Can: an Online Cost-aware Teacher-Student framework to Reduce the Calls to Large Language Models [13.799197575126442]
中小企業(中小企業)は、大規模なタスク固有のトレーニングデータセットを作成する費用を支払うことができない。大規模言語モデルをプロンプトできるサードパーティサービスは、現在、通話1回あたりの支払いを必要としている。本稿では,従来の応答をキャッシュし,ローカルな安価なモデルをトレーニングすることで,LCMへの呼び出しを削減できるフレームワークを提案する。
論文参考訳（メタデータ） (2023-10-20T10:05:07Z)
Dynamic Sparse No Training: Training-Free Fine-tuning for Sparse LLMs [67.38165028487242]
そこで我々は,DSnoT(Dynamic Sparse No Training, 動的スパース・ノー・トレーニング)を導入した。動的スパーストレーニングにインスパイアされたDSnoTは、密度とスパースLLM間の再構成誤差を最小限に抑える。本稿は, LLMのスパースを, 効率的なトレーニング自由な方法で微調整し, 新たな会場をオープンして, LLMの空間性に大きな可能性を拡大する方法について, 新たな知見を提供する。
論文参考訳（メタデータ） (2023-10-13T07:38:52Z)
Fast Distributed Inference Serving for Large Language Models [12.703624317418237]
大規模言語モデル(LLM)のための分散推論サービスシステムであるFastServeについて述べる。 FastServeはLLM推論の自己回帰パターンを利用して、各出力トークンの粒度のプリエンプションを可能にする。我々は,FastServeのシステムプロトタイプを構築し,最先端のソリューションであるvLLMと比較して,同じ平均および末尾遅延条件下でのスループットを最大31.4xと17.9xに改善したことを示す。
論文参考訳（メタデータ） (2023-05-10T06:17:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。