論文の概要: Symphony: Optimized Model Serving using Centralized Orchestration
- arxiv url: http://arxiv.org/abs/2308.07470v1
- Date: Mon, 14 Aug 2023 21:46:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-16 14:40:26.187401
- Title: Symphony: Optimized Model Serving using Centralized Orchestration
- Title(参考訳): 交響曲:集中オーケストレーションを用いた最適化モデル実行
- Authors: Lequn Chen, Weixin Deng, Anirudh Canumalla, Yu Xin, Matthai Philipose,
Arvind Krishnamurthy
- Abstract要約: GPUクラスタ上でのディープニューラルネットワーク(NND)モデル推論のオーケストレーションには、2つの大きな課題がある。
我々は,毎秒数百万のリクエストにスケール可能な集中型スケジューリングシステムであるSymphonyを提案する。
我々は、Symphonyが以前のシステムよりも最大4.7倍高い性能を示すことを示した。
- 参考スコア(独自算出の注目度): 5.4893074266548325
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The orchestration of deep neural network (DNN) model inference on GPU
clusters presents two significant challenges: achieving high accelerator
efficiency given the batching properties of model inference while meeting
latency service level objectives (SLOs), and adapting to workload changes both
in terms of short-term fluctuations and long-term resource allocation. To
address these challenges, we propose Symphony, a centralized scheduling system
that can scale to millions of requests per second and coordinate tens of
thousands of GPUs. Our system utilizes a non-work-conserving scheduling
algorithm capable of achieving high batch efficiency while also enabling robust
autoscaling. Additionally, we developed an epoch-scale algorithm that allocates
models to sub-clusters based on the compute and memory needs of the models.
Through extensive experiments, we demonstrate that Symphony outperforms prior
systems by up to 4.7x higher goodput.
- Abstract(参考訳): GPUクラスタ上でのディープニューラルネットワーク(DNN)モデル推論のオーケストレーションは、レイテンシサービスレベル目標(SLO)を満たしている間、モデル推論のバッチ特性を考慮し、高いアクセラレータ効率を達成すること、短期的変動と長期的リソース割り当ての両方の観点からワークロードの変化に適応すること、という2つの大きな課題を示す。
これらの課題に対処するため、Symphonyは、毎秒数百万のリクエストにスケールでき、数万のGPUをコーディネートできる集中型スケジューリングシステムである。
本システムは,高バッチ効率を実現するとともに,堅牢な自動スケーリングを実現することができる非保守型スケジューリングアルゴリズムを利用する。
さらに,モデルの計算とメモリ要求に基づいて,サブクラスタにモデルを割り当てるエポックスケールアルゴリズムを開発した。
広範な実験を通じて、交響楽は最大4.7倍の精度で以前のシステムを上回ることを実証する。
関連論文リスト
- FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - MARLIN: Mixed-Precision Auto-Regressive Parallel Inference on Large Language Models [58.3342517278868]
本稿では,Mixed-precision AutoRegressive LINearカーネルの設計について述べる。
バッチサイズは16-32までサポートでき、量子化のスピードアップが最大 (4times$) になる。
MarLINは非同期メモリアクセス、複雑なタスクスケジューリング、パイプライン化といったテクニックを組み合わせてこれを実現している。
論文 参考訳(メタデータ) (2024-08-21T16:10:41Z) - SGPRS: Seamless GPU Partitioning Real-Time Scheduler for Periodic Deep Learning Workloads [0.9898607871253774]
構成分割スイッチのゼロを考慮した最初のリアルタイムGPUスケジューラであるSGPRSを提案する。
提案するスケジューラは、並列タスクの期限を多く満たすだけでなく、ピボットポイントを越えた全体的なパフォーマンスも維持する。
論文 参考訳(メタデータ) (2024-04-13T18:29:26Z) - Fast Distributed Inference Serving for Large Language Models [12.703624317418237]
大規模言語モデル(LLM)のための分散推論サービスシステムであるFastServeについて述べる。
FastServeはLLM推論の自己回帰パターンを利用して、各出力トークンの粒度のプリエンプションを可能にする。
我々は,FastServeのシステムプロトタイプを構築し,最先端のソリューションであるvLLMと比較して,同じ平均および末尾遅延条件下でのスループットを最大31.4xと17.9xに改善したことを示す。
論文 参考訳(メタデータ) (2023-05-10T06:17:50Z) - Communication-Efficient Graph Neural Networks with Probabilistic
Neighborhood Expansion Analysis and Caching [59.8522166385372]
大規模グラフ上でのグラフニューラルネットワーク(GNN)のトレーニングと推論は、GNNの登場以来活発に研究されている。
本稿では,分散環境におけるノードワイドサンプリングを用いたGNNによるミニバッチ学習と推論について述べる。
分割された特徴データを扱うために,従来のSALIENTシステムを拡張したSALIENT++を提案する。
論文 参考訳(メタデータ) (2023-05-04T21:04:01Z) - An efficient and flexible inference system for serving heterogeneous
ensembles of deep neural networks [0.0]
ディープニューラルネットワーク(DNN)のアンサンブルは定性的予測を達成しているが、それらは計算とメモリ集約である。
DNNの柔軟性と効率性を両立させる新しいソフトウェア層を提案する。
論文 参考訳(メタデータ) (2022-08-30T08:05:43Z) - NumS: Scalable Array Programming for the Cloud [82.827921577004]
タスクベース分散システム上でNumPyのような表現を最適化する配列プログラミングライブラリであるNumSを提案する。
これはLoad Simulated Hierarchical Scheduling (LSHS)と呼ばれる新しいスケジューラによって実現される。
LSHSは、ネットワーク負荷を2倍減らし、メモリを4倍減らし、ロジスティック回帰問題において実行時間を10倍減らし、Rayの性能を向上させる。
論文 参考訳(メタデータ) (2022-06-28T20:13:40Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - GCNScheduler: Scheduling Distributed Computing Applications using Graph
Convolutional Networks [12.284934135116515]
グラフ畳み込み型ネットワークベーススケジューラ(GCNScheduler)を提案する。
タスク間データ依存関係構造とネットワーク設定を慎重に入力グラフに統合することにより、GCNSchedulerは所定の目的のためにタスクを効率的にスケジュールすることができる。
従来のHEFTアルゴリズムよりもマインパンが良く、スループット指向のHEFTとほぼ同じスループットであることを示す。
論文 参考訳(メタデータ) (2021-10-22T01:54:10Z) - Tailored Learning-Based Scheduling for Kubernetes-Oriented Edge-Cloud
System [54.588242387136376]
エッジクラウドシステムのための学習ベースのスケジューリングフレームワークkaisを紹介する。
まず,分散した要求ディスパッチに対応するために,協調型マルチエージェントアクタ-クリティックアルゴリズムを設計する。
次に,多種多様なシステムスケールと構造について,グラフニューラルネットワークを用いてシステム状態情報を埋め込む。
第3に、リクエストディスパッチとサービスオーケストレーションを調和させる2段階のスケジューリングメカニズムを採用します。
論文 参考訳(メタデータ) (2021-01-17T03:45:25Z) - Communication Contention Aware Scheduling of Multiple Deep Learning
Training Jobs [17.45154289084637]
我々は、DDLジョブをDAG(Directed Acyclic Graphs)として整理する新しいDDLジョブスケジューリングフレームワークを確立する。
次に、GPU利用のバランスを保ち、各ジョブに割り当てられたGPUを統合するための効率的なアルゴリズム LWF-$kappa$ を提案する。
LWF-$kappa$は、古典的なファーストフィットアルゴリズムよりも最大$1.59タイムで改善できることを示す。
論文 参考訳(メタデータ) (2020-02-24T07:50:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。