Fugu-MT 論文翻訳(概要): Symphony: Optimized DNN Model Serving using Deferred Batch Scheduling

論文の概要: Symphony: Optimized DNN Model Serving using Deferred Batch Scheduling

arxiv url: http://arxiv.org/abs/2308.07470v2
Date: Wed, 28 Feb 2024 21:40:00 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-01 18:51:55.074392
Title: Symphony: Optimized DNN Model Serving using Deferred Batch Scheduling
Title（参考訳）: Symphony: Deferred Batch Scheduling を用いた DNN モデルの最適化
Authors: Lequn Chen, Weixin Deng, Anirudh Canumalla, Yu Xin, Danyang Zhuo, Matthai Philipose, Arvind Krishnamurthy
Abstract要約: Symphonyは、遅延バッチスケジューリングを探索し、システムの効率とスループットを最適化するモデルサービスシステムである。スケジュール可能なウィンドウでリクエストをディスパッチおよび実行するために、アクセラレータ間でスケーラブルで低レイテンシできめ細かい調整スキームを実装している。 Symphonyは毎秒数百万のリクエストをスケジュールし、数千のGPUを調整すると同時に、堅牢な自動スケーリングを可能にします。
参考スコア（独自算出の注目度）: 8.953658739636868
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Having large batch sizes is one of the most critical aspects of increasing the accelerator efficiency and the performance of DNN model inference. However, existing model serving systems cannot achieve adequate batch sizes while meeting latency objectives as these systems eagerly dispatch requests to accelerators to minimize the accelerator idle time. We propose Symphony, a DNN serving system that explores deferred batch scheduling to optimize system efficiency and throughput. Further, unlike other prior systems, Symphony's GPU usage is load-proportional: it consolidates workloads on the appropriate number of GPUs and works smoothly with cluster auto-scaling tools. Symphony consists of two core design points. First, Symphony defines a schedulable window in which a batch of inference requests can be dispatched. This window is computed in order to improve accelerator efficiency while meeting the request's SLO. Second, Symphony implements a scalable, low-latency, fine-grained coordination scheme across accelerators to dispatch and execute requests in the schedulable window. Through extensive scheduler-only benchmarks, we demonstrate that Symphony can schedule millions of requests per second and coordinate thousands of GPUs while also enabling robust autoscaling that adapts to workload changes. Symphony outperforms prior systems by achieving 5x higher goodput when given the same number of GPUs and 60% reduction in GPUs when given the same workload.
Abstract（参考訳）: 大規模なバッチサイズを持つことは、DNNモデル推論の加速効率と性能を高める上で最も重要な側面の1つである。しかし、既存のモデルサービスシステムは、これらのシステムがアクセルアイドル時間を最小化するためにアクセラレーターにリクエストを積極的にディスパッチしているため、遅延目標を満たしながら十分なバッチサイズを達成できない。システム効率とスループットを最適化するために遅延バッチスケジューリングを探索するDNNサービスシステムであるSymphonyを提案する。他の以前のシステムとは異なり、symphonyのgpu使用はロード-プロポーザルであり、適切な数のgpuでワークロードを統合し、クラスタの自動スケーリングツールとスムーズに動作する。シンフォニーは2つの中核設計点で構成されている。まず、Symphonyは、一連の推論要求を発行できるスケジュール可能なウィンドウを定義する。このウィンドウは、要求のSLOを満たしながらアクセラレーション効率を向上させるために計算される。第二に、Symphonyは、スケジュール可能なウィンドウでリクエストをディスパッチおよび実行するために、アクセラレータ間でスケーラブルで低レイテンシできめ細かい調整スキームを実装している。広範なスケジューラのみのベンチマークを通じて、Symphonyは毎秒数百万のリクエストをスケジュールし、数千のGPUを調整すると同時に、ワークロードの変更に対応する堅牢なオートスケーリングを可能にします。 Symphonyは、同じGPU数が与えられ、同じワークロードが与えられた時に60%のGPUが削減された場合、従来のシステムよりも5倍高い出力を達成した。

関連論文リスト

Nexus:Proactive Intra-GPU Disaggregation of Prefill and Decode in LLM Serving [4.309392302169281]
エンジンレベルのプリフィル・デコード(PD)デアグリゲーションは干渉を避けるが、高いハードウェアと調整オーバーヘッドを引き起こす。 PDは、最大2.2倍のスループット、20倍のTTFT、2.5倍のTBTを達成する。
論文参考訳（メタデータ） (2025-07-09T07:27:18Z)
MegaScale-Infer: Serving Mixture-of-Experts at Scale with Disaggregated Expert Parallelism [26.923312725688735]
Mixture-of-Experts (MoE)は、大規模言語モデル(LLM)をスケールし、性能を向上し、計算の複雑さを減らし、大きな可能性を誇示している。大規模MOEモデルを提供するための効率よく費用効率の良いシステムであるMegaScale-Inferを提案する。
論文参考訳（メタデータ） (2025-04-03T04:20:44Z)
FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45～9.39倍の高速化を実現可能であることを示す。
論文参考訳（メタデータ） (2024-10-16T16:13:19Z)
MARLIN: Mixed-Precision Auto-Regressive Parallel Inference on Large Language Models [58.3342517278868]
本稿では,Mixed-precision AutoRegressive LINearカーネルの設計について述べる。バッチサイズは16-32までサポートでき、量子化のスピードアップが最大 (4times$) になる。 MarLINは非同期メモリアクセス、複雑なタスクスケジューリング、パイプライン化といったテクニックを組み合わせてこれを実現している。
論文参考訳（メタデータ） (2024-08-21T16:10:41Z)
SGPRS: Seamless GPU Partitioning Real-Time Scheduler for Periodic Deep Learning Workloads [0.9898607871253774]
構成分割スイッチのゼロを考慮した最初のリアルタイムGPUスケジューラであるSGPRSを提案する。提案するスケジューラは、並列タスクの期限を多く満たすだけでなく、ピボットポイントを越えた全体的なパフォーマンスも維持する。
論文参考訳（メタデータ） (2024-04-13T18:29:26Z)
Fast Distributed Inference Serving for Large Language Models [12.703624317418237]
大規模言語モデル(LLM)のための分散推論サービスシステムであるFastServeについて述べる。 FastServeはLLM推論の自己回帰パターンを利用して、各出力トークンの粒度のプリエンプションを可能にする。我々は,FastServeのシステムプロトタイプを構築し,最先端のソリューションであるvLLMと比較して,同じ平均および末尾遅延条件下でのスループットを最大31.4xと17.9xに改善したことを示す。
論文参考訳（メタデータ） (2023-05-10T06:17:50Z)
Communication-Efficient Graph Neural Networks with Probabilistic Neighborhood Expansion Analysis and Caching [59.8522166385372]
大規模グラフ上でのグラフニューラルネットワーク(GNN)のトレーニングと推論は、GNNの登場以来活発に研究されている。本稿では,分散環境におけるノードワイドサンプリングを用いたGNNによるミニバッチ学習と推論について述べる。分割された特徴データを扱うために,従来のSALIENTシステムを拡張したSALIENT++を提案する。
論文参考訳（メタデータ） (2023-05-04T21:04:01Z)
An efficient and flexible inference system for serving heterogeneous ensembles of deep neural networks [0.0]
ディープニューラルネットワーク(DNN)のアンサンブルは定性的予測を達成しているが、それらは計算とメモリ集約である。 DNNの柔軟性と効率性を両立させる新しいソフトウェア層を提案する。
論文参考訳（メタデータ） (2022-08-30T08:05:43Z)
NumS: Scalable Array Programming for the Cloud [82.827921577004]
タスクベース分散システム上でNumPyのような表現を最適化する配列プログラミングライブラリであるNumSを提案する。これはLoad Simulated Hierarchical Scheduling (LSHS)と呼ばれる新しいスケジューラによって実現される。 LSHSは、ネットワーク負荷を2倍減らし、メモリを4倍減らし、ロジスティック回帰問題において実行時間を10倍減らし、Rayの性能を向上させる。
論文参考訳（メタデータ） (2022-06-28T20:13:40Z)
An Adaptive Device-Edge Co-Inference Framework Based on Soft Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文参考訳（メタデータ） (2022-01-09T09:31:50Z)
GCNScheduler: Scheduling Distributed Computing Applications using Graph Convolutional Networks [12.284934135116515]
グラフ畳み込み型ネットワークベーススケジューラ(GCNScheduler)を提案する。タスク間データ依存関係構造とネットワーク設定を慎重に入力グラフに統合することにより、GCNSchedulerは所定の目的のためにタスクを効率的にスケジュールすることができる。従来のHEFTアルゴリズムよりもマインパンが良く、スループット指向のHEFTとほぼ同じスループットであることを示す。
論文参考訳（メタデータ） (2021-10-22T01:54:10Z)
Tailored Learning-Based Scheduling for Kubernetes-Oriented Edge-Cloud System [54.588242387136376]
エッジクラウドシステムのための学習ベースのスケジューリングフレームワークkaisを紹介する。まず,分散した要求ディスパッチに対応するために,協調型マルチエージェントアクタ-クリティックアルゴリズムを設計する。次に,多種多様なシステムスケールと構造について,グラフニューラルネットワークを用いてシステム状態情報を埋め込む。第3に、リクエストディスパッチとサービスオーケストレーションを調和させる2段階のスケジューリングメカニズムを採用します。
論文参考訳（メタデータ） (2021-01-17T03:45:25Z)
Communication Contention Aware Scheduling of Multiple Deep Learning Training Jobs [17.45154289084637]
我々は、DDLジョブをDAG(Directed Acyclic Graphs)として整理する新しいDDLジョブスケジューリングフレームワークを確立する。次に、GPU利用のバランスを保ち、各ジョブに割り当てられたGPUを統合するための効率的なアルゴリズム LWF-$kappa$ を提案する。 LWF-$kappa$は、古典的なファーストフィットアルゴリズムよりも最大$1.59タイムで改善できることを示す。
論文参考訳（メタデータ） (2020-02-24T07:50:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。