Fugu-MT 論文翻訳(概要): Symphony: Optimized Model Serving using Centralized Orchestration

論文の概要: Symphony: Optimized Model Serving using Centralized Orchestration

arxiv url: http://arxiv.org/abs/2308.07470v1
Date: Mon, 14 Aug 2023 21:46:37 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-16 14:40:26.187401
Title: Symphony: Optimized Model Serving using Centralized Orchestration
Title（参考訳）: 交響曲:集中オーケストレーションを用いた最適化モデル実行
Authors: Lequn Chen, Weixin Deng, Anirudh Canumalla, Yu Xin, Matthai Philipose, Arvind Krishnamurthy
Abstract要約: GPUクラスタ上でのディープニューラルネットワーク(NND)モデル推論のオーケストレーションには、2つの大きな課題がある。我々は,毎秒数百万のリクエストにスケール可能な集中型スケジューリングシステムであるSymphonyを提案する。我々は、Symphonyが以前のシステムよりも最大4.7倍高い性能を示すことを示した。
参考スコア（独自算出の注目度）: 5.4893074266548325
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The orchestration of deep neural network (DNN) model inference on GPU clusters presents two significant challenges: achieving high accelerator efficiency given the batching properties of model inference while meeting latency service level objectives (SLOs), and adapting to workload changes both in terms of short-term fluctuations and long-term resource allocation. To address these challenges, we propose Symphony, a centralized scheduling system that can scale to millions of requests per second and coordinate tens of thousands of GPUs. Our system utilizes a non-work-conserving scheduling algorithm capable of achieving high batch efficiency while also enabling robust autoscaling. Additionally, we developed an epoch-scale algorithm that allocates models to sub-clusters based on the compute and memory needs of the models. Through extensive experiments, we demonstrate that Symphony outperforms prior systems by up to 4.7x higher goodput.
Abstract（参考訳）: GPUクラスタ上でのディープニューラルネットワーク(DNN)モデル推論のオーケストレーションは、レイテンシサービスレベル目標(SLO)を満たしている間、モデル推論のバッチ特性を考慮し、高いアクセラレータ効率を達成すること、短期的変動と長期的リソース割り当ての両方の観点からワークロードの変化に適応すること、という2つの大きな課題を示す。これらの課題に対処するため、Symphonyは、毎秒数百万のリクエストにスケールでき、数万のGPUをコーディネートできる集中型スケジューリングシステムである。本システムは,高バッチ効率を実現するとともに,堅牢な自動スケーリングを実現することができる非保守型スケジューリングアルゴリズムを利用する。さらに,モデルの計算とメモリ要求に基づいて,サブクラスタにモデルを割り当てるエポックスケールアルゴリズムを開発した。広範な実験を通じて、交響楽は最大4.7倍の精度で以前のシステムを上回ることを実証する。

関連論文リスト

FastUSP: A Multi-Level Collaborative Acceleration Framework for Distributed Diffusion Model Inference [11.772150619675527]
Unified Sequence Parallelism (USP) は分散アテンション計算のための最先端のアプローチとして登場した。既存のUSP実装は、カーネルの起動オーバーヘッドと準通信スケジューリングに悩まされている。コンパイルレベル最適化,通信レベル最適化,演算子レベル最適化を統合したフレームワークである textbfFastUSP を提案する。
論文参考訳（メタデータ） (2026-02-11T15:19:57Z)
PackInfer: Compute- and I/O-Efficient Attention for Batched LLM Inference [11.149400020066333]
バッチ推論のための計算およびI/O認識実行を可能にするカーネルレベルのアテンションフレームワークであるPackInferを提案する。 PackInferはレイテンシを13.0-20.1%削減し、最先端のFlashAttentionと比較してスループットを20%改善する。
論文参考訳（メタデータ） (2026-02-03T01:46:34Z)
Spava: Accelerating Long-Video Understanding via Sequence-Parallelism-aware Approximate Attention [63.69228529380251]
Spavaはシーケンス並列フレームワークで、ロングビデオ推論に最適化されている。 Spavaは、FlashAttn、ZigZagRing、APBで12.72x、1.70x、1.18xのスピードアップを提供する。
論文参考訳（メタデータ） (2026-01-29T09:23:13Z)
AIConfigurator: Lightning-Fast Configuration Optimization for Multi-Framework LLM Serving [16.664502126572856]
AIConfiguratorは、Large Language Model(LLM)推論のための統一されたパフォーマンスモデリングシステムである。 GPUベースのプロファイリングを必要とせずに、迅速なフレームワークベースの構成検索を可能にする。これは、高密度モデルのパフォーマンスを最大40%向上させる優れたサービス構成を特定する。
論文参考訳（メタデータ） (2026-01-09T20:03:57Z)
CSGO: Generalized Optimization for Cold Start in Wireless Collaborative Edge LLM Systems [62.24576366776727]
本稿では,全体の推論遅延を最小限に抑えるために,遅延を考慮したスケジューリングフレームワークを提案する。提案手法は,ベースライン戦略と比較して,コールドスタート遅延を著しく低減することを示す。
論文参考訳（メタデータ） (2025-08-15T07:49:22Z)
Nexus:Proactive Intra-GPU Disaggregation of Prefill and Decode in LLM Serving [4.309392302169281]
エンジンレベルのプリフィル・デコード(PD)デアグリゲーションは干渉を避けるが、高いハードウェアと調整オーバーヘッドを引き起こす。 PDは、最大2.2倍のスループット、20倍のTTFT、2.5倍のTBTを達成する。
論文参考訳（メタデータ） (2025-07-09T07:27:18Z)
MegaScale-Infer: Serving Mixture-of-Experts at Scale with Disaggregated Expert Parallelism [26.923312725688735]
Mixture-of-Experts (MoE)は、大規模言語モデル(LLM)をスケールし、性能を向上し、計算の複雑さを減らし、大きな可能性を誇示している。大規模MOEモデルを提供するための効率よく費用効率の良いシステムであるMegaScale-Inferを提案する。
論文参考訳（メタデータ） (2025-04-03T04:20:44Z)
FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45～9.39倍の高速化を実現可能であることを示す。
論文参考訳（メタデータ） (2024-10-16T16:13:19Z)
MARLIN: Mixed-Precision Auto-Regressive Parallel Inference on Large Language Models [58.3342517278868]
本稿では,Mixed-precision AutoRegressive LINearカーネルの設計について述べる。バッチサイズは16-32までサポートでき、量子化のスピードアップが最大 (4times$) になる。 MarLINは非同期メモリアクセス、複雑なタスクスケジューリング、パイプライン化といったテクニックを組み合わせてこれを実現している。
論文参考訳（メタデータ） (2024-08-21T16:10:41Z)
SGPRS: Seamless GPU Partitioning Real-Time Scheduler for Periodic Deep Learning Workloads [0.9898607871253774]
構成分割スイッチのゼロを考慮した最初のリアルタイムGPUスケジューラであるSGPRSを提案する。提案するスケジューラは、並列タスクの期限を多く満たすだけでなく、ピボットポイントを越えた全体的なパフォーマンスも維持する。
論文参考訳（メタデータ） (2024-04-13T18:29:26Z)
Fast Distributed Inference Serving for Large Language Models [12.703624317418237]
大規模言語モデル(LLM)のための分散推論サービスシステムであるFastServeについて述べる。 FastServeはLLM推論の自己回帰パターンを利用して、各出力トークンの粒度のプリエンプションを可能にする。我々は,FastServeのシステムプロトタイプを構築し,最先端のソリューションであるvLLMと比較して,同じ平均および末尾遅延条件下でのスループットを最大31.4xと17.9xに改善したことを示す。
論文参考訳（メタデータ） (2023-05-10T06:17:50Z)
Communication-Efficient Graph Neural Networks with Probabilistic Neighborhood Expansion Analysis and Caching [59.8522166385372]
大規模グラフ上でのグラフニューラルネットワーク(GNN)のトレーニングと推論は、GNNの登場以来活発に研究されている。本稿では,分散環境におけるノードワイドサンプリングを用いたGNNによるミニバッチ学習と推論について述べる。分割された特徴データを扱うために,従来のSALIENTシステムを拡張したSALIENT++を提案する。
論文参考訳（メタデータ） (2023-05-04T21:04:01Z)
An efficient and flexible inference system for serving heterogeneous ensembles of deep neural networks [0.0]
ディープニューラルネットワーク(DNN)のアンサンブルは定性的予測を達成しているが、それらは計算とメモリ集約である。 DNNの柔軟性と効率性を両立させる新しいソフトウェア層を提案する。
論文参考訳（メタデータ） (2022-08-30T08:05:43Z)
NumS: Scalable Array Programming for the Cloud [82.827921577004]
タスクベース分散システム上でNumPyのような表現を最適化する配列プログラミングライブラリであるNumSを提案する。これはLoad Simulated Hierarchical Scheduling (LSHS)と呼ばれる新しいスケジューラによって実現される。 LSHSは、ネットワーク負荷を2倍減らし、メモリを4倍減らし、ロジスティック回帰問題において実行時間を10倍減らし、Rayの性能を向上させる。
論文参考訳（メタデータ） (2022-06-28T20:13:40Z)
An Adaptive Device-Edge Co-Inference Framework Based on Soft Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文参考訳（メタデータ） (2022-01-09T09:31:50Z)
GCNScheduler: Scheduling Distributed Computing Applications using Graph Convolutional Networks [12.284934135116515]
グラフ畳み込み型ネットワークベーススケジューラ(GCNScheduler)を提案する。タスク間データ依存関係構造とネットワーク設定を慎重に入力グラフに統合することにより、GCNSchedulerは所定の目的のためにタスクを効率的にスケジュールすることができる。従来のHEFTアルゴリズムよりもマインパンが良く、スループット指向のHEFTとほぼ同じスループットであることを示す。
論文参考訳（メタデータ） (2021-10-22T01:54:10Z)
Tailored Learning-Based Scheduling for Kubernetes-Oriented Edge-Cloud System [54.588242387136376]
エッジクラウドシステムのための学習ベースのスケジューリングフレームワークkaisを紹介する。まず,分散した要求ディスパッチに対応するために,協調型マルチエージェントアクタ-クリティックアルゴリズムを設計する。次に,多種多様なシステムスケールと構造について,グラフニューラルネットワークを用いてシステム状態情報を埋め込む。第3に、リクエストディスパッチとサービスオーケストレーションを調和させる2段階のスケジューリングメカニズムを採用します。
論文参考訳（メタデータ） (2021-01-17T03:45:25Z)
Communication Contention Aware Scheduling of Multiple Deep Learning Training Jobs [17.45154289084637]
我々は、DDLジョブをDAG(Directed Acyclic Graphs)として整理する新しいDDLジョブスケジューリングフレームワークを確立する。次に、GPU利用のバランスを保ち、各ジョブに割り当てられたGPUを統合するための効率的なアルゴリズム LWF-$kappa$ を提案する。 LWF-$kappa$は、古典的なファーストフィットアルゴリズムよりも最大$1.59タイムで改善できることを示す。
論文参考訳（メタデータ） (2020-02-24T07:50:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。