論文の概要: HyperFlexis: Joint Design of Algorithms and Systems for Multi-SLO Serving and Fast Scaling
- arxiv url: http://arxiv.org/abs/2508.15919v1
- Date: Thu, 21 Aug 2025 18:40:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-25 16:42:36.166903
- Title: HyperFlexis: Joint Design of Algorithms and Systems for Multi-SLO Serving and Fast Scaling
- Title(参考訳): HyperFlexis: マルチSLO実行と高速スケーリングのためのアルゴリズムとシステムの共同設計
- Authors: Zahra Yousefijamarani, Xinglu Wang, Qian Wang, Morgan Lindsay Heisler, Taha Shabani, Niloofar Gholipour, Parham Yassini, Hong Chang, Kan Chen, Qiantao Zhang, Xiaolong Bai, Jiannan Wang, Ying Xiong, Yong Zhang, Zhenan Fan,
- Abstract要約: 現代の大規模言語モデル(LLM)が提供するシステムは、さまざまな長さ、優先順位、ステージ固有のサービスレベル目標(SLO)を持つ、高度に可変的な要求からの課題に直面している。
我々は,複数のSLO下でのスケジューリングとスケーリングを協調的に最適化するために,アルゴリズムとシステムレベルの革新を統合した統一LLMサービスシステムである textbfHyperFlexis を提案する。
- 参考スコア(独自算出の注目度): 19.154782641360253
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Modern large language model (LLM) serving systems face challenges from highly variable requests with diverse lengths, priorities, and stage-specific service-level objectives (SLOs). Meeting these requires real-time scheduling, rapid and cost-effective scaling, and support for both collocated and disaggregated Prefill/Decode (P/D) architectures. We present \textbf{HyperFlexis}, a unified LLM serving system that integrates algorithmic and system-level innovations to jointly optimize scheduling and scaling under multiple SLOs. It features a multi-SLO-aware scheduler that leverages budget estimation and request prioritization to ensure proactive SLO compliance for both new and ongoing requests. The system supports prefill- and decode-stage multi-SLO scheduling for P/D-disaggregated architectures and KV cache transfers. It also enables cost-effective scaling decisions, prefill-decode instance linking during scaling, and rapid P/D role transitions. To accelerate scaling and reduce cold-start latency, a device-to-device (D2D) weight transfer mechanism is proposed that lowers weight loading overhead by up to \textbf{19.39$\times$}. These optimizations allow the system to achieve up to \textbf{4.44$\times$} higher SLO attainment, \textbf{65.82\%} lower request latency, and cost parity with state-of-the-art baselines. The code will be released soon.
- Abstract(参考訳): 現代の大規模言語モデル(LLM)は、さまざまな長さ、優先順位、ステージ固有のサービスレベルの目的(SLO)を持つ、高度に可変的な要求からの課題に直面します。
これらを満たすには、リアルタイムのスケジューリング、迅速かつ費用対効果のスケーリング、およびP/D(Prefill/Decode)アーキテクチャのコロケーションとデアグリゲートの両方をサポートする必要がある。
本稿では,複数のSLO下でのスケジューリングとスケーリングを協調的に最適化するために,アルゴリズムとシステムレベルの革新を統合した統一LLMサービスシステムである‘textbf{HyperFlexis} を提案する。
予算推定と要求優先順位付けを活用するマルチSLO対応スケジューラを備えており、新しい要求と進行中の要求の両方に対して、積極的にSLO準拠を保証する。
このシステムは、P/D分散アーキテクチャとKVキャッシュ転送のためのプリフィルおよびデコードステージのマルチSLOスケジューリングをサポートする。
また、コスト効率のよいスケーリング決定、スケーリング中のプリフィル・デコードインスタンスリンク、迅速なP/Dロールの移行を可能にします。
スケーリングの高速化とコールドスタート遅延の低減を図るため、デバイス間重量移動機構(D2D)が提案され、重量負荷のオーバーヘッドをtextbf{19.39$\times$} まで低減する。
これらの最適化により、システムは \textbf{4.44$\times$} のより高い SLO 達成、 \textbf{65.82\%} の要求遅延の低減、そして最先端のベースラインとコストの同等性を達成できる。
コードはまもなくリリースされる。
関連論文リスト
- CSGO: Generalized Optimization for Cold Start in Wireless Collaborative Edge LLM Systems [62.24576366776727]
本稿では,全体の推論遅延を最小限に抑えるために,遅延を考慮したスケジューリングフレームワークを提案する。
提案手法は,ベースライン戦略と比較して,コールドスタート遅延を著しく低減することを示す。
論文 参考訳(メタデータ) (2025-08-15T07:49:22Z) - PolyServe: Efficient Multi-SLO Serving at Scale [6.147741784378271]
PolyServeは、スループットを最大化しながら高いSLO達成を維持できる、新しいマルチSLOスケジューリングポリシーである。
PolyServeは既存の政策と比べて1.23倍の利得を達成し、最適な利得の92.5%を達成している。
論文 参考訳(メタデータ) (2025-07-17T05:54:42Z) - semi-PD: Towards Efficient LLM Serving via Phase-Wise Disaggregated Computation and Unified Storage [6.805644270436825]
本稿では,分散計算と統一ストレージを特徴とする,新たな大規模言語モデル (LLM) サービスシステムであるセミPDを提案する。
最先端システムと比較して、セミPDはより高い要求レートでレイテンシを低く保ち、リクエスト毎の平均エンドツーエンドレイテンシを1.27-2.58倍削減する。
論文 参考訳(メタデータ) (2025-04-28T15:00:03Z) - Tempo: Application-aware LLM Serving with Mixed SLO Requirements [7.290735867969561]
我々は、多様なLLMワークロード間のサービスゲインを最大化するように設計されたスケジューラであるTempoを紹介した。
我々の評価によると、Tempoは最先端の設計と比較して、最大で8.3$times$、最大で10.3$times$SLOのサービスゲインを改善する。
論文 参考訳(メタデータ) (2025-04-24T05:55:21Z) - Apt-Serve: Adaptive Request Scheduling on Hybrid Cache for Scalable LLM Inference Serving [22.66354939370058]
Apt-Serveは、大規模言語モデル(LLM)推論サービスシステムにおける効果的なスループットを高めるために設計されたフレームワークである。
新たなハイブリッドキャッシュスキームでは、KVキャッシュとメモリ効率の高い隠れキャッシュを組み合わせることで、再利用可能な入力隠れ状態ベクタを実現し、バッチサイズを大きくし、要求を改善する。
Apt-Serveは,最先端の推論サービスシステムと比較して,スループットが最大8.8倍向上することを示す。
論文 参考訳(メタデータ) (2025-04-10T06:51:23Z) - AdaServe: Accelerating Multi-SLO LLM Serving with SLO-Customized Speculative Decoding [12.106234303559571]
本稿では,SLO-customized Speculative Decodingによる効率的なマルチSLOサービスを支援するために設計された,最初のサービスシステムであるAdaServeを紹介する。
AdaServeは制約付き最適化問題として機能するマルチSLOを定式化し、ハードウェア対応アルゴリズムを導入した。
システムスループットを最大化しつつ、復号速度のきめ細かい制御を可能にする推測-検証パイプラインを備えている。
論文 参考訳(メタデータ) (2025-01-21T14:15:01Z) - Client Orchestration and Cost-Efficient Joint Optimization for
NOMA-Enabled Hierarchical Federated Learning [55.49099125128281]
半同期クラウドモデルアグリゲーションの下で非直交多重アクセス(NOMA)を実現するHFLシステムを提案する。
提案手法は,HFLの性能改善と総コスト削減に関するベンチマークよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-11-03T13:34:44Z) - Efficient Parallel Split Learning over Resource-constrained Wireless
Edge Networks [44.37047471448793]
本稿では,エッジコンピューティングパラダイムと並列分割学習(PSL)の統合を提唱する。
そこで本研究では,モデル学習を高速化するために,効率的な並列分割学習(EPSL)という革新的なPSLフレームワークを提案する。
提案するEPSLフレームワークは,目標精度を達成するために必要なトレーニング遅延を著しく低減することを示す。
論文 参考訳(メタデータ) (2023-03-26T16:09:48Z) - Collaborative Intelligent Reflecting Surface Networks with Multi-Agent
Reinforcement Learning [63.83425382922157]
インテリジェント・リフレクション・サーフェス(IRS)は将来の無線ネットワークに広く応用されることが想定されている。
本稿では,エネルギー収穫能力を備えた協調型IRSデバイスを用いたマルチユーザ通信システムについて検討する。
論文 参考訳(メタデータ) (2022-03-26T20:37:14Z) - Tailored Learning-Based Scheduling for Kubernetes-Oriented Edge-Cloud
System [54.588242387136376]
エッジクラウドシステムのための学習ベースのスケジューリングフレームワークkaisを紹介する。
まず,分散した要求ディスパッチに対応するために,協調型マルチエージェントアクタ-クリティックアルゴリズムを設計する。
次に,多種多様なシステムスケールと構造について,グラフニューラルネットワークを用いてシステム状態情報を埋め込む。
第3に、リクエストディスパッチとサービスオーケストレーションを調和させる2段階のスケジューリングメカニズムを採用します。
論文 参考訳(メタデータ) (2021-01-17T03:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。