Fugu-MT 論文翻訳(概要): SERFLOW: A Cross-Service Cost Optimization Framework for SLO-Aware Dynamic ML Inference

論文の概要: SERFLOW: A Cross-Service Cost Optimization Framework for SLO-Aware Dynamic ML Inference

arxiv url: http://arxiv.org/abs/2510.27182v1
Date: Fri, 31 Oct 2025 05:10:33 GMT
ステータス: 翻訳完了
システム内更新日: 2025-11-03 17:52:15.988015
Title: SERFLOW: A Cross-Service Cost Optimization Framework for SLO-Aware Dynamic ML Inference
Title（参考訳）: SERFLOW: SLO対応動的ML推論のためのクロスサービスコスト最適化フレームワーク
Authors: Zongshun Zhang, Ibrahim Matta,
Abstract要約: 以前の作業は、仮想マシン(VM)のコールドスタート、ロングテールなサービス時間分布でのリクエストなど、現実の要素をしばしば見落としています。我々は、各MLクエリ(要求)を、内部または最終出口で終了するスパースモデルのパラメータの連続ブロックを構成する非巡回的なステージ列をトラバースするものとしてモデル化する。 SERFLOWは、Fベースのサーバレス機能(コンテナ)を活用し、各ステージで終了するリクエストのごく一部を占めるステージ固有のリソースプロビジョニングを使用することで、この問題に対処する。
参考スコア（独自算出の注目度）: 0.15039745292757667
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Dynamic offloading of Machine Learning (ML) model partitions across different resource orchestration services, such as Function-as-a-Service (FaaS) and Infrastructure-as-a-Service (IaaS), can balance processing and transmission delays while minimizing costs of adaptive inference applications. However, prior work often overlooks real-world factors, such as Virtual Machine (VM) cold starts, requests under long-tail service time distributions, etc. To tackle these limitations, we model each ML query (request) as traversing an acyclic sequence of stages, wherein each stage constitutes a contiguous block of sparse model parameters ending in an internal or final classifier where requests may exit. Since input-dependent exit rates vary, no single resource configuration suits all query distributions. IaaS-based VMs become underutilized when many requests exit early, yet rapidly scaling to handle request bursts reaching deep layers is impractical. SERFLOW addresses this challenge by leveraging FaaS-based serverless functions (containers) and using stage-specific resource provisioning that accounts for the fraction of requests exiting at each stage. By integrating this provisioning with adaptive load balancing across VMs and serverless functions based on request ingestion, SERFLOW reduces cloud costs by over $23\%$ while efficiently adapting to dynamic workloads.
Abstract（参考訳）: FaaS(Function-as-a-Service)やIaaS(Infrastructure-as-a-Service)といったさまざまなリソースオーケストレーションサービス間での機械学習(ML)モデルのパーティションの動的オフロードは、適応推論アプリケーションのコストを最小限にしつつ、処理と送信遅延のバランスをとることができる。しかしながら、以前の作業は、仮想マシン(VM)コールドスタート、ロングテールなサービス時間分布での要求など、現実的な要因をしばしば見落としています。これらの制限に対処するために、各MLクエリ(要求)は、段階の非循環的なシーケンスをトラバースするものとしてモデル化し、各ステージは、リクエストが終了する可能性のある内部または最終分類器で終わるスパースモデルパラメータの連続ブロックを構成する。入力依存のエグジットレートが異なるため、単一のリソース構成が全てのクエリ分布に適合することはない。 IaaSベースのVMは、多くのリクエストが早期に終了すると未利用になるが、深いレイヤに到達した要求バーストを処理するために急速にスケーリングするのは現実的ではない。 SERFLOWは、FaaSベースのサーバレス機能(コンテナ)を活用し、各ステージで終了するリクエストのごく一部を占めるステージ固有のリソースプロビジョニングを使用することで、この問題に対処する。このプロビジョニングと、要求の取り込みに基づくVMとサーバレス関数間の適応的なロードバランシングを統合することで、SERFLOWは、動的ワークロードに効率よく適応しながら、クラウドコストを2,3\%以上削減する。

関連論文リスト

xLLM Technical Report [57.13120905321185]
我々は,知的かつ効率的なLarge Language Model (LLM)推論フレームワークであるxLLMを紹介する。 xLLMは、新しい分離されたサービスエンジンアーキテクチャを構築する。 xLLM-Engineは、システムとアルゴリズムの設計を最適化し、コンピュータリソースを完全に飽和させる。
論文参考訳（メタデータ） (2025-10-16T13:53:47Z)
CSGO: Generalized Optimization for Cold Start in Wireless Collaborative Edge LLM Systems [62.24576366776727]
本稿では,全体の推論遅延を最小限に抑えるために,遅延を考慮したスケジューリングフレームワークを提案する。提案手法は,ベースライン戦略と比較して,コールドスタート遅延を著しく低減することを示す。
論文参考訳（メタデータ） (2025-08-15T07:49:22Z)
PolyServe: Efficient Multi-SLO Serving at Scale [6.147741784378271]
PolyServeは、スループットを最大化しながら高いSLO達成を維持できる、新しいマルチSLOスケジューリングポリシーである。 PolyServeは既存の政策と比べて1.23倍の利得を達成し、最適な利得の92.5%を達成している。
論文参考訳（メタデータ） (2025-07-17T05:54:42Z)
Tempo: Application-aware LLM Serving with Mixed SLO Requirements [7.290735867969561]
我々は、多様なLLMワークロード間のサービスゲインを最大化するように設計されたスケジューラであるTempoを紹介した。我々の評価によると、Tempoは最先端の設計と比較して、最大で8.3$times$、最大で10.3$times$SLOのサービスゲインを改善する。
論文参考訳（メタデータ） (2025-04-24T05:55:21Z)
Scalable and Cost-Efficient ML Inference: Parallel Batch Processing with Serverless Functions [0.36832029288386137]
本稿では、サーバレスアーキテクチャが大規模ML推論タスクを迅速かつ低コストで実現する方法について検討する。サーバレス並列処理は、モノリシックなアプローチと比較して、同じコストで、実行時間を95%以上削減できることを示した。
論文参考訳（メタデータ） (2025-01-30T15:47:55Z)
DeeR-VLA: Dynamic Inference of Multimodal Large Language Models for Efficient Robot Execution [114.61347672265076]
実世界のロボットのためのMLLMの開発は、ロボットプラットフォームで利用可能な計算能力とメモリ容量が典型的に限られているため、難しい。活性化MLLMのサイズを自動的に調整するロボットビジョンランゲージ・アクション・モデル(DeeR)の動的早期実行フレームワークを提案する。 DeeR は LLM の計算コストを 5.2-6.5x に削減し、GPU のメモリを 2-6x に削減した。
論文参考訳（メタデータ） (2024-11-04T18:26:08Z)
Queue management for slo-oriented large language model serving [3.0134961904579094]
大規模言語モデル(LLM)サービスのためのキュー管理システムであるQLMを提案する。 QLMは、異なるモデルとSLOをまたいだバッチおよびインタラクティブなリクエストをリクエストキューで維持する。リクエスト待ち時間(RWT)推定器を使用し、リクエストキューでのリクエスト待ち時間を推定する。
論文参考訳（メタデータ） (2024-06-05T21:17:34Z)
Llumnix: Dynamic Scheduling for Large Language Model Serving [17.919408899409113]
大規模言語モデル(LLM)に対する推論は、その可能性を解き放つ鍵である。 Llumnixは、実行時再スケジューリングによって、不均一で予測不能な要求に応答するLLMサービスシステムである。 Llumnixはテールレイテンシを桁違いに改善し,高優先度要求を最大1.5倍高速化し,最大36%のコスト削減を実現している。
論文参考訳（メタデータ） (2024-06-05T13:20:18Z)
SpotServe: Serving Generative Large Language Models on Preemptible Instances [64.18638174004151]
SpotServeは、プリエンプティブルインスタンスにシステムを提供する最初の分散大規模言語モデルである。 SpotServeは、既存のLLMサービスシステムと比較して、P99テールのレイテンシを2.4～9.1倍削減できることを示す。また、SpotServeはプリエンプティブインスタンスの価格優位性を利用して、オンデマンドインスタンスのみを使用する場合と比較して54%の金銭的コストを節約できることも示しています。
論文参考訳（メタデータ） (2023-11-27T06:31:17Z)
In Situ Framework for Coupling Simulation and Machine Learning with Application to CFD [51.04126395480625]
近年、流体力学計算を容易にする機械学習(ML)の多くの成功例が報告されている。シミュレーションが大きくなるにつれて、従来のオフライン学習のための新しいトレーニングデータセットの生成は、I/Oとストレージのボトルネックを生み出します。この作業は、この結合を単純化し、異種クラスタでのその場トレーニングと推論を可能にするソリューションを提供する。
論文参考訳（メタデータ） (2023-06-22T14:07:54Z)
BSAC-CoEx: Coexistence of URLLC and Distributed Learning Services via Device Selection [46.59702442756128]
高優先度の超信頼性低レイテンシ通信(URLLC)と低優先度の分散学習サービスは、ネットワーク上で並列に実行される。我々はこの問題をマルコフ決定プロセスとして定式化し、分岐ソフトアクター・クリティック(BSAC)アルゴリズムに基づくフレームワークであるBSAC-CoExを用いて対処する。当社のソリューションは,必要なしきい値を超えるURLLCを保ちながら,分散学習サービスのトレーニング遅延を大幅に低減することができる。
論文参考訳（メタデータ） (2022-12-22T15:36:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。