論文の概要: Vortex: Hosting ML Inference and Knowledge Retrieval Services With Tight Latency and Throughput Requirements
- arxiv url: http://arxiv.org/abs/2511.02062v1
- Date: Mon, 03 Nov 2025 20:59:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 18:47:05.682483
- Title: Vortex: Hosting ML Inference and Knowledge Retrieval Services With Tight Latency and Throughput Requirements
- Title(参考訳): Vortex: 厳格なレイテンシとスループット要件を備えたML推論と知識検索サービスをホストする
- Authors: Yuting Yang, Tiancheng Yuan, Jamal Hashim, Thiago Garrett, Jeffrey Qian, Ann Zhang, Yifan Wang, Weijia Song, Ken Birman,
- Abstract要約: エンドユーザによる対話型クエリと、エンドユーザアプリケーションに統合されエージェントとしてデプロイされるAIから発生する要求フローの両方をサポートするサービスとして、ML推論と知識検索のデプロイへの関心が高まっている。
既存のMLサービスプラットフォームは、高いスループットを最適化するために使用され、予測不可能なテールレイテンシにそれらを公開する。VortexはSLOファーストアプローチを可能にしている。
同じタスクに対して、Vortexのパイプラインは、TorchServeやRay Serveよりもはるかに低く、より安定したレイテンシを実現している。
- 参考スコア(独自算出の注目度): 5.853608336265818
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: There is growing interest in deploying ML inference and knowledge retrieval as services that could support both interactive queries by end users and more demanding request flows that arise from AIs integrated into a end-user applications and deployed as agents. Our central premise is that these latter cases will bring service level latency objectives (SLOs). Existing ML serving platforms use batching to optimize for high throughput, exposing them to unpredictable tail latencies. Vortex enables an SLO-first approach. For identical tasks, Vortex's pipelines achieve significantly lower and more stable latencies than TorchServe and Ray Serve over a wide range of workloads, often enabling a given SLO target at more than twice the request rate. When RDMA is available, the Vortex advantage is even more significant.
- Abstract(参考訳): エンドユーザによる対話型クエリと、エンドユーザアプリケーションに統合されエージェントとしてデプロイされるAIから発生する要求フローの両方をサポートするサービスとして、ML推論と知識検索のデプロイへの関心が高まっている。
当社の中心的な前提は、これらの後者のケースは、サービスレベルの遅延目標(SLO)をもたらします。
既存のMLサービスプラットフォームでは、バッチを使用して高いスループットを最適化し、予測不可能なテールレイテンシに公開している。
VortexはSLOファーストアプローチを可能にする。
同じタスクに対して、Vortexのパイプラインは、TorchServeやRay Serveよりもはるかに低く、より安定したレイテンシを実現している。
RDMAが利用可能であれば、Vortexの利点はさらに大きい。
関連論文リスト
- Intra-request branch orchestration for efficient LLM reasoning [52.68946975865865]
大規模言語モデル(LLM)は、複雑なタスクの正確性を改善するために、推論時推論アルゴリズムにますます依存している。
それまでの作業は、トークンの使用を減らすことを中心に、多くの場合、正確さを犠牲にしつつ、他のレイテンシ要因を見越すことに重点を置いていた。
本稿では,LLMサービスシステムであるDUCHESSについて,予測によって導かれるリクエスト内ブランチオーケストレーションにより,精度を犠牲にすることなく,コストとレイテンシを低減できるシステムを提案する。
論文 参考訳(メタデータ) (2025-09-29T15:52:08Z) - PolyServe: Efficient Multi-SLO Serving at Scale [6.147741784378271]
PolyServeは、スループットを最大化しながら高いSLO達成を維持できる、新しいマルチSLOスケジューリングポリシーである。
PolyServeは既存の政策と比べて1.23倍の利得を達成し、最適な利得の92.5%を達成している。
論文 参考訳(メタデータ) (2025-07-17T05:54:42Z) - Tempo: Application-aware LLM Serving with Mixed SLO Requirements [7.290735867969561]
我々は、多様なLLMワークロード間のサービスゲインを最大化するように設計されたスケジューラであるTempoを紹介した。
我々の評価によると、Tempoは最先端の設計と比較して、最大で8.3$times$、最大で10.3$times$SLOのサービスゲインを改善する。
論文 参考訳(メタデータ) (2025-04-24T05:55:21Z) - AccelGen: Heterogeneous SLO-Guaranteed High-Throughput LLM Inference Serving for Diverse Applications [8.964981700274059]
多様なアプリケーションに対して異種SLOを保証する高スループット推論サービスであるAccelGenを提案する。
トレース実実験により、AccelGenは1.42-11.21倍のスループット、1.43-13.71倍の高出力、37-90%のSLO達成、そして1.61-12.22倍の応答遅延を達成した。
論文 参考訳(メタデータ) (2025-03-17T21:47:43Z) - Hierarchical Autoscaling for Large Language Model Serving with Chiron [2.767894999702707]
大規模言語モデル(LLM)のサービス提供は、クラウドプロバイダにとってますます重要なワークロードになりつつある。
LLMサービスのための以前のオートスケーラは、不要なスケーリングとリソースのアンダーユーティリティ化につながる要求SLOを考慮しない。
我々は,待ち行列サイズ,利用率,SLOを用いて推定した階層的バックプレッシャを用いた自動スケーラであるChironを紹介する。
論文 参考訳(メタデータ) (2025-01-14T12:57:40Z) - ConServe: Fine-Grained GPU Harvesting for LLM Online and Offline Co-Serving [61.35068981176018]
ConServeは、高いスループットと強力なオンラインレイテンシ保証を実現する大規模言語モデル(LLM)サービスシステムである。
我々は,ConServeが平均2.2$times$高スループットを実現し,オンラインサービステールのレイテンシを最先端システムと比較して平均2.9$times$削減することを示した。
論文 参考訳(メタデータ) (2024-10-02T04:12:13Z) - Efficiency Unleashed: Inference Acceleration for LLM-based Recommender Systems with Speculative Decoding [61.45448947483328]
LLMベースのレコメンダシステム(LASER)の投機的復号化によるロスレス高速化について紹介する。
LASERは、検索効率を高めるためのカスタマイズされた検索プールと、ドラフトトークンの受け入れ率を改善するための緩和検証を備えている。
LASERは公開データセットの3~5倍のスピードアップを実現し、オンラインA/Bテスト中に約67%の計算リソースを節約する。
論文 参考訳(メタデータ) (2024-08-11T02:31:13Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - DeepSpeed-FastGen: High-throughput Text Generation for LLMs via MII and
DeepSpeed-Inference [23.49242865222089]
本稿では,最大2.3倍高いスループット,平均2倍のレイテンシ,最大3.7倍のテールレイテンシを実現するシステムであるDeepSpeed-FastGenを紹介する。
我々は、DeepSpeed-MIIとDeepSpeed-Inferenceの相乗的組み合わせを利用して、大規模言語モデルのための効率的で使いやすいサービスシステムを提供する。
論文 参考訳(メタデータ) (2024-01-09T06:49:40Z) - On the Role of Server Momentum in Federated Learning [85.54616432098706]
a)フェデレートラーニング(FL)において未探索な大量のモーメントスキームを網羅するサーバモーメントの一般的な枠組みを提案する。
提案するフレームワークに対して厳密な収束解析を行う。
論文 参考訳(メタデータ) (2023-12-19T23:56:49Z) - Client Orchestration and Cost-Efficient Joint Optimization for
NOMA-Enabled Hierarchical Federated Learning [55.49099125128281]
半同期クラウドモデルアグリゲーションの下で非直交多重アクセス(NOMA)を実現するHFLシステムを提案する。
提案手法は,HFLの性能改善と総コスト削減に関するベンチマークよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-11-03T13:34:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。