論文の概要: CascadeServe: Unlocking Model Cascades for Inference Serving
- arxiv url: http://arxiv.org/abs/2406.14424v1
- Date: Thu, 20 Jun 2024 15:47:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-21 13:03:05.437345
- Title: CascadeServe: Unlocking Model Cascades for Inference Serving
- Title(参考訳): CascadeServe:推論のためのモデルカスケードのアンロック
- Authors: Ferdi Kossmann, Ziniu Wu, Alex Turk, Nesime Tatbul, Lei Cao, Samuel Madden,
- Abstract要約: 機械学習モデルは、効率的な推論サービスシステムを呼び出して、本番環境にデプロイされることが増えている。
効率的な推論提供は、2つの課題により複雑である: (i) MLモデルは計算コストを低減し、 (ii) 実用アプリケーションの要求到着率は頻繁で高精度なバリエーションを持つ。
モデルカスケードは、(i) 正確性を維持しながら作業を節約し、(ii) 作業と正確性の間の高精細なトレードオフを露呈し、到着率をリクエストするためのきめ細かい調整を可能にするため、これらの課題に対処する位置にある。
- 参考スコア(独自算出の注目度): 8.39076781907597
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine learning (ML) models are increasingly deployed to production, calling for efficient inference serving systems. Efficient inference serving is complicated by two challenges: (i) ML models incur high computational costs, and (ii) the request arrival rates of practical applications have frequent, high, and sudden variations which make it hard to correctly provision hardware. Model cascades are positioned to tackle both of these challenges, as they (i) save work while maintaining accuracy, and (ii) expose a high-resolution trade-off between work and accuracy, allowing for fine-grained adjustments to request arrival rates. Despite their potential, model cascades haven't been used inside an online serving system. This comes with its own set of challenges, including workload adaption, model replication onto hardware, inference scheduling, request batching, and more. In this work, we propose CascadeServe, which automates and optimizes end-to-end inference serving with cascades. CascadeServe operates in an offline and online phase. In the offline phase, the system pre-computes a gear plan that specifies how to serve inferences online. In the online phase, the gear plan allows the system to serve inferences while making near-optimal adaptations to the query load at negligible decision overheads. We find that CascadeServe saves 2-3x in cost across a wide spectrum of the latency-accuracy space when compared to state-of-the-art baselines on different workloads.
- Abstract(参考訳): 機械学習(ML)モデルは、効率的な推論サービスシステムを呼び出して、本番環境にデプロイされることが増えている。
効率的な推論提供は2つの課題によって複雑になる。
一 計算コストの高いMLモデル、及び
二 実用アプリケーションの要求到着率には、頻繁、高、急激な変動があり、ハードウェアの正確な供給が困難である。
モデルカスケードはこれらの課題に対処する位置にある
一 正確性を保ちながら仕事を省くこと。
(二)作業と正確性の間の高精細なトレードオフを露呈し、到着率のきめ細かい調整を可能にします。
その可能性にもかかわらず、模型のカスケードはオンラインサービスシステム内では使われていない。
これには、ワークロード適応、ハードウェアへのモデルレプリケーション、推論スケジューリング、リクエストのバッチ処理など、独自の課題が含まれている。
本研究では,カスケードを用いたエンドツーエンド推論の自動化と最適化を行うCascadeServeを提案する。
CascadeServeはオフラインおよびオンラインのフェーズで動作する。
オフラインフェーズでは、システムはオンラインで推論を提供する方法を指定するギアプランをプリコンプリートする。
オンラインフェーズでは、ギアプランにより、クエリ負荷にほぼ最適な適応を無視可能な決定オーバーヘッドで実施しながら、推論を行うことができる。
CascadeServeは、さまざまなワークロードにおける最先端のベースラインと比較して、レイテンシ-正確性領域の広い範囲で2~3倍のコスト削減を実現しています。
関連論文リスト
- FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - ConServe: Harvesting GPUs for Low-Latency and High-Throughput Large Language Model Serving [15.01982917560918]
本稿では,オフラインLLM推論タスクのためのストランドGPUリソースの抽出を提案する。
我々は、オフラインタスクの実行をプリエンプトする実行エンジンを含むLLMサービスシステムであるConServeを構築した。
オンラインタスクとオフラインタスクの協調作業において,ConServeが強力なパフォーマンス分離を実現することを示す。
論文 参考訳(メタデータ) (2024-10-02T04:12:13Z) - SuperServe: Fine-Grained Inference Serving for Unpredictable Workloads [18.461201610784077]
ML推論サービスシステムは、アプリケーションのレイテンシと精度要件のバランスをとる必要がある。
SubNetActは、レイテンシーと精度のトレードオフ空間にまたがるあらゆるモデルに対して同時に機能することを示す。
SubNetActは、従来の最先端モデルよりもはるかに多くのモデルを提供するために、最大2.6倍のメモリを必要とすることを示す。
論文 参考訳(メタデータ) (2023-12-27T22:24:11Z) - MultiTASC: A Multi-Tenancy-Aware Scheduler for Cascaded DNN Inference at
the Consumer Edge [4.281723404774888]
本研究はマルチテナント対応スケジューラであるMultiTASCについて述べる。
デバイス転送を明示的に検討することにより,スケジューラは,最先端カスケード法よりも20~25ポイント(pp)の遅延サービスレベル満足度を向上する。
論文 参考訳(メタデータ) (2023-06-22T12:04:49Z) - On Optimal Caching and Model Multiplexing for Large Model Inference [66.50550915522551]
大きな言語モデル(LLM)や他の大きな基盤モデルは注目すべき成功を収めているが、そのサイズは既存のリソース消費とレイテンシーの問題を悪化させている。
キャッシュを用いて以前のクエリを格納し、モデルの多重化を学習し、クエリ処理のためのモデルの集合から選択する。
論文 参考訳(メタデータ) (2023-06-03T05:01:51Z) - Flexible Job Shop Scheduling via Dual Attention Network Based
Reinforcement Learning [73.19312285906891]
フレキシブルなジョブショップスケジューリング問題(FJSP)では、複数のマシンで操作を処理でき、操作とマシンの間の複雑な関係が生じる。
近年, 深層強化学習(DRL)を用いて, FJSP解決のための優先派遣規則(PDR)を学習している。
本稿では,Deep機能抽出のための自己注意モデルと,スケーラブルな意思決定のためのDRLの利点を生かした,エンドツーエンド学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-09T01:35:48Z) - A GPU-specialized Inference Parameter Server for Large-Scale Deep
Recommendation Models [6.823233135936128]
推薦システムは、ニュースフィード、ソーシャルネットワーク、eコマース、検索など、様々なモダンなアプリやWebサービスにとって不可欠である。
ピーク予測精度を達成するため、現代のレコメンデーションモデルは、ディープラーニングとテラバイト規模の埋め込みテーブルを組み合わせることで、基礎となるデータのきめ細かい表現を得る。
従来の推論サービスアーキテクチャでは、モデル全体をスタンドアロンのサーバにデプロイする必要があります。
論文 参考訳(メタデータ) (2022-10-17T07:36:18Z) - SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。
しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文 参考訳(メタデータ) (2021-12-22T14:45:37Z) - Tailored Learning-Based Scheduling for Kubernetes-Oriented Edge-Cloud
System [54.588242387136376]
エッジクラウドシステムのための学習ベースのスケジューリングフレームワークkaisを紹介する。
まず,分散した要求ディスパッチに対応するために,協調型マルチエージェントアクタ-クリティックアルゴリズムを設計する。
次に,多種多様なシステムスケールと構造について,グラフニューラルネットワークを用いてシステム状態情報を埋め込む。
第3に、リクエストディスパッチとサービスオーケストレーションを調和させる2段階のスケジューリングメカニズムを採用します。
論文 参考訳(メタデータ) (2021-01-17T03:45:25Z) - Understanding Capacity-Driven Scale-Out Neural Recommendation Inference [1.9529164002361878]
この研究は、データセンターサービスインフラストラクチャを使用したスケールアウトなディープラーニングレコメンデーション推論を記述し、特徴付ける。
分散推論のレイテンシと計算オーバーヘッドは、主にモデルの静的埋め込みテーブル分布の結果であることがわかった。
さらに奨励的に、分散推論がデータセンタースケールのレコメンデーションサービスにおける効率改善の原因となっていることを示す。
論文 参考訳(メタデータ) (2020-11-04T00:51:40Z) - Combining Deep Learning and Optimization for Security-Constrained
Optimal Power Flow [94.24763814458686]
セキュリティに制約のある最適電力フロー(SCOPF)は、電力システムの基本である。
SCOPF問題におけるAPRのモデル化は、複雑な大規模混合整数プログラムをもたらす。
本稿では,ディープラーニングとロバスト最適化を組み合わせた新しい手法を提案する。
論文 参考訳(メタデータ) (2020-07-14T12:38:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。