論文の概要: JIZHI: A Fast and Cost-Effective Model-As-A-Service System for Web-Scale
Online Inference at Baidu
- arxiv url: http://arxiv.org/abs/2106.01674v1
- Date: Thu, 3 Jun 2021 08:23:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-04 15:55:45.477505
- Title: JIZHI: A Fast and Cost-Effective Model-As-A-Service System for Web-Scale
Online Inference at Baidu
- Title(参考訳): JIZHI:BaiduのWebスケールオンライン推論のための高速で費用効果の高いモデル・アズ・ア・サービスシステム
- Authors: Hao Liu, Qian Gao, Jiang Li, Xiaochao Liao, Hao Xiong, Guangxing Chen,
Wenlin Wang, Guobao Yang, Zhiwei Zha, Daxiang Dong, Dejing Dou, Haoyi Xiong
- Abstract要約: JIZHIはモデル・アズ・ア・サービス(Model-as-a-Service)システムである。
JIZHIはBaiduが1000万ドルあまりのハードウェアとユーティリティ費用を節約し、推論効率を犠牲にすることなく200%以上のトラフィックを処理した。
- 参考スコア(独自算出の注目度): 34.28711119491483
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In modern internet industries, deep learning based recommender systems have
became an indispensable building block for a wide spectrum of applications,
such as search engine, news feed, and short video clips. However, it remains
challenging to carry the well-trained deep models for online real-time
inference serving, with respect to the time-varying web-scale traffics from
billions of users, in a cost-effective manner. In this work, we present JIZHI -
a Model-as-a-Service system - that per second handles hundreds of millions of
online inference requests to huge deep models with more than trillions of
sparse parameters, for over twenty real-time recommendation services at Baidu,
Inc. In JIZHI, the inference workflow of every recommendation request is
transformed to a Staged Event-Driven Pipeline (SEDP), where each node in the
pipeline refers to a staged computation or I/O intensive task processor. With
traffics of real-time inference requests arrived, each modularized processor
can be run in a fully asynchronized way and managed separately. Besides, JIZHI
introduces heterogeneous and hierarchical storage to further accelerate the
online inference process by reducing unnecessary computations and potential
data access latency induced by ultra-sparse model parameters. Moreover, an
intelligent resource manager has been deployed to maximize the throughput of
JIZHI over the shared infrastructure by searching the optimal resource
allocation plan from historical logs and fine-tuning the load shedding policies
over intermediate system feedback. Extensive experiments have been done to
demonstrate the advantages of JIZHI from the perspectives of end-to-end service
latency, system-wide throughput, and resource consumption. JIZHI has helped
Baidu saved more than ten million US dollars in hardware and utility costs
while handling 200% more traffics without sacrificing inference efficiency.
- Abstract(参考訳): 現代のインターネット産業では、ディープラーニングベースの推薦システムは、検索エンジン、ニュースフィード、ショートビデオクリップといった幅広いアプリケーションにとって、必須のビルディングブロックとなっている。
しかし、何十億ものユーザーからの時間的なウェブスケールのトラフィックに関して、オンラインリアルタイム推論サービスのためのよく訓練されたディープモデルをコスト効率よく実行することは依然として困難である。
本研究では、Baidu, Incの20以上のリアルタイムレコメンデーションサービスに対して、数十兆以上のスパースパラメータを持つ巨大なディープモデルに対して、毎秒数十億のオンライン推論要求を処理するJIZHIA Model-as-a-Serviceシステムを提案する。
JIZHIでは、レコメンデーション要求の推論ワークフローをステージドイベント駆動パイプライン(SEDP)に変換し、パイプラインの各ノードがステージド計算またはI/O集約タスクプロセッサを参照する。
リアルタイムの推論要求のトラフィックが到着すると、各モジュール化されたプロセッサは完全に非同期化され、個別に管理される。
さらに、JIZHIは不均一かつ階層的なストレージを導入し、不要な計算と超スパースモデルパラメータによる潜在的なデータアクセス遅延を低減し、オンライン推論プロセスをさらに加速する。
さらに、履歴ログから最適なリソース割り当て計画を探し出し、中間システムフィードバックの負荷層ポリシーを微調整することで、共有インフラ上でのJIZHIのスループットを最大化するためにインテリジェントなリソースマネージャが配置されている。
エンドツーエンドのサービスレイテンシ、システム全体のスループット、リソース消費の観点から、JIZHIのメリットを示す大規模な実験が行われた。
JIZHIはBaiduが1000万ドルあまりのハードウェアとユーティリティ費用を節約し、推論効率を犠牲にすることなく200%以上のトラフィックを処理した。
関連論文リスト
- D5RL: Diverse Datasets for Data-Driven Deep Reinforcement Learning [99.33607114541861]
ロボット操作と移動環境の現実的なシミュレーションに焦点を当てたオフラインRLのための新しいベンチマークを提案する。
提案するベンチマークでは、状態ベースドメインと画像ベースドメインを対象とし、オフラインRLとオンライン微調整評価の両方をサポートしている。
論文 参考訳(メタデータ) (2024-08-15T22:27:00Z) - Deep Reinforcement Learning based Online Scheduling Policy for Deep Neural Network Multi-Tenant Multi-Accelerator Systems [1.7724466261976437]
本稿では,マルチテナント環境におけるDNNのオンラインスケジューリングを目的とした低オーバーヘッド深層強化学習アルゴリズムRELMASを提案する。
ヘテロジニアス多加速器システムへのRELMASの適用により、SLAの満足度は最大で173%向上した。
論文 参考訳(メタデータ) (2024-04-13T10:13:07Z) - MobiLlama: Towards Accurate and Lightweight Fully Transparent GPT [87.4910758026772]
近年のLarge Language Models (LLM) 開発において,"Bigger the Better" が主流となっている。
本稿では、リソース制約のあるデバイスに対して、正確かつ効率的なSLM(Small Language Models)を設計する上での課題に対処し、"less is more"パラダイムについて考察する。
論文 参考訳(メタデータ) (2024-02-26T18:59:03Z) - SuperServe: Fine-Grained Inference Serving for Unpredictable Workloads [18.461201610784077]
ML推論サービスシステムは、アプリケーションのレイテンシと精度要件のバランスをとる必要がある。
SubNetActは、レイテンシーと精度のトレードオフ空間にまたがるあらゆるモデルに対して同時に機能することを示す。
SubNetActは、従来の最先端モデルよりもはるかに多くのモデルを提供するために、最大2.6倍のメモリを必要とすることを示す。
論文 参考訳(メタデータ) (2023-12-27T22:24:11Z) - Adaptive Resource Allocation for Virtualized Base Stations in O-RAN with
Online Learning [60.17407932691429]
基地局(vBS)を備えたオープンラジオアクセスネットワークシステムは、柔軟性の向上、コスト削減、ベンダーの多様性、相互運用性のメリットを提供する。
本研究では,予期せぬ「混み合う」環境下であっても,効率的なスループットとvBSエネルギー消費のバランスをとるオンライン学習アルゴリズムを提案する。
提案手法は, 課題のある環境においても, 平均最適性ギャップをゼロにすることで, サブ線形後悔を実現する。
論文 参考訳(メタデータ) (2023-09-04T17:30:21Z) - A GPU-specialized Inference Parameter Server for Large-Scale Deep
Recommendation Models [6.823233135936128]
推薦システムは、ニュースフィード、ソーシャルネットワーク、eコマース、検索など、様々なモダンなアプリやWebサービスにとって不可欠である。
ピーク予測精度を達成するため、現代のレコメンデーションモデルは、ディープラーニングとテラバイト規模の埋め込みテーブルを組み合わせることで、基礎となるデータのきめ細かい表現を得る。
従来の推論サービスアーキテクチャでは、モデル全体をスタンドアロンのサーバにデプロイする必要があります。
論文 参考訳(メタデータ) (2022-10-17T07:36:18Z) - A Deep Value-network Based Approach for Multi-Driver Order Dispatching [55.36656442934531]
そこで本研究では,注文発送のための深層強化学習に基づくソリューションを提案する。
DiDiの配車プラットフォーム上で大規模なオンラインA/Bテストを実施している。
その結果,CVNetは近年提案されているディスパッチ手法よりも一貫して優れていた。
論文 参考訳(メタデータ) (2021-06-08T16:27:04Z) - JUMBO: Scalable Multi-task Bayesian Optimization using Offline Data [86.8949732640035]
追加データをクエリすることで制限をサイドステップするMBOアルゴリズムであるJUMBOを提案する。
GP-UCBに類似した条件下では, 応答が得られないことを示す。
実世界の2つの最適化問題に対する既存手法に対する性能改善を実証的に示す。
論文 参考訳(メタデータ) (2021-06-02T05:03:38Z) - Learning to Optimize Industry-Scale Dynamic Pickup and Delivery Problems [17.076557377480444]
動的ピックアップ・デリバリー問題 (DPDP) は、配送注文が事前に分かっていない場合のコストを最小限に抑えるため、複数のサイト間で車両を動的にスケジューリングすることを目的としている。
産業規模のDPDPを解決するために,データ駆動型空間時間支援ダブルグラフネットワーク(ST-DDGN)を提案する。
本手法は,ST-DDGNデータから隣接車両のリレーショナル表現を周期的に学習し,補正することが可能である。
論文 参考訳(メタデータ) (2021-05-27T01:16:00Z) - DCAF: A Dynamic Computation Allocation Framework for Online Serving
System [20.705598408760952]
オンラインサービスシステムは,各トラフィック要求を異なる方法で処理し,その価値に基づいて「個人化」リソースを割り当てる,という新しい考え方を導入する。
私たちは20%の計算リソース削減で、同じビジネスパフォーマンスを維持することができます。
論文 参考訳(メタデータ) (2020-06-17T07:00:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。