論文の概要: Understanding Capacity-Driven Scale-Out Neural Recommendation Inference
- arxiv url: http://arxiv.org/abs/2011.02084v2
- Date: Wed, 11 Nov 2020 16:31:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-29 23:17:06.432468
- Title: Understanding Capacity-Driven Scale-Out Neural Recommendation Inference
- Title(参考訳): 容量駆動型スケールアウトニューラルレコメンデーション推論の理解
- Authors: Michael Lui, Yavuz Yetim, \"Ozg\"ur \"Ozkan, Zhuoran Zhao, Shin-Yeh
Tsai, Carole-Jean Wu, and Mark Hempstead
- Abstract要約: この研究は、データセンターサービスインフラストラクチャを使用したスケールアウトなディープラーニングレコメンデーション推論を記述し、特徴付ける。
分散推論のレイテンシと計算オーバーヘッドは、主にモデルの静的埋め込みテーブル分布の結果であることがわかった。
さらに奨励的に、分散推論がデータセンタースケールのレコメンデーションサービスにおける効率改善の原因となっていることを示す。
- 参考スコア(独自算出の注目度): 1.9529164002361878
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning recommendation models have grown to the terabyte scale.
Traditional serving schemes--that load entire models to a single server--are
unable to support this scale. One approach to support this scale is with
distributed serving, or distributed inference, which divides the memory
requirements of a single large model across multiple servers.
This work is a first-step for the systems research community to develop novel
model-serving solutions, given the huge system design space. Large-scale deep
recommender systems are a novel workload and vital to study, as they consume up
to 79% of all inference cycles in the data center. To that end, this work
describes and characterizes scale-out deep learning recommendation inference
using data-center serving infrastructure. This work specifically explores
latency-bounded inference systems, compared to the throughput-oriented training
systems of other recent works. We find that the latency and compute overheads
of distributed inference are largely a result of a model's static embedding
table distribution and sparsity of input inference requests. We further
evaluate three embedding table mapping strategies of three DLRM-like models and
specify challenging design trade-offs in terms of end-to-end latency, compute
overhead, and resource efficiency. Overall, we observe only a marginal latency
overhead when the data-center scale recommendation models are served with the
distributed inference manner--P99 latency is increased by only 1% in the best
case configuration. The latency overheads are largely a result of the commodity
infrastructure used and the sparsity of embedding tables. Even more
encouragingly, we also show how distributed inference can account for
efficiency improvements in data-center scale recommendation serving.
- Abstract(参考訳): ディープラーニングのレコメンデーションモデルがテラバイト規模に拡大した。
従来のサービススキーム – モデルを単一のサーバにロードする – では、このスケールはサポートできない。
このスケールをサポートする1つのアプローチは、複数のサーバにまたがる単一の大規模モデルのメモリ要求を分割する分散サービスまたは分散推論である。
この研究は、システム設計の巨大な領域を考えると、システム研究コミュニティが新しいモデル提供ソリューションを開発するための第一歩である。
大規模なディープリコメンデータシステムは、データセンターの全推論サイクルの最大79%を消費するため、新しいワークロードであり、研究に不可欠である。
そこで本研究では,データセンタサービスインフラストラクチャを使用した大規模ディープラーニング推奨推論を記述し,特徴付ける。
この研究は、他の最近の研究のスループット指向トレーニングシステムと比較して、特にレイテンシ境界推論システムを調査している。
分散推論のレイテンシと計算オーバーヘッドは、モデルが静的な埋め込みテーブル分布と入力推論要求のばらつきの結果であることがわかった。
さらに,3つのDLRMモデルによる3つの埋め込みテーブルマッピング戦略を評価し,エンドツーエンドのレイテンシ,計算オーバーヘッド,リソース効率の観点から,設計上のトレードオフを抽出した。
全体として、データセンタースケールのレコメンデーションモデルが分散推論方式で提供される場合、最良ケース構成でP99レイテンシは1%向上する。
レイテンシのオーバーヘッドは、主に使用されるコモディティインフラストラクチャと、埋め込みテーブルの幅によるものです。
さらに奨励的に、分散推論がデータセンターのレコメンデーションサービスにおける効率改善にどのように寄与するかを示す。
関連論文リスト
- A Bayesian Approach to Data Point Selection [24.98069363998565]
データポイントの選択(DPS)は、ディープラーニングにおいて重要なトピックになりつつある。
既存のDPSへのアプローチは、主にバイレベル最適化(BLO)の定式化に基づいている。
DPSに対する新しいベイズ的アプローチを提案する。
論文 参考訳(メタデータ) (2024-11-06T09:04:13Z) - Visual Prompting Upgrades Neural Network Sparsification: A Data-Model Perspective [64.04617968947697]
より優れた重量空間を実現するために、新しいデータモデル共設計視点を導入する。
具体的には、提案したVPNフレームワークでニューラルネットワークのスパーシフィケーションをアップグレードするために、カスタマイズされたVisual Promptが実装されている。
論文 参考訳(メタデータ) (2023-12-03T13:50:24Z) - Towards a Better Theoretical Understanding of Independent Subnetwork Training [56.24689348875711]
独立サブネットワークトレーニング(IST)の理論的考察
ISTは、上記の問題を解決するための、最近提案され、非常に効果的である。
圧縮通信を用いた分散手法など,ISTと代替手法の基本的な違いを同定する。
論文 参考訳(メタデータ) (2023-06-28T18:14:22Z) - Complement Sparsification: Low-Overhead Model Pruning for Federated
Learning [2.0428960719376166]
フェデレートラーニング(Federated Learning, FL)は、プライバシに保護された分散ディープラーニングパラダイムであり、かなりのコミュニケーションと計算作業を伴う。
既存のモデルプルーニング/スパーシフィケーションソリューションは、サーバとクライアント間の双方向通信のオーバーヘッドが低いという要求を満たすことができません。
我々は,サーバとクライアントで行う補完的かつ協調的なプルーニングを通じて,これらの要求を満たすプルーニング機構であるComplement Sparsification (CS)を提案する。
論文 参考訳(メタデータ) (2023-03-10T23:07:02Z) - Efficient Graph Neural Network Inference at Large Scale [54.89457550773165]
グラフニューラルネットワーク(GNN)は、幅広いアプリケーションで優れた性能を示している。
既存のスケーラブルなGNNは、線形伝搬を利用して特徴を前処理し、トレーニングと推論の手順を高速化する。
本稿では,そのトポロジ情報に基づいて各ノードに対してパーソナライズされた伝搬順序を生成する適応的伝搬順序法を提案する。
論文 参考訳(メタデータ) (2022-11-01T14:38:18Z) - A GPU-specialized Inference Parameter Server for Large-Scale Deep
Recommendation Models [6.823233135936128]
推薦システムは、ニュースフィード、ソーシャルネットワーク、eコマース、検索など、様々なモダンなアプリやWebサービスにとって不可欠である。
ピーク予測精度を達成するため、現代のレコメンデーションモデルは、ディープラーニングとテラバイト規模の埋め込みテーブルを組み合わせることで、基礎となるデータのきめ細かい表現を得る。
従来の推論サービスアーキテクチャでは、モデル全体をスタンドアロンのサーバにデプロイする必要があります。
論文 参考訳(メタデータ) (2022-10-17T07:36:18Z) - FedNet2Net: Saving Communication and Computations in Federated Learning
with Model Growing [0.0]
フェデレート・ラーニング(Federated Learning, FL)は、最近開発された機械学習の分野である。
本稿では「モデル成長」の概念に基づく新しいスキームを提案する。
提案手法は3つの標準ベンチマークで広範囲に検証され、通信とクライアントの計算の大幅な削減を実現することが示されている。
論文 参考訳(メタデータ) (2022-07-19T21:54:53Z) - An Expectation-Maximization Perspective on Federated Learning [75.67515842938299]
フェデレーション学習は、データをデバイス上でプライベートにしながら、複数のクライアントにわたるモデルの分散トレーニングを記述する。
本稿では,サーバがクライアント固有のモデルパラメータに対して事前分布のパラメータを提供する階層的潜在変数モデルとして,サーバが設定したフェデレーション学習プロセスについて考察する。
我々は,単純なガウス先行とよく知られた期待最大化(EM)アルゴリズムのハードバージョンを用いて,そのようなモデルの学習は,フェデレーション学習環境における最も一般的なアルゴリズムであるFedAvgに対応することを示す。
論文 参考訳(メタデータ) (2021-11-19T12:58:59Z) - A Bayesian Federated Learning Framework with Online Laplace
Approximation [144.7345013348257]
フェデレートラーニングは、複数のクライアントが協力してグローバルに共有されたモデルを学ぶことを可能にする。
クライアント側とサーバ側の両方の後方部を近似するために,オンラインラプラス近似を用いた新しいFLフレームワークを提案する。
提案手法の利点を実証し,いくつかのベンチマークで最新の結果を得た。
論文 参考訳(メタデータ) (2021-02-03T08:36:58Z) - Joint Parameter-and-Bandwidth Allocation for Improving the Efficiency of
Partitioned Edge Learning [73.82875010696849]
機械学習アルゴリズムは、人工知能(AI)モデルをトレーニングするために、ネットワークエッジにデプロイされる。
本稿では,パラメータ(計算負荷)割り当てと帯域幅割り当ての新しい共同設計に焦点を当てる。
論文 参考訳(メタデータ) (2020-03-10T05:52:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。