Fugu-MT 論文翻訳(概要): Understanding Capacity-Driven Scale-Out Neural Recommendation Inference

論文の概要: Understanding Capacity-Driven Scale-Out Neural Recommendation Inference

arxiv url: http://arxiv.org/abs/2011.02084v2
Date: Wed, 11 Nov 2020 16:31:05 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-29 23:17:06.432468
Title: Understanding Capacity-Driven Scale-Out Neural Recommendation Inference
Title（参考訳）: 容量駆動型スケールアウトニューラルレコメンデーション推論の理解
Authors: Michael Lui, Yavuz Yetim, \"Ozg\"ur \"Ozkan, Zhuoran Zhao, Shin-Yeh Tsai, Carole-Jean Wu, and Mark Hempstead
Abstract要約: この研究は、データセンターサービスインフラストラクチャを使用したスケールアウトなディープラーニングレコメンデーション推論を記述し、特徴付ける。分散推論のレイテンシと計算オーバーヘッドは、主にモデルの静的埋め込みテーブル分布の結果であることがわかった。さらに奨励的に、分散推論がデータセンタースケールのレコメンデーションサービスにおける効率改善の原因となっていることを示す。
参考スコア（独自算出の注目度）: 1.9529164002361878
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Deep learning recommendation models have grown to the terabyte scale. Traditional serving schemes--that load entire models to a single server--are unable to support this scale. One approach to support this scale is with distributed serving, or distributed inference, which divides the memory requirements of a single large model across multiple servers. This work is a first-step for the systems research community to develop novel model-serving solutions, given the huge system design space. Large-scale deep recommender systems are a novel workload and vital to study, as they consume up to 79% of all inference cycles in the data center. To that end, this work describes and characterizes scale-out deep learning recommendation inference using data-center serving infrastructure. This work specifically explores latency-bounded inference systems, compared to the throughput-oriented training systems of other recent works. We find that the latency and compute overheads of distributed inference are largely a result of a model's static embedding table distribution and sparsity of input inference requests. We further evaluate three embedding table mapping strategies of three DLRM-like models and specify challenging design trade-offs in terms of end-to-end latency, compute overhead, and resource efficiency. Overall, we observe only a marginal latency overhead when the data-center scale recommendation models are served with the distributed inference manner--P99 latency is increased by only 1% in the best case configuration. The latency overheads are largely a result of the commodity infrastructure used and the sparsity of embedding tables. Even more encouragingly, we also show how distributed inference can account for efficiency improvements in data-center scale recommendation serving.
Abstract（参考訳）: ディープラーニングのレコメンデーションモデルがテラバイト規模に拡大した。従来のサービススキーム – モデルを単一のサーバにロードする – では、このスケールはサポートできない。このスケールをサポートする1つのアプローチは、複数のサーバにまたがる単一の大規模モデルのメモリ要求を分割する分散サービスまたは分散推論である。この研究は、システム設計の巨大な領域を考えると、システム研究コミュニティが新しいモデル提供ソリューションを開発するための第一歩である。大規模なディープリコメンデータシステムは、データセンターの全推論サイクルの最大79%を消費するため、新しいワークロードであり、研究に不可欠である。そこで本研究では,データセンタサービスインフラストラクチャを使用した大規模ディープラーニング推奨推論を記述し,特徴付ける。この研究は、他の最近の研究のスループット指向トレーニングシステムと比較して、特にレイテンシ境界推論システムを調査している。分散推論のレイテンシと計算オーバーヘッドは、モデルが静的な埋め込みテーブル分布と入力推論要求のばらつきの結果であることがわかった。さらに,3つのDLRMモデルによる3つの埋め込みテーブルマッピング戦略を評価し,エンドツーエンドのレイテンシ,計算オーバーヘッド,リソース効率の観点から,設計上のトレードオフを抽出した。全体として、データセンタースケールのレコメンデーションモデルが分散推論方式で提供される場合、最良ケース構成でP99レイテンシは1%向上する。レイテンシのオーバーヘッドは、主に使用されるコモディティインフラストラクチャと、埋め込みテーブルの幅によるものです。さらに奨励的に、分散推論がデータセンターのレコメンデーションサービスにおける効率改善にどのように寄与するかを示す。

関連論文リスト

Realizing Scaling Laws in Recommender Systems: A Foundation-Expert Paradigm for Hyperscale Model Deployment [16.883389041355073]
本稿では,超大規模レコメンデーションFMの開発と展開を目的としたフレームワークを提案する。提案手法では, 生涯にわたる, クロスサイト, マルチモーダルなユーザデータに基づいて, 一般化可能な知識を学習する。この知識は、ターゲット認識の埋め込みを通じて、様々な軽量で表面特異的な「専門家」モデルに効率的に伝達される。
論文参考訳（メタデータ） (2025-08-04T22:03:13Z)
External Large Foundation Model: How to Efficiently Serve Trillions of Parameters for Online Ads Recommendation [58.194356020695906]
広告推薦はオンライン広告システムの顕著なサービスであり、積極的に研究されている。近年の研究では、レコメンデーションモデルのスケールアップと高度な設計が、大幅な性能向上をもたらすことが示されている。しかし、モデルスケールが大きくなるにつれて、従来の研究は産業規模での2つの基本的な課題を無視することが多いため、産業とのギャップが著しく増大する。
論文参考訳（メタデータ） (2025-02-20T22:35:52Z)
A Bayesian Approach to Data Point Selection [24.98069363998565]
データポイントの選択(DPS)は、ディープラーニングにおいて重要なトピックになりつつある。既存のDPSへのアプローチは、主にバイレベル最適化(BLO)の定式化に基づいている。 DPSに対する新しいベイズ的アプローチを提案する。
論文参考訳（メタデータ） (2024-11-06T09:04:13Z)
Visual Prompting Upgrades Neural Network Sparsification: A Data-Model Perspective [64.04617968947697]
より優れた重量空間を実現するために、新しいデータモデル共設計視点を導入する。具体的には、提案したVPNフレームワークでニューラルネットワークのスパーシフィケーションをアップグレードするために、カスタマイズされたVisual Promptが実装されている。
論文参考訳（メタデータ） (2023-12-03T13:50:24Z)
Towards a Better Theoretical Understanding of Independent Subnetwork Training [56.24689348875711]
独立サブネットワークトレーニング(IST)の理論的考察 ISTは、上記の問題を解決するための、最近提案され、非常に効果的である。圧縮通信を用いた分散手法など,ISTと代替手法の基本的な違いを同定する。
論文参考訳（メタデータ） (2023-06-28T18:14:22Z)
Complement Sparsification: Low-Overhead Model Pruning for Federated Learning [2.0428960719376166]
フェデレートラーニング(Federated Learning, FL)は、プライバシに保護された分散ディープラーニングパラダイムであり、かなりのコミュニケーションと計算作業を伴う。既存のモデルプルーニング/スパーシフィケーションソリューションは、サーバとクライアント間の双方向通信のオーバーヘッドが低いという要求を満たすことができません。我々は,サーバとクライアントで行う補完的かつ協調的なプルーニングを通じて,これらの要求を満たすプルーニング機構であるComplement Sparsification (CS)を提案する。
論文参考訳（メタデータ） (2023-03-10T23:07:02Z)
Efficient Graph Neural Network Inference at Large Scale [54.89457550773165]
グラフニューラルネットワーク(GNN)は、幅広いアプリケーションで優れた性能を示している。既存のスケーラブルなGNNは、線形伝搬を利用して特徴を前処理し、トレーニングと推論の手順を高速化する。本稿では,そのトポロジ情報に基づいて各ノードに対してパーソナライズされた伝搬順序を生成する適応的伝搬順序法を提案する。
論文参考訳（メタデータ） (2022-11-01T14:38:18Z)
A GPU-specialized Inference Parameter Server for Large-Scale Deep Recommendation Models [6.823233135936128]
推薦システムは、ニュースフィード、ソーシャルネットワーク、eコマース、検索など、様々なモダンなアプリやWebサービスにとって不可欠である。ピーク予測精度を達成するため、現代のレコメンデーションモデルは、ディープラーニングとテラバイト規模の埋め込みテーブルを組み合わせることで、基礎となるデータのきめ細かい表現を得る。従来の推論サービスアーキテクチャでは、モデル全体をスタンドアロンのサーバにデプロイする必要があります。
論文参考訳（メタデータ） (2022-10-17T07:36:18Z)
FedNet2Net: Saving Communication and Computations in Federated Learning with Model Growing [0.0]
フェデレート・ラーニング(Federated Learning, FL)は、最近開発された機械学習の分野である。本稿では「モデル成長」の概念に基づく新しいスキームを提案する。提案手法は3つの標準ベンチマークで広範囲に検証され、通信とクライアントの計算の大幅な削減を実現することが示されている。
論文参考訳（メタデータ） (2022-07-19T21:54:53Z)
An Expectation-Maximization Perspective on Federated Learning [75.67515842938299]
フェデレーション学習は、データをデバイス上でプライベートにしながら、複数のクライアントにわたるモデルの分散トレーニングを記述する。本稿では,サーバがクライアント固有のモデルパラメータに対して事前分布のパラメータを提供する階層的潜在変数モデルとして,サーバが設定したフェデレーション学習プロセスについて考察する。我々は,単純なガウス先行とよく知られた期待最大化(EM)アルゴリズムのハードバージョンを用いて,そのようなモデルの学習は,フェデレーション学習環境における最も一般的なアルゴリズムであるFedAvgに対応することを示す。
論文参考訳（メタデータ） (2021-11-19T12:58:59Z)
A Bayesian Federated Learning Framework with Online Laplace Approximation [144.7345013348257]
フェデレートラーニングは、複数のクライアントが協力してグローバルに共有されたモデルを学ぶことを可能にする。クライアント側とサーバ側の両方の後方部を近似するために,オンラインラプラス近似を用いた新しいFLフレームワークを提案する。提案手法の利点を実証し,いくつかのベンチマークで最新の結果を得た。
論文参考訳（メタデータ） (2021-02-03T08:36:58Z)
Joint Parameter-and-Bandwidth Allocation for Improving the Efficiency of Partitioned Edge Learning [73.82875010696849]
機械学習アルゴリズムは、人工知能(AI)モデルをトレーニングするために、ネットワークエッジにデプロイされる。本稿では,パラメータ(計算負荷)割り当てと帯域幅割り当ての新しい共同設計に焦点を当てる。
論文参考訳（メタデータ） (2020-03-10T05:52:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。