論文の概要: A GPU-specialized Inference Parameter Server for Large-Scale Deep
Recommendation Models
- arxiv url: http://arxiv.org/abs/2210.08804v1
- Date: Mon, 17 Oct 2022 07:36:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 17:51:03.996098
- Title: A GPU-specialized Inference Parameter Server for Large-Scale Deep
Recommendation Models
- Title(参考訳): 大規模Deep RecommendationモデルのためのGPU特化推論パラメータサーバ
- Authors: Yingcan Wei, Matthias Langer, Fan Yu, Minseok Lee, Kingsley Liu, Jerry
Shi and Joey Wang
- Abstract要約: 推薦システムは、ニュースフィード、ソーシャルネットワーク、eコマース、検索など、様々なモダンなアプリやWebサービスにとって不可欠である。
ピーク予測精度を達成するため、現代のレコメンデーションモデルは、ディープラーニングとテラバイト規模の埋め込みテーブルを組み合わせることで、基礎となるデータのきめ細かい表現を得る。
従来の推論サービスアーキテクチャでは、モデル全体をスタンドアロンのサーバにデプロイする必要があります。
- 参考スコア(独自算出の注目度): 6.823233135936128
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recommendation systems are of crucial importance for a variety of modern apps
and web services, such as news feeds, social networks, e-commerce, search, etc.
To achieve peak prediction accuracy, modern recommendation models combine deep
learning with terabyte-scale embedding tables to obtain a fine-grained
representation of the underlying data. Traditional inference serving
architectures require deploying the whole model to standalone servers, which is
infeasible at such massive scale.
In this paper, we provide insights into the intriguing and challenging
inference domain of online recommendation systems. We propose the HugeCTR
Hierarchical Parameter Server (HPS), an industry-leading distributed
recommendation inference framework, that combines a high-performance GPU
embedding cache with an hierarchical storage architecture, to realize
low-latency retrieval of embeddings for online model inference tasks. Among
other things, HPS features (1) a redundant hierarchical storage system, (2) a
novel high-bandwidth cache to accelerate parallel embedding lookup on NVIDIA
GPUs, (3) online training support and (4) light-weight APIs for easy
integration into existing large-scale recommendation workflows. To demonstrate
its capabilities, we conduct extensive studies using both synthetically
engineered and public datasets. We show that our HPS can dramatically reduce
end-to-end inference latency, achieving 5~62x speedup (depending on the batch
size) over CPU baseline implementations for popular recommendation models.
Through multi-GPU concurrent deployment, the HPS can also greatly increase the
inference QPS.
- Abstract(参考訳): 推薦システムは、ニュースフィード、ソーシャルネットワーク、eコマース、検索など、様々なモダンなアプリやWebサービスにとって非常に重要である。
ピーク予測精度を達成するため、現代のレコメンデーションモデルは、ディープラーニングとテラバイト規模の埋め込みテーブルを組み合わせて、基礎となるデータのきめ細かい表現を得る。
従来の推論サービスアーキテクチャでは、モデル全体を独立したサーバにデプロイする必要があります。
本稿では,オンラインレコメンデーションシステムの興味深く,挑戦的な推論領域について考察する。
本稿では,ハイパフォーマンスGPU埋め込みキャッシュと階層型ストレージアーキテクチャを組み合わせた,業界主導の分散レコメンデーション推論フレームワークであるHugeCTR階層パラメータサーバ(HPS)を提案し,オンラインモデル推論タスクに対する埋め込みの低レイテンシ検索を実現する。
中でもHPSは,(1)冗長な階層ストレージシステム,(2)NVIDIA GPUへの並列埋め込みを高速化する新しい高帯域キャッシュ,(3)オンライントレーニングサポート,(4)既存の大規模レコメンデーションワークフローへの統合を容易にする軽量APIを備えている。
その能力を実証するために、合成工学と公開データセットの両方を用いて広範な研究を行う。
我々はHPSが、一般的なレコメンデーションモデルのためのCPUベースライン実装よりも5~62倍のスピードアップ(バッチサイズに依存している)を達成することで、エンドツーエンドの推論遅延を大幅に削減できることを示した。
マルチGPU同時配置により、HPSは推論QPSを大幅に増加させることができる。
関連論文リスト
- Pushing the Performance Envelope of DNN-based Recommendation Systems Inference on GPUs [13.720423381263409]
我々は、埋め込みステージがGPU推論パイプラインの主要なボトルネックであり続けており、3.2倍の埋め込みのみのパフォーマンス低下につながっていることを示す。
本稿では,プラグ・アンド・プレイ方式のソフトウェアプリフェッチとL2ピンニング技術を提案し,遅延の隠蔽と低減に役立てる。
提案手法により, 埋込ステージでは最大103%, DLRM推論パイプラインでは最大77%の性能向上が図られた。
論文 参考訳(メタデータ) (2024-10-29T17:13:54Z) - FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - Visual Prompting Upgrades Neural Network Sparsification: A Data-Model Perspective [64.04617968947697]
より優れた重量空間を実現するために、新しいデータモデル共設計視点を導入する。
具体的には、提案したVPNフレームワークでニューラルネットワークのスパーシフィケーションをアップグレードするために、カスタマイズされたVisual Promptが実装されている。
論文 参考訳(メタデータ) (2023-12-03T13:50:24Z) - Reconfigurable Distributed FPGA Cluster Design for Deep Learning
Accelerators [59.11160990637615]
エッジコンピューティングアプリケーション用に設計された低消費電力組み込みFPGAに基づく分散システムを提案する。
提案システムは,様々なニューラルネットワーク(NN)モデルを同時に実行し,パイプライン構造にグラフを配置し,NNグラフの最も計算集約的な層により大きなリソースを手動で割り当てる。
論文 参考訳(メタデータ) (2023-05-24T16:08:55Z) - Communication-Efficient Graph Neural Networks with Probabilistic
Neighborhood Expansion Analysis and Caching [59.8522166385372]
大規模グラフ上でのグラフニューラルネットワーク(GNN)のトレーニングと推論は、GNNの登場以来活発に研究されている。
本稿では,分散環境におけるノードワイドサンプリングを用いたGNNによるミニバッチ学習と推論について述べる。
分割された特徴データを扱うために,従来のSALIENTシステムを拡張したSALIENT++を提案する。
論文 参考訳(メタデータ) (2023-05-04T21:04:01Z) - Communication-Efficient TeraByte-Scale Model Training Framework for
Online Advertising [32.5337643852876]
CTR(Click-Through Rate)予測は、オンライン広告業界において重要な要素である。
大規模な広告モデルのための既存のGPUトレーニングにおける2つの大きな課題を特定します。
ハードウェアトポロジをアルゴリズム設計に結合するハードウェア対応トレーニングワークフローを提案する。
論文 参考訳(メタデータ) (2022-01-05T18:09:11Z) - SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。
しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文 参考訳(メタデータ) (2021-12-22T14:45:37Z) - High-performance, Distributed Training of Large-scale Deep Learning
Recommendation Models [18.63017668881868]
ディープラーニングレコメンデーションモデル(DLRM)は、Facebookの多くのビジネスクリティカルサービスで使用されている。
本稿では,大規模DLRMの高性能分散トレーニングのためのSW/HW共同設計ソリューションについて論じる。
我々は、最大12トリリオンパラメータで非常に大きなDLRMを訓練する能力を実証し、以前のシステムよりも解決策に時間の観点から40倍のスピードアップを達成できることを示しています。
論文 参考訳(メタデータ) (2021-04-12T02:15:55Z) - Generalized Latency Performance Estimation for Once-For-All Neural
Architecture Search [0.0]
特定のハードウェアとNAS検索空間で訓練されたベースモデルを用いた微調整を含む2つの汎用性戦略を紹介します。
ProxylessNASに比べて50%以上低いRMSE損失を達成できる待ち時間予測モデル群を提供する。
論文 参考訳(メタデータ) (2021-01-04T00:48:09Z) - Understanding Capacity-Driven Scale-Out Neural Recommendation Inference [1.9529164002361878]
この研究は、データセンターサービスインフラストラクチャを使用したスケールアウトなディープラーニングレコメンデーション推論を記述し、特徴付ける。
分散推論のレイテンシと計算オーバーヘッドは、主にモデルの静的埋め込みテーブル分布の結果であることがわかった。
さらに奨励的に、分散推論がデータセンタースケールのレコメンデーションサービスにおける効率改善の原因となっていることを示す。
論文 参考訳(メタデータ) (2020-11-04T00:51:40Z) - A Generic Network Compression Framework for Sequential Recommender
Systems [71.81962915192022]
シークエンシャルレコメンデーションシステム(SRS)は,ユーザの動的関心を捉え,高品質なレコメンデーションを生成する上で重要な技術となっている。
CpRecと呼ばれる圧縮されたシーケンシャルレコメンデーションフレームワークを提案する。
大規模なアブレーション研究により、提案したCpRecは実世界のSRSデータセットにおいて最大4$sim$8倍の圧縮速度を達成できることを示した。
論文 参考訳(メタデータ) (2020-04-21T08:40:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。