論文の概要: Merlin HugeCTR: GPU-accelerated Recommender System Training and
Inference
- arxiv url: http://arxiv.org/abs/2210.08803v1
- Date: Mon, 17 Oct 2022 07:35:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 17:51:27.819814
- Title: Merlin HugeCTR: GPU-accelerated Recommender System Training and
Inference
- Title(参考訳): Merlin HugeCTR: GPUアクセラレーションによるレコメンダシステムのトレーニングと推論
- Authors: Joey Wang, Yingcan Wei, Minseok Lee, Matthias Langer, Fan Yu, Jie Liu,
Alex Liu, Daniel Abel, Gems Guo, Jianbing Dong, Jerry Shi and Kunlun Li
- Abstract要約: Merlin HugeCTRは、クリックスルーレート推定のためのオープンソースのGPUアクセラレーション統合フレームワークである。
これにより、モデル並列埋め込みとデータ並列ニューラルネットワークによる大規模モデルトレーニングが可能になる。
- 参考スコア(独自算出の注目度): 8.738756623684676
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this talk, we introduce Merlin HugeCTR. Merlin HugeCTR is an open source,
GPU-accelerated integration framework for click-through rate estimation. It
optimizes both training and inference, whilst enabling model training at scale
with model-parallel embeddings and data-parallel neural networks. In
particular, Merlin HugeCTR combines a high-performance GPU embedding cache with
an hierarchical storage architecture, to realize low-latency retrieval of
embeddings for online model inference tasks. In the MLPerf v1.0 DLRM model
training benchmark, Merlin HugeCTR achieves a speedup of up to 24.6x on a
single DGX A100 (8x A100) over PyTorch on 4x4-socket CPU nodes (4x4x28 cores).
Merlin HugeCTR can also take advantage of multi-node environments to accelerate
training even further. Since late 2021, Merlin HugeCTR additionally features a
hierarchical parameter server (HPS) and supports deployment via the NVIDIA
Triton server framework, to leverage the computational capabilities of GPUs for
high-speed recommendation model inference. Using this HPS, Merlin HugeCTR users
can achieve a 5~62x speedup (batch size dependent) for popular recommendation
models over CPU baseline implementations, and dramatically reduce their
end-to-end inference latency.
- Abstract(参考訳): 本稿では,Merlin HugeCTRを紹介する。
Merlin HugeCTRは、クリックスルーレート推定のためのオープンソースのGPUアクセラレーション統合フレームワークである。
トレーニングと推論の両方を最適化し、モデル並列埋め込みとデータ並列ニューラルネットワークによる大規模モデルのトレーニングを可能にする。
特に、Merlin HugeCTRは高性能GPU埋め込みキャッシュと階層型ストレージアーキテクチャを組み合わせることで、オンラインモデル推論タスクの埋め込みの低レイテンシ検索を実現する。
MLPerf v1.0 DLRMモデルトレーニングベンチマークでは、Merlin HugeCTRは4x4ソケットCPUノード(4x4x28コア)上のPyTorch上の1つのDGX A100 (8x A100)上で最大24.6倍のスピードアップを達成する。
Merlin HugeCTRはまた、トレーニングをさらに加速するためにマルチノード環境を利用することもできる。
2021年末以降、Merlin HugeCTRは階層型パラメータサーバ(HPS)も備えており、NVIDIA Tritonサーバフレームワークによるデプロイメントをサポートし、GPUの計算能力を高速レコメンデーションモデル推論に活用している。
このHPSを使用すると、Merlin HugeCTRユーザはCPUベースライン実装よりも一般的な推奨モデルに対して5~62倍のスピードアップ(バッチサイズ依存)を達成することができる。
関連論文リスト
- MARLIN: Mixed-Precision Auto-Regressive Parallel Inference on Large Language Models [58.3342517278868]
本稿では,Mixed-precision AutoRegressive LINearカーネルの設計について述べる。
バッチサイズは16-32までサポートでき、量子化のスピードアップが最大 (4times$) になる。
MarLINは非同期メモリアクセス、複雑なタスクスケジューリング、パイプライン化といったテクニックを組み合わせてこれを実現している。
論文 参考訳(メタデータ) (2024-08-21T16:10:41Z) - HiRE: High Recall Approximate Top-$k$ Estimation for Efficient LLM
Inference [68.59839755875252]
HiREは2つの新しいコンポーネントから構成される: (i) (i) (i) (i) (i) (i) (i) (i) (i) (i) (ii) DA-TOP-$k$: 効率的なマルチデバイス近似トップ-k$演算子) (i) (i) (i) (i) (i) (i) (i) DA-TOP-$k$演算子) 。
我々は、10億のパラメータモデルにおいて、HiREがソフトマックスとフィードフォワード層の両方に適用され、ほぼ一致した事前学習と下流の精度を実現し、1台のTPUv5eデバイスで1.47Times$の推論遅延を高速化することを示した。
論文 参考訳(メタデータ) (2024-02-14T18:04:36Z) - End-to-End Temporal Action Detection with 1B Parameters Across 1000 Frames [55.72994484532856]
時間的行動検出(TAD)は、エンドツーエンドのトレーニングで大幅に改善された。
メモリボトルネックのため、限られたスケールと限られたデータ量を持つモデルだけがエンドツーエンドのトレーニングを受けることができる。
エンド・ツー・エンドトレーニングのメモリ消費を削減し,10億のパラメータと入力映像を1,536フレームにスケールアップする。
論文 参考訳(メタデータ) (2023-11-28T21:31:04Z) - PockEngine: Sparse and Efficient Fine-tuning in a Pocket [62.955793932377524]
さまざまなエッジデバイスで微調整が可能な,小型でスパースで効率的なエンジンであるPockEngineを紹介します。
PockEngineはスパースバックプロパゲーションをサポートし、測定メモリの節約とレイテンシの削減でモデルをスパース更新する。
注目すべきなのは、PockEngineはNVIDIA Jetson AGX OrinのLLaMav2-7Bを550トークン/秒で微調整できることだ。
論文 参考訳(メタデータ) (2023-10-26T19:46:11Z) - A GPU-specialized Inference Parameter Server for Large-Scale Deep
Recommendation Models [6.823233135936128]
推薦システムは、ニュースフィード、ソーシャルネットワーク、eコマース、検索など、様々なモダンなアプリやWebサービスにとって不可欠である。
ピーク予測精度を達成するため、現代のレコメンデーションモデルは、ディープラーニングとテラバイト規模の埋め込みテーブルを組み合わせることで、基礎となるデータのきめ細かい表現を得る。
従来の推論サービスアーキテクチャでは、モデル全体をスタンドアロンのサーバにデプロイする必要があります。
論文 参考訳(メタデータ) (2022-10-17T07:36:18Z) - Merak: An Efficient Distributed DNN Training Framework with Automated 3D
Parallelism for Giant Foundation Models [14.903847751841221]
資源利用率の高い3次元並列化ディープラーニング学習フレームワークであるMerakを提案する。
Merakは、モデルのプロキシ表現にグラフシャーディングアルゴリズムを使用する自動モデルパーティショナで自動的にデプロイする。
Merakは1.5、2.5、8.3、200億のパラメータを持つモデルの最先端の3D並列化フレームワークをそれぞれ1.42X、1.39X、1.43X、1.61Xまで高速化することができる。
論文 参考訳(メタデータ) (2022-06-10T09:15:48Z) - Communication-Efficient TeraByte-Scale Model Training Framework for
Online Advertising [32.5337643852876]
CTR(Click-Through Rate)予測は、オンライン広告業界において重要な要素である。
大規模な広告モデルのための既存のGPUトレーニングにおける2つの大きな課題を特定します。
ハードウェアトポロジをアルゴリズム設計に結合するハードウェア対応トレーニングワークフローを提案する。
論文 参考訳(メタデータ) (2022-01-05T18:09:11Z) - ANNETTE: Accurate Neural Network Execution Time Estimation with Stacked
Models [56.21470608621633]
本稿では,アーキテクチャ検索を対象ハードウェアから切り離すための時間推定フレームワークを提案する。
提案手法は,マイクロカーネルと多層ベンチマークからモデルの集合を抽出し,マッピングとネットワーク実行時間推定のためのスタックモデルを生成する。
生成した混合モデルの推定精度と忠実度, 統計モデルとルーフラインモデル, 評価のための洗練されたルーフラインモデルを比較した。
論文 参考訳(メタデータ) (2021-05-07T11:39:05Z) - ScaleFreeCTR: MixCache-based Distributed Training System for CTR Models
with Huge Embedding Table [23.264897780201316]
様々なCTR(Deep Click-Through Rate)モデルが工業企業によって商用システムに展開されています。
優れた性能を得るためには、大量のトレーニングデータに基づいて深部CTRモデルを効率的に訓練する必要がある。
ScaleFreeCTR:CTRモデルのためのMixCacheベースの分散トレーニングシステムを提案する。
論文 参考訳(メタデータ) (2021-04-17T13:36:19Z) - Training Recommender Systems at Scale: Communication-Efficient Model and
Data Parallelism [56.78673028601739]
通信効率のよいハイブリッドトレーニングのためのDCT(Dynamic Communication Thresholding)という圧縮フレームワークを提案する。
DCTは、それぞれDPとMPの間に、少なくとも$100times$と$20times$の通信を削減します。
最先端の産業レコメンデーションモデルのエンドツーエンドのトレーニング時間を、パフォーマンスを損なうことなく、37%改善する。
論文 参考訳(メタデータ) (2020-10-18T01:44:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。