Fugu-MT 論文翻訳(概要): Merlin HugeCTR: GPU-accelerated Recommender System Training and Inference

論文の概要: Merlin HugeCTR: GPU-accelerated Recommender System Training and Inference

arxiv url: http://arxiv.org/abs/2210.08803v1
Date: Mon, 17 Oct 2022 07:35:46 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-18 17:51:27.819814
Title: Merlin HugeCTR: GPU-accelerated Recommender System Training and Inference
Title（参考訳）: Merlin HugeCTR: GPUアクセラレーションによるレコメンダシステムのトレーニングと推論
Authors: Joey Wang, Yingcan Wei, Minseok Lee, Matthias Langer, Fan Yu, Jie Liu, Alex Liu, Daniel Abel, Gems Guo, Jianbing Dong, Jerry Shi and Kunlun Li
Abstract要約: Merlin HugeCTRは、クリックスルーレート推定のためのオープンソースのGPUアクセラレーション統合フレームワークである。これにより、モデル並列埋め込みとデータ並列ニューラルネットワークによる大規模モデルトレーニングが可能になる。
参考スコア（独自算出の注目度）: 8.738756623684676
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this talk, we introduce Merlin HugeCTR. Merlin HugeCTR is an open source, GPU-accelerated integration framework for click-through rate estimation. It optimizes both training and inference, whilst enabling model training at scale with model-parallel embeddings and data-parallel neural networks. In particular, Merlin HugeCTR combines a high-performance GPU embedding cache with an hierarchical storage architecture, to realize low-latency retrieval of embeddings for online model inference tasks. In the MLPerf v1.0 DLRM model training benchmark, Merlin HugeCTR achieves a speedup of up to 24.6x on a single DGX A100 (8x A100) over PyTorch on 4x4-socket CPU nodes (4x4x28 cores). Merlin HugeCTR can also take advantage of multi-node environments to accelerate training even further. Since late 2021, Merlin HugeCTR additionally features a hierarchical parameter server (HPS) and supports deployment via the NVIDIA Triton server framework, to leverage the computational capabilities of GPUs for high-speed recommendation model inference. Using this HPS, Merlin HugeCTR users can achieve a 5~62x speedup (batch size dependent) for popular recommendation models over CPU baseline implementations, and dramatically reduce their end-to-end inference latency.
Abstract（参考訳）: 本稿では,Merlin HugeCTRを紹介する。 Merlin HugeCTRは、クリックスルーレート推定のためのオープンソースのGPUアクセラレーション統合フレームワークである。トレーニングと推論の両方を最適化し、モデル並列埋め込みとデータ並列ニューラルネットワークによる大規模モデルのトレーニングを可能にする。特に、Merlin HugeCTRは高性能GPU埋め込みキャッシュと階層型ストレージアーキテクチャを組み合わせることで、オンラインモデル推論タスクの埋め込みの低レイテンシ検索を実現する。 MLPerf v1.0 DLRMモデルトレーニングベンチマークでは、Merlin HugeCTRは4x4ソケットCPUノード(4x4x28コア)上のPyTorch上の1つのDGX A100 (8x A100)上で最大24.6倍のスピードアップを達成する。 Merlin HugeCTRはまた、トレーニングをさらに加速するためにマルチノード環境を利用することもできる。 2021年末以降、Merlin HugeCTRは階層型パラメータサーバ(HPS)も備えており、NVIDIA Tritonサーバフレームワークによるデプロイメントをサポートし、GPUの計算能力を高速レコメンデーションモデル推論に活用している。このHPSを使用すると、Merlin HugeCTRユーザはCPUベースライン実装よりも一般的な推奨モデルに対して5～62倍のスピードアップ(バッチサイズ依存)を達成することができる。

関連論文リスト

SCRec: A Scalable Computational Storage System with Statistical Sharding and Tensor-train Decomposition for Recommendation Models [17.602518628415776]
Deep Learning Recommendation Models (DLRMs)は、ソーシャルネットワークやビデオストリーミングといったWebアプリケーション間でパーソナライズされたコンテンツを配信する上で、重要な役割を果たす。性能の改善により、DLRMsのパラメータサイズはテラバイト(TB)に拡大し、メモリ帯域幅の要求はTB/sを超えるようになった。 TBスケールの産業用DLRMを扱えるスケーラブルな計算ストレージレコメンデーションシステムであるSCRecを提案する。
論文参考訳（メタデータ） (2025-04-01T08:12:45Z)
Two-stream Beats One-stream: Asymmetric Siamese Network for Efficient Visual Tracking [54.124445709376154]
効率的な追跡を行うために,textbfAsymTrack という新しい非対称なシームズトラッカーを提案する。このアーキテクチャに基づいて、検索機能に重要な手がかりを注入する効率的なテンプレート変調機構を考案する。実験によると、AsymTrackは異なるプラットフォーム間で、より優れたスピード精度のトレードオフを提供する。
論文参考訳（メタデータ） (2025-03-01T14:44:54Z)
Democratizing AI: Open-source Scalable LLM Training on GPU-based Supercomputers [65.35142508909892]
AxoNNと呼ばれる,スケーラブルでポータブルなオープンソースフレームワークで実装された新しい4次元ハイブリッド並列アルゴリズムを提案する。本稿では,Frontier 上で AxoNN を用いて405ビリオンパラメータ LLM の微調整を行う。
論文参考訳（メタデータ） (2025-02-12T06:05:52Z)
MARLIN: Mixed-Precision Auto-Regressive Parallel Inference on Large Language Models [58.3342517278868]
本稿では,Mixed-precision AutoRegressive LINearカーネルの設計について述べる。バッチサイズは16-32までサポートでき、量子化のスピードアップが最大 (4times$) になる。 MarLINは非同期メモリアクセス、複雑なタスクスケジューリング、パイプライン化といったテクニックを組み合わせてこれを実現している。
論文参考訳（メタデータ） (2024-08-21T16:10:41Z)
HiRE: High Recall Approximate Top-$k$ Estimation for Efficient LLM Inference [68.59839755875252]
HiREは2つの新しいコンポーネントから構成される: (i) (i) (i) (i) (i) (i) (i) (i) (i) (i) (ii) DA-TOP-$k$: 効率的なマルチデバイス近似トップ-k$演算子) (i) (i) (i) (i) (i) (i) (i) DA-TOP-$k$演算子) 。我々は、10億のパラメータモデルにおいて、HiREがソフトマックスとフィードフォワード層の両方に適用され、ほぼ一致した事前学習と下流の精度を実現し、1台のTPUv5eデバイスで1.47Times$の推論遅延を高速化することを示した。
論文参考訳（メタデータ） (2024-02-14T18:04:36Z)
End-to-End Temporal Action Detection with 1B Parameters Across 1000 Frames [55.72994484532856]
時間的行動検出(TAD)は、エンドツーエンドのトレーニングで大幅に改善された。メモリボトルネックのため、限られたスケールと限られたデータ量を持つモデルだけがエンドツーエンドのトレーニングを受けることができる。エンド・ツー・エンドトレーニングのメモリ消費を削減し,10億のパラメータと入力映像を1,536フレームにスケールアップする。
論文参考訳（メタデータ） (2023-11-28T21:31:04Z)
PockEngine: Sparse and Efficient Fine-tuning in a Pocket [62.955793932377524]
さまざまなエッジデバイスで微調整が可能な,小型でスパースで効率的なエンジンであるPockEngineを紹介します。 PockEngineはスパースバックプロパゲーションをサポートし、測定メモリの節約とレイテンシの削減でモデルをスパース更新する。注目すべきなのは、PockEngineはNVIDIA Jetson AGX OrinのLLaMav2-7Bを550トークン/秒で微調整できることだ。
論文参考訳（メタデータ） (2023-10-26T19:46:11Z)
A GPU-specialized Inference Parameter Server for Large-Scale Deep Recommendation Models [6.823233135936128]
推薦システムは、ニュースフィード、ソーシャルネットワーク、eコマース、検索など、様々なモダンなアプリやWebサービスにとって不可欠である。ピーク予測精度を達成するため、現代のレコメンデーションモデルは、ディープラーニングとテラバイト規模の埋め込みテーブルを組み合わせることで、基礎となるデータのきめ細かい表現を得る。従来の推論サービスアーキテクチャでは、モデル全体をスタンドアロンのサーバにデプロイする必要があります。
論文参考訳（メタデータ） (2022-10-17T07:36:18Z)
Merak: An Efficient Distributed DNN Training Framework with Automated 3D Parallelism for Giant Foundation Models [14.903847751841221]
資源利用率の高い3次元並列化ディープラーニング学習フレームワークであるMerakを提案する。 Merakは、モデルのプロキシ表現にグラフシャーディングアルゴリズムを使用する自動モデルパーティショナで自動的にデプロイする。 Merakは1.5、2.5、8.3、200億のパラメータを持つモデルの最先端の3D並列化フレームワークをそれぞれ1.42X、1.39X、1.43X、1.61Xまで高速化することができる。
論文参考訳（メタデータ） (2022-06-10T09:15:48Z)
Communication-Efficient TeraByte-Scale Model Training Framework for Online Advertising [32.5337643852876]
CTR(Click-Through Rate)予測は、オンライン広告業界において重要な要素である。大規模な広告モデルのための既存のGPUトレーニングにおける2つの大きな課題を特定します。ハードウェアトポロジをアルゴリズム設計に結合するハードウェア対応トレーニングワークフローを提案する。
論文参考訳（メタデータ） (2022-01-05T18:09:11Z)
ANNETTE: Accurate Neural Network Execution Time Estimation with Stacked Models [56.21470608621633]
本稿では,アーキテクチャ検索を対象ハードウェアから切り離すための時間推定フレームワークを提案する。提案手法は,マイクロカーネルと多層ベンチマークからモデルの集合を抽出し,マッピングとネットワーク実行時間推定のためのスタックモデルを生成する。生成した混合モデルの推定精度と忠実度, 統計モデルとルーフラインモデル, 評価のための洗練されたルーフラインモデルを比較した。
論文参考訳（メタデータ） (2021-05-07T11:39:05Z)
ScaleFreeCTR: MixCache-based Distributed Training System for CTR Models with Huge Embedding Table [23.264897780201316]
様々なCTR(Deep Click-Through Rate)モデルが工業企業によって商用システムに展開されています。優れた性能を得るためには、大量のトレーニングデータに基づいて深部CTRモデルを効率的に訓練する必要がある。 ScaleFreeCTR:CTRモデルのためのMixCacheベースの分散トレーニングシステムを提案する。
論文参考訳（メタデータ） (2021-04-17T13:36:19Z)
Training Recommender Systems at Scale: Communication-Efficient Model and Data Parallelism [56.78673028601739]
通信効率のよいハイブリッドトレーニングのためのDCT(Dynamic Communication Thresholding)という圧縮フレームワークを提案する。 DCTは、それぞれDPとMPの間に、少なくとも$100times$と$20times$の通信を削減します。最先端の産業レコメンデーションモデルのエンドツーエンドのトレーニング時間を、パフォーマンスを損なうことなく、37%改善する。
論文参考訳（メタデータ） (2020-10-18T01:44:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。