論文の概要: Heterogeneous Acceleration Pipeline for Recommendation System Training
- arxiv url: http://arxiv.org/abs/2204.05436v1
- Date: Mon, 11 Apr 2022 23:10:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-13 12:11:03.591666
- Title: Heterogeneous Acceleration Pipeline for Recommendation System Training
- Title(参考訳): レコメンデーションシステムトレーニングのための不均一加速パイプライン
- Authors: Muhammad Adnan, Yassaman Ebrahimzadeh Maboud, Divya Mahajan, Prashant
J. Nair
- Abstract要約: レコメンデーションシステムは、深層学習と大規模な埋め込みテーブルによる計算強度とメモリ強度の融合を示す。
本稿では、これらの懸念を克服するために、Hotlineと呼ばれる異種加速パイプラインを提供する。
Hotlineは、Intelが最適化したCPU-GPU DLRMとHugeCTRが最適化したGPUのみのベースラインと比較して、平均トレーニング時間を3倍と1.8倍に短縮する。
- 参考スコア(独自算出の注目度): 2.346585343935306
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recommendation systems are unique as they show a conflation of compute and
memory intensity due to their deep learning and massive embedding tables.
Training these models typically involve a hybrid CPU-GPU mode, where GPUs
accelerate the deep learning portion and the CPUs store and process the
memory-intensive embedding tables. The hybrid mode incurs a substantial
CPU-to-GPU transfer time and relies on main memory bandwidth to feed embeddings
to GPU for deep learning acceleration. Alternatively, we can store the entire
embeddings across GPUs to avoid the transfer time and utilize the GPU's High
Bandwidth Memory (HBM). This approach requires GPU-to-GPU backend communication
and scales the number of GPUs with the size of the embedding tables. To
overcome these concerns, this paper offers a heterogeneous acceleration
pipeline, called Hotline.
Hotline leverages the insight that only a small number of embedding entries
are accessed frequently, and can easily fit in a single GPU's HBM. Hotline
implements a data-aware and model-aware scheduling pipeline that utilizes the
(1) CPU main memory for not-frequently-accessed embeddings and (2) GPUs' local
memory for frequently-accessed embeddings. Hotline improves the training
throughput by dynamically stitching the execution of popular and not-popular
inputs through a novel hardware accelerator and feeding to the GPUs. Results on
real-world datasets and recommender models show that Hotline reduces the
average training time by 3x and 1.8x in comparison to Intel-optimized CPU-GPU
DLRM and HugeCTR-optimized GPU-only baseline, respectively. Hotline increases
the overall training throughput to 35.7 epochs/hour in comparison to 5.3
epochs/hour for the Intel-optimized DLRM baseline
- Abstract(参考訳): 推奨システムは、深層学習と大規模な埋め込みテーブルによる計算とメモリの強度の融合を示すため、ユニークなシステムである。
これらのモデルのトレーニングは通常、GPUが深層学習部を加速し、CPUがメモリ集約型埋め込みテーブルを格納し、処理するハイブリッドCPU-GPUモードを含む。
ハイブリッドモードはCPUからGPUへの転送時間を大幅に増加させ、メインメモリ帯域に依存して、ディープラーニングアクセラレーションのためにGPUに埋め込みをフィードする。
あるいは、GPU全体の埋め込みを格納して、転送時間を避け、GPUのHigh Bandwidth Memory(HBM)を利用することもできます。
このアプローチでは、GPUからGPUまでのバックエンド通信を必要とし、埋め込みテーブルのサイズでGPUの数をスケールアップする。
これらの懸念を克服するため,本稿ではhotlineと呼ばれる異種加速パイプラインを提案する。
Hotlineは、少数の埋め込みエントリのみが頻繁にアクセスされ、単一のGPUのHBMに容易に適合する、という洞察を活用する。
hotlineはデータ認識とモデル認識のスケジューリングパイプラインを実装しており、(1)cpuメインメモリを頻繁にアクセスされない組込みに、(2)gpuのローカルメモリを頻繁にアクセスする組込みに利用する。
hotlineは、新しいハードウェアアクセラレーションを通じて人気および非人気入力の実行を動的に縫い込み、gpuに供給することで、トレーニングスループットを向上させる。
実世界のデータセットとレコメンダモデルの結果、ホットラインは、intel最適化のcpu-gpu dlrmとbigctr最適化のgpuのみのベースラインと比較して、平均トレーニング時間を3倍と1.8倍削減できることが示されている。
Hotlineはトレーニング全体のスループットを、Intel最適化DLRMベースラインの5.3エポック/時間と比較すると、35.7エポック/時間に向上する。
関連論文リスト
- Communication-Efficient Graph Neural Networks with Probabilistic
Neighborhood Expansion Analysis and Caching [59.8522166385372]
大規模グラフ上でのグラフニューラルネットワーク(GNN)のトレーニングと推論は、GNNの登場以来活発に研究されている。
本稿では,分散環境におけるノードワイドサンプリングを用いたGNNによるミニバッチ学習と推論について述べる。
分割された特徴データを扱うために,従来のSALIENTシステムを拡張したSALIENT++を提案する。
論文 参考訳(メタデータ) (2023-05-04T21:04:01Z) - High-throughput Generative Inference of Large Language Models with a
Single GPU [89.2451963569343]
本稿では,1つのコモディティGPU上で大規模言語モデル(LLM)推論を実行するための高スループットエンジンFlexGenを提案する。
1つの16GB GPU上でOPT-175Bを実行する場合、FlexGenは最先端のオフロードシステムに比べてスループットが大幅に向上する。
HELMベンチマークでは、FlexGenは7つの代表サブシナリオに16GBのGPUで30Bモデルを21時間でベンチマークすることができる。
論文 参考訳(メタデータ) (2023-03-13T05:19:28Z) - An Analysis of Collocation on GPUs for Deep Learning Training [0.0]
マルチインスタンスGPU(MIG)はNVIDIAが導入した新しい技術で、GPUをより良いワークロードに分割することができる。
本稿では,MIG対応A100 GPUの各種サイズとモデルの組み合わせを含むディープラーニングワークロードにおける性能について検討する。
論文 参考訳(メタデータ) (2022-09-13T14:13:06Z) - A Frequency-aware Software Cache for Large Recommendation System
Embeddings [11.873521953539361]
ディープラーニングレコメンデーションモデル(DLRM)はインターネット企業で広く採用されている。
本稿では,CPU と GPU メモリ空間の埋め込みテーブルを動的に管理するために,GPU ベースのソフトウェアキャッシュ手法を提案する。
提案するソフトウェアキャッシュは,GPU上のDLRM全体を同期更新方式でトレーニングする上で効率がよい。
論文 参考訳(メタデータ) (2022-08-08T12:08:05Z) - PLSSVM: A (multi-)GPGPU-accelerated Least Squares Support Vector Machine [68.8204255655161]
Support Vector Machines (SVM) は機械学習で広く使われている。
しかし、現代的で最適化された実装でさえ、最先端ハードウェア上の大きな非自明な高密度データセットにはうまくスケールしない。
PLSSVMはLVMのドロップイン代替として使用できる。
論文 参考訳(メタデータ) (2022-02-25T13:24:23Z) - Adaptive Elastic Training for Sparse Deep Learning on Heterogeneous
Multi-GPU Servers [65.60007071024629]
本稿では,Adaptive SGDが4つの最先端ソリューションよりも精度が高いことを示す。
本稿では,Adaptive SGDが時間と精度で4つの最先端ソリューションより優れていることを示す。
論文 参考訳(メタデータ) (2021-10-13T20:58:15Z) - DistGNN: Scalable Distributed Training for Large-Scale Graph Neural
Networks [58.48833325238537]
大規模グラフの構造を学ぶためにGNN(Graph Neural Networks)のフルバッチトレーニングは、実現可能な数百の計算ノードにスケールする必要がある重要な問題です。
本稿では,CPUクラスタ上でのフルバッチトレーニングのためのDGL(Deep Graph Library)を最適化したGNNについて述べる。
4つの一般的なGNNベンチマークデータセットの結果は、1つのCPUソケットを使用して最大3.7倍のスピードアップ、128のCPUソケットを使用して最大97倍のスピードアップを示す。
論文 参考訳(メタデータ) (2021-04-14T08:46:35Z) - Large Graph Convolutional Network Training with GPU-Oriented Data
Communication Architecture [19.2129567657739]
グラフ畳み込みネットワーク(gcns)は大規模グラフベースのレコメンデーションシステムでますます採用されている。
現在のGCNトレーニングシステムは、フィーチャーテーブルをホストメモリに保持し、スパース機能の収集にCPUに依存している。
しかしこのアプローチは、ホストメモリの帯域幅とCPUに大きなプレッシャーを与えます。
本稿では,GPUスレッドがホストメモリのスパース機能に直接アクセスするGCNトレーニングのための新しいGPU指向データ通信手法を提案する。
論文 参考訳(メタデータ) (2021-03-04T21:00:17Z) - High-Performance Training by Exploiting Hot-Embeddings in Recommendation
Systems [2.708848417398231]
推奨モデルは、電子商取引およびオンライン広告ベースのアプリケーションのためにユーザーに関連アイテムを提案する一般的な学習モデルです。
これらのモデルは大量の埋め込みテーブルを使用して、アイテムとユーザのカテゴリ変数の数値表現を格納する。
これらの競合する計算とメモリの要件のために、推奨モデルのトレーニングプロセスはCPUとGPUに分割されます。
本稿では、スキューテーブルアクセスを活用して、トレーニング中にGPUリソースを効率的に活用する。
論文 参考訳(メタデータ) (2021-03-01T01:43:26Z) - RTGPU: Real-Time GPU Scheduling of Hard Deadline Parallel Tasks with
Fine-Grain Utilization [5.02836935036198]
本論文では,複数のGPUアプリケーションの実行をリアルタイムにスケジュール可能なRTGPUを提案する。
提案手法は,従来の作業に比べてスケジューリング性に優れ,複数のGPUアプリケーションに厳しい期限をリアルタイムに保証する。
論文 参考訳(メタデータ) (2021-01-25T22:34:06Z) - Faster than FAST: GPU-Accelerated Frontend for High-Speed VIO [46.20949184826173]
この研究は、既存のコンピュータビジョンアルゴリズムを改善するために、効率的な低レベルGPUハードウェア固有の命令の適用性に焦点を当てている。
特に、非マックス抑圧とその後の特徴選択は、全体的な画像処理遅延への顕著な寄与である。
論文 参考訳(メタデータ) (2020-03-30T14:16:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。