論文の概要: Heterogeneous Acceleration Pipeline for Recommendation System Training
- arxiv url: http://arxiv.org/abs/2204.05436v1
- Date: Mon, 11 Apr 2022 23:10:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-13 12:11:03.591666
- Title: Heterogeneous Acceleration Pipeline for Recommendation System Training
- Title(参考訳): レコメンデーションシステムトレーニングのための不均一加速パイプライン
- Authors: Muhammad Adnan, Yassaman Ebrahimzadeh Maboud, Divya Mahajan, Prashant
J. Nair
- Abstract要約: レコメンデーションシステムは、深層学習と大規模な埋め込みテーブルによる計算強度とメモリ強度の融合を示す。
本稿では、これらの懸念を克服するために、Hotlineと呼ばれる異種加速パイプラインを提供する。
Hotlineは、Intelが最適化したCPU-GPU DLRMとHugeCTRが最適化したGPUのみのベースラインと比較して、平均トレーニング時間を3倍と1.8倍に短縮する。
- 参考スコア(独自算出の注目度): 2.346585343935306
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recommendation systems are unique as they show a conflation of compute and
memory intensity due to their deep learning and massive embedding tables.
Training these models typically involve a hybrid CPU-GPU mode, where GPUs
accelerate the deep learning portion and the CPUs store and process the
memory-intensive embedding tables. The hybrid mode incurs a substantial
CPU-to-GPU transfer time and relies on main memory bandwidth to feed embeddings
to GPU for deep learning acceleration. Alternatively, we can store the entire
embeddings across GPUs to avoid the transfer time and utilize the GPU's High
Bandwidth Memory (HBM). This approach requires GPU-to-GPU backend communication
and scales the number of GPUs with the size of the embedding tables. To
overcome these concerns, this paper offers a heterogeneous acceleration
pipeline, called Hotline.
Hotline leverages the insight that only a small number of embedding entries
are accessed frequently, and can easily fit in a single GPU's HBM. Hotline
implements a data-aware and model-aware scheduling pipeline that utilizes the
(1) CPU main memory for not-frequently-accessed embeddings and (2) GPUs' local
memory for frequently-accessed embeddings. Hotline improves the training
throughput by dynamically stitching the execution of popular and not-popular
inputs through a novel hardware accelerator and feeding to the GPUs. Results on
real-world datasets and recommender models show that Hotline reduces the
average training time by 3x and 1.8x in comparison to Intel-optimized CPU-GPU
DLRM and HugeCTR-optimized GPU-only baseline, respectively. Hotline increases
the overall training throughput to 35.7 epochs/hour in comparison to 5.3
epochs/hour for the Intel-optimized DLRM baseline
- Abstract(参考訳): 推奨システムは、深層学習と大規模な埋め込みテーブルによる計算とメモリの強度の融合を示すため、ユニークなシステムである。
これらのモデルのトレーニングは通常、GPUが深層学習部を加速し、CPUがメモリ集約型埋め込みテーブルを格納し、処理するハイブリッドCPU-GPUモードを含む。
ハイブリッドモードはCPUからGPUへの転送時間を大幅に増加させ、メインメモリ帯域に依存して、ディープラーニングアクセラレーションのためにGPUに埋め込みをフィードする。
あるいは、GPU全体の埋め込みを格納して、転送時間を避け、GPUのHigh Bandwidth Memory(HBM)を利用することもできます。
このアプローチでは、GPUからGPUまでのバックエンド通信を必要とし、埋め込みテーブルのサイズでGPUの数をスケールアップする。
これらの懸念を克服するため,本稿ではhotlineと呼ばれる異種加速パイプラインを提案する。
Hotlineは、少数の埋め込みエントリのみが頻繁にアクセスされ、単一のGPUのHBMに容易に適合する、という洞察を活用する。
hotlineはデータ認識とモデル認識のスケジューリングパイプラインを実装しており、(1)cpuメインメモリを頻繁にアクセスされない組込みに、(2)gpuのローカルメモリを頻繁にアクセスする組込みに利用する。
hotlineは、新しいハードウェアアクセラレーションを通じて人気および非人気入力の実行を動的に縫い込み、gpuに供給することで、トレーニングスループットを向上させる。
実世界のデータセットとレコメンダモデルの結果、ホットラインは、intel最適化のcpu-gpu dlrmとbigctr最適化のgpuのみのベースラインと比較して、平均トレーニング時間を3倍と1.8倍削減できることが示されている。
Hotlineはトレーニング全体のスループットを、Intel最適化DLRMベースラインの5.3エポック/時間と比較すると、35.7エポック/時間に向上する。
関連論文リスト
- Deep Optimizer States: Towards Scalable Training of Transformer Models Using Interleaved Offloading [2.8231000588510757]
トランスフォーマーと大規模言語モデル(LLM)は、すべてのドメインで急速に採用されている。
変圧器の訓練は非常に高価で、しばしば記憶壁にぶつかる」
本稿では,LLMをCPUまたはGPU上で更新フェーズをスケジュールしたサブグループに分割する手法を提案する。
論文 参考訳(メタデータ) (2024-10-26T00:43:59Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z) - Communication-Efficient Graph Neural Networks with Probabilistic
Neighborhood Expansion Analysis and Caching [59.8522166385372]
大規模グラフ上でのグラフニューラルネットワーク(GNN)のトレーニングと推論は、GNNの登場以来活発に研究されている。
本稿では,分散環境におけるノードワイドサンプリングを用いたGNNによるミニバッチ学習と推論について述べる。
分割された特徴データを扱うために,従来のSALIENTシステムを拡張したSALIENT++を提案する。
論文 参考訳(メタデータ) (2023-05-04T21:04:01Z) - FlexGen: High-Throughput Generative Inference of Large Language Models
with a Single GPU [89.2451963569343]
FlexGenは、単一のコモディティGPU上で大きな言語モデル(LLM)推論を実行するための世代エンジンである。
1つの16GB GPU上でOPT-175Bを実行する場合、FlexGenは最先端のオフロードシステムに比べてスループットが大幅に向上する。
HELMベンチマークでは、FlexGenは7つの代表サブシナリオに16GBのGPUで30Bモデルを21時間でベンチマークすることができる。
論文 参考訳(メタデータ) (2023-03-13T05:19:28Z) - A Frequency-aware Software Cache for Large Recommendation System
Embeddings [11.873521953539361]
ディープラーニングレコメンデーションモデル(DLRM)はインターネット企業で広く採用されている。
本稿では,CPU と GPU メモリ空間の埋め込みテーブルを動的に管理するために,GPU ベースのソフトウェアキャッシュ手法を提案する。
提案するソフトウェアキャッシュは,GPU上のDLRM全体を同期更新方式でトレーニングする上で効率がよい。
論文 参考訳(メタデータ) (2022-08-08T12:08:05Z) - Adaptive Elastic Training for Sparse Deep Learning on Heterogeneous
Multi-GPU Servers [65.60007071024629]
本稿では,Adaptive SGDが4つの最先端ソリューションよりも精度が高いことを示す。
本稿では,Adaptive SGDが時間と精度で4つの最先端ソリューションより優れていることを示す。
論文 参考訳(メタデータ) (2021-10-13T20:58:15Z) - DistGNN: Scalable Distributed Training for Large-Scale Graph Neural
Networks [58.48833325238537]
大規模グラフの構造を学ぶためにGNN(Graph Neural Networks)のフルバッチトレーニングは、実現可能な数百の計算ノードにスケールする必要がある重要な問題です。
本稿では,CPUクラスタ上でのフルバッチトレーニングのためのDGL(Deep Graph Library)を最適化したGNNについて述べる。
4つの一般的なGNNベンチマークデータセットの結果は、1つのCPUソケットを使用して最大3.7倍のスピードアップ、128のCPUソケットを使用して最大97倍のスピードアップを示す。
論文 参考訳(メタデータ) (2021-04-14T08:46:35Z) - Large Graph Convolutional Network Training with GPU-Oriented Data
Communication Architecture [19.2129567657739]
グラフ畳み込みネットワーク(gcns)は大規模グラフベースのレコメンデーションシステムでますます採用されている。
現在のGCNトレーニングシステムは、フィーチャーテーブルをホストメモリに保持し、スパース機能の収集にCPUに依存している。
しかしこのアプローチは、ホストメモリの帯域幅とCPUに大きなプレッシャーを与えます。
本稿では,GPUスレッドがホストメモリのスパース機能に直接アクセスするGCNトレーニングのための新しいGPU指向データ通信手法を提案する。
論文 参考訳(メタデータ) (2021-03-04T21:00:17Z) - High-Performance Training by Exploiting Hot-Embeddings in Recommendation
Systems [2.708848417398231]
推奨モデルは、電子商取引およびオンライン広告ベースのアプリケーションのためにユーザーに関連アイテムを提案する一般的な学習モデルです。
これらのモデルは大量の埋め込みテーブルを使用して、アイテムとユーザのカテゴリ変数の数値表現を格納する。
これらの競合する計算とメモリの要件のために、推奨モデルのトレーニングプロセスはCPUとGPUに分割されます。
本稿では、スキューテーブルアクセスを活用して、トレーニング中にGPUリソースを効率的に活用する。
論文 参考訳(メタデータ) (2021-03-01T01:43:26Z) - Heterogeneous CPU+GPU Stochastic Gradient Descent Algorithms [1.3249453757295084]
ヘテロジニアスCPU+GPUアーキテクチャの深層学習のためのトレーニングアルゴリズムについて検討する。
私たちの2倍の目標 -- 収束率と資源利用を同時に最大化する -- は、この問題を難しくします。
これらのアルゴリズムの実装は,複数の実データセットよりも高速な収束と資源利用の両立を実現していることを示す。
論文 参考訳(メタデータ) (2020-04-19T05:21:20Z) - Efficient Video Semantic Segmentation with Labels Propagation and
Refinement [138.55845680523908]
本稿では,ハイブリッドGPU/CPUを用いた高精細ビデオのリアルタイムセマンティックセマンティックセマンティック化の問題に取り組む。
i) CPU上では、非常に高速な光フロー法であり、ビデオの時間的側面を利用して、あるフレームから次のフレームへ意味情報を伝達するために使用される。
高解像度フレーム(2048 x 1024)を持つ一般的なCityscapesデータセットでは、単一のGPUとCPU上で80から1000Hzの動作ポイントが提案されている。
論文 参考訳(メタデータ) (2019-12-26T11:45:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。