論文の概要: Distributed Hierarchical GPU Parameter Server for Massive Scale Deep
Learning Ads Systems
- arxiv url: http://arxiv.org/abs/2003.05622v1
- Date: Thu, 12 Mar 2020 05:15:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-24 14:14:10.459678
- Title: Distributed Hierarchical GPU Parameter Server for Massive Scale Deep
Learning Ads Systems
- Title(参考訳): 大規模ディープラーニングシステムのための分散階層型GPUパラメータサーバ
- Authors: Weijie Zhao, Deping Xie, Ronglai Jia, Yulei Qian, Ruiquan Ding,
Mingming Sun, Ping Li
- Abstract要約: 本稿では,大規模ディープラーニング広告システムのための分散GPU階層型パラメータサーバを提案する。
4ノードの階層型GPUパラメータサーバは、MPIクラスタ内の150ノードのインメモリ分散パラメータサーバよりも2倍以上高速にモデルをトレーニングすることができる。
提案方式の価格-性能比は,MPIクラスタソリューションの4-9倍である。
- 参考スコア(独自算出の注目度): 18.8634762028544
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural networks of ads systems usually take input from multiple resources,
e.g., query-ad relevance, ad features and user portraits. These inputs are
encoded into one-hot or multi-hot binary features, with typically only a tiny
fraction of nonzero feature values per example. Deep learning models in online
advertising industries can have terabyte-scale parameters that do not fit in
the GPU memory nor the CPU main memory on a computing node. For example, a
sponsored online advertising system can contain more than $10^{11}$ sparse
features, making the neural network a massive model with around 10 TB
parameters. In this paper, we introduce a distributed GPU hierarchical
parameter server for massive scale deep learning ads systems. We propose a
hierarchical workflow that utilizes GPU High-Bandwidth Memory, CPU main memory
and SSD as 3-layer hierarchical storage. All the neural network training
computations are contained in GPUs. Extensive experiments on real-world data
confirm the effectiveness and the scalability of the proposed system. A 4-node
hierarchical GPU parameter server can train a model more than 2X faster than a
150-node in-memory distributed parameter server in an MPI cluster. In addition,
the price-performance ratio of our proposed system is 4-9 times better than an
MPI-cluster solution.
- Abstract(参考訳): 広告システムのニューラルネットワークは通常、クエリ適応関連性、広告機能、ユーザポートレートなど、複数のリソースから入力を受け取る。
これらの入力は、1つのホットまたはマルチホットなバイナリ機能にエンコードされる。
オンライン広告業界のディープラーニングモデルは、GPUメモリやコンピューティングノード上のCPUメインメモリに適合しないテラバイト規模のパラメータを持つことができる。
例えば、スポンサー付きオンライン広告システムは、10〜11ドル以上のスパース機能を含むことができ、ニューラルネットワークを約10TBのパラメータを持つ巨大なモデルにする。
本稿では,大規模ディープラーニング広告システムのための分散GPU階層パラメータサーバを提案する。
本稿では,GPU高帯域メモリ,CPU主メモリ,SSDを3層階層ストレージとして利用する階層型ワークフローを提案する。
ニューラルネットワークのトレーニング計算はすべてGPUに含まれている。
実世界データに関する広範囲な実験により,提案システムの有効性とスケーラビリティが確認された。
4ノードの階層型GPUパラメータサーバは、MPIクラスタ内の150ノードのインメモリ分散パラメータサーバよりも2倍以上高速にモデルをトレーニングすることができる。
さらに,提案方式の価格-性能比は,MPIクラスタソリューションの4-9倍である。
関連論文リスト
- MoE-Lightning: High-Throughput MoE Inference on Memory-constrained GPUs [55.95879347182669]
MoEアーキテクチャは、推論コストの比例的な増加なしにモデルキャパシティを向上できることで有名である。
MoE-LightningはCPU-GPU-I/OパイプラインスケジュールであるCGOPipeを導入し、ページ重み付けにより高いリソース利用を実現する。
MoE-Lightningは、単一のT4 GPU(16GB)上でMixtral 8x7Bの最先端オフロード可能なLLM推論システムよりも最大10.3倍高いスループットを実現することができる
論文 参考訳(メタデータ) (2024-11-18T01:06:12Z) - Towards Memory-Efficient Training for Extremely Large Output Spaces --
Learning with 500k Labels on a Single Commodity GPU [2.3224617218247134]
巨大な出力空間(数百万ラベルまで)の分類問題では、最後の層は膨大な量のメモリを必要とする。
スパース接続を使用することで、メモリ要求が大幅に削減されるが、モデルの性能が大幅に低下する可能性がある。
提案手法は,わずか4GBのGPU上で670,000ラベルのデータセットにスケール可能であることを示す。
論文 参考訳(メタデータ) (2023-06-06T14:44:52Z) - FlexGen: High-Throughput Generative Inference of Large Language Models
with a Single GPU [89.2451963569343]
FlexGenは、単一のコモディティGPU上で大きな言語モデル(LLM)推論を実行するための世代エンジンである。
1つの16GB GPU上でOPT-175Bを実行する場合、FlexGenは最先端のオフロードシステムに比べてスループットが大幅に向上する。
HELMベンチマークでは、FlexGenは7つの代表サブシナリオに16GBのGPUで30Bモデルを21時間でベンチマークすることができる。
論文 参考訳(メタデータ) (2023-03-13T05:19:28Z) - A Frequency-aware Software Cache for Large Recommendation System
Embeddings [11.873521953539361]
ディープラーニングレコメンデーションモデル(DLRM)はインターネット企業で広く採用されている。
本稿では,CPU と GPU メモリ空間の埋め込みテーブルを動的に管理するために,GPU ベースのソフトウェアキャッシュ手法を提案する。
提案するソフトウェアキャッシュは,GPU上のDLRM全体を同期更新方式でトレーニングする上で効率がよい。
論文 参考訳(メタデータ) (2022-08-08T12:08:05Z) - Instant Neural Graphics Primitives with a Multiresolution Hash Encoding [67.33850633281803]
品質を犠牲にすることなく、より小さなネットワークを使用できる汎用的な新しい入力符号化を提案する。
小さなニューラルネットワークは、勾配降下によって値が最適化された訓練可能な特徴ベクトルの多分解能ハッシュテーブルによって拡張される。
数桁の高速化を実現し、高品質なニューラルネットワークプリミティブを数秒でトレーニングすることができる。
論文 参考訳(メタデータ) (2022-01-16T07:22:47Z) - Communication-Efficient TeraByte-Scale Model Training Framework for
Online Advertising [32.5337643852876]
CTR(Click-Through Rate)予測は、オンライン広告業界において重要な要素である。
大規模な広告モデルのための既存のGPUトレーニングにおける2つの大きな課題を特定します。
ハードウェアトポロジをアルゴリズム設計に結合するハードウェア対応トレーニングワークフローを提案する。
論文 参考訳(メタデータ) (2022-01-05T18:09:11Z) - M6-10T: A Sharing-Delinking Paradigm for Efficient Multi-Trillion
Parameter Pretraining [55.16088793437898]
極端なモデルのトレーニングには大量の計算とメモリフットプリントが必要です。
本稿では,高メモリフットプリント要求大モデルのための簡単なトレーニング戦略"Pseudo-to-Real"を提案する。
論文 参考訳(メタデータ) (2021-10-08T04:24:51Z) - Efficient and Generic 1D Dilated Convolution Layer for Deep Learning [52.899995651639436]
幅広いパラメータをカバーする汎用的な1D畳み込み層の効率的な実装を紹介します。
特にIntel AVX-512とAVX-512 BFloat16命令を含むアーキテクチャ向けに最適化されている。
本稿では,最適化された1次元畳み込み層の性能を,実際のゲノミクスデータセットを用いたエンドツーエンドニューラルネットワークトレーニングで実証する。
論文 参考訳(メタデータ) (2021-04-16T09:54:30Z) - DistGNN: Scalable Distributed Training for Large-Scale Graph Neural
Networks [58.48833325238537]
大規模グラフの構造を学ぶためにGNN(Graph Neural Networks)のフルバッチトレーニングは、実現可能な数百の計算ノードにスケールする必要がある重要な問題です。
本稿では,CPUクラスタ上でのフルバッチトレーニングのためのDGL(Deep Graph Library)を最適化したGNNについて述べる。
4つの一般的なGNNベンチマークデータセットの結果は、1つのCPUソケットを使用して最大3.7倍のスピードアップ、128のCPUソケットを使用して最大97倍のスピードアップを示す。
論文 参考訳(メタデータ) (2021-04-14T08:46:35Z) - Large Graph Convolutional Network Training with GPU-Oriented Data
Communication Architecture [19.2129567657739]
グラフ畳み込みネットワーク(gcns)は大規模グラフベースのレコメンデーションシステムでますます採用されている。
現在のGCNトレーニングシステムは、フィーチャーテーブルをホストメモリに保持し、スパース機能の収集にCPUに依存している。
しかしこのアプローチは、ホストメモリの帯域幅とCPUに大きなプレッシャーを与えます。
本稿では,GPUスレッドがホストメモリのスパース機能に直接アクセスするGCNトレーニングのための新しいGPU指向データ通信手法を提案する。
論文 参考訳(メタデータ) (2021-03-04T21:00:17Z) - At-Scale Sparse Deep Neural Network Inference with Efficient GPU
Implementation [24.824295164938604]
本稿では,Sparse Deep Neural Network Challenge 2020の推論モデルに対するGPU性能の最適化とスケーリング結果について述べる。
スパースディープニューラルネットワーク(SpDNN)は、大規模なニューラルネットワークのメモリフットプリントを制御することを約束している。
本研究では,ReLU関数と融合したスパース行列乗算カーネルを提案する。
論文 参考訳(メタデータ) (2020-07-28T12:09:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。