論文の概要: Communication-Efficient TeraByte-Scale Model Training Framework for
Online Advertising
- arxiv url: http://arxiv.org/abs/2201.05500v1
- Date: Wed, 5 Jan 2022 18:09:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-23 21:56:12.373674
- Title: Communication-Efficient TeraByte-Scale Model Training Framework for
Online Advertising
- Title(参考訳): オンライン広告のための通信効率の良いテラバイトスケールモデルトレーニングフレームワーク
- Authors: Weijie Zhao, Xuewu Jiao, Mingqing Hu, Xiaoyun Li, Xiangyu Zhang, Ping
Li
- Abstract要約: CTR(Click-Through Rate)予測は、オンライン広告業界において重要な要素である。
大規模な広告モデルのための既存のGPUトレーニングにおける2つの大きな課題を特定します。
ハードウェアトポロジをアルゴリズム設計に結合するハードウェア対応トレーニングワークフローを提案する。
- 参考スコア(独自算出の注目度): 32.5337643852876
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Click-Through Rate (CTR) prediction is a crucial component in the online
advertising industry. In order to produce a personalized CTR prediction, an
industry-level CTR prediction model commonly takes a high-dimensional (e.g.,
100 or 1000 billions of features) sparse vector (that is encoded from query
keywords, user portraits, etc.) as input. As a result, the model requires
Terabyte scale parameters to embed the high-dimensional input. Hierarchical
distributed GPU parameter server has been proposed to enable GPU with limited
memory to train the massive network by leveraging CPU main memory and SSDs as
secondary storage. We identify two major challenges in the existing GPU
training framework for massive-scale ad models and propose a collection of
optimizations to tackle these challenges: (a) the GPU, CPU, SSD rapidly
communicate with each other during the training. The connections between GPUs
and CPUs are non-uniform due to the hardware topology. The data communication
route should be optimized according to the hardware topology; (b) GPUs in
different computing nodes frequently communicates to synchronize parameters. We
are required to optimize the communications so that the distributed system can
become scalable.
In this paper, we propose a hardware-aware training workflow that couples the
hardware topology into the algorithm design. To reduce the extensive
communication between computing nodes, we introduce a $k$-step model merging
algorithm for the popular Adam optimizer and provide its convergence rate in
non-convex optimization. To the best of our knowledge, this is the first
application of $k$-step adaptive optimization method in industrial-level CTR
model training. The numerical results on real-world data confirm that the
optimized system design considerably reduces the training time of the massive
model, with essentially no loss in accuracy.
- Abstract(参考訳): CTR(Click-Through Rate)予測は、オンライン広告業界において重要な要素である。
パーソナライズされたCTR予測を生成するために、業界レベルのCTR予測モデルは、通常、高次元(例えば100から1000億のフィーチャ)のスパースベクトル(クエリキーワード、ユーザポートレートなどからエンコードされる)を入力として取り込む。
結果として、モデルは高次元入力を埋め込むためにテラバイトスケールパラメータを必要とする。
cpuメインメモリとssdをセカンダリストレージとして活用することにより、メモリに制限のあるgpuによる大規模ネットワークのトレーニングを可能にするために階層型分散gpuパラメータサーバが提案されている。
我々は、大規模広告モデルのための既存のgpuトレーニングフレームワークにおける2つの主要な課題を特定し、これらの課題に取り組むための最適化の集まりを提案する。
(a)GPU、CPU、SSDは、トレーニング中に互いに急速に通信します。
GPUとCPUの接続は、ハードウェアトポロジのため一様ではない。
データ通信経路はハードウェアトポロジに従って最適化されるべきである。
b) 異なる計算ノードのGPUは、しばしばパラメータを同期するために通信します。
分散システムがスケーラブルになるためには、通信を最適化する必要がある。
本稿では,ハードウェアトポロジをアルゴリズム設計に結合するハードウェア対応トレーニングワークフローを提案する。
計算ノード間の広範な通信を減らすため,人気のあるadamオプティマイザに対して,k$-stepモデルマージアルゴリズムを導入し,非凸最適化においてその収束率を提供する。
我々の知る限り、これは産業レベルのCTRモデルトレーニングにおける$k$-step適応最適化法の最初の応用である。
実世界のデータにおける数値結果から、最適化されたシステム設計は、精度を損なうことなく、大規模モデルのトレーニング時間を著しく短縮することを確認した。
関連論文リスト
- FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - Partitioned Neural Network Training via Synthetic Intermediate Labels [0.0]
GPUメモリの制約は、そのような巨大なモデルをトレーニングする上で、注目すべきボトルネックになっている。
この研究は、モデルをGPU間で分割し、個々のセグメントをトレーニングするために合成中間ラベルを生成することを提唱する。
このアプローチは、モデル精度を維持しながらデータ通信を最小限に抑える、より効率的なトレーニングプロセスをもたらす。
論文 参考訳(メタデータ) (2024-03-17T13:06:29Z) - CORE: Common Random Reconstruction for Distributed Optimization with
Provable Low Communication Complexity [110.50364486645852]
コミュニケーションの複雑さは、トレーニングをスピードアップし、マシン番号をスケールアップする上で、大きなボトルネックになっています。
本稿では,機械間で送信される情報を圧縮するための共通Om REOmを提案する。
論文 参考訳(メタデータ) (2023-09-23T08:45:27Z) - Towards a Better Theoretical Understanding of Independent Subnetwork Training [56.24689348875711]
独立サブネットワークトレーニング(IST)の理論的考察
ISTは、上記の問題を解決するための、最近提案され、非常に効果的である。
圧縮通信を用いた分散手法など,ISTと代替手法の基本的な違いを同定する。
論文 参考訳(メタデータ) (2023-06-28T18:14:22Z) - ParaGraph: Weighted Graph Representation for Performance Optimization of
HPC Kernels [1.304892050913381]
抽象構文木を拡張した並列アプリケーションのためのグラフベースの新しいプログラム表現を提案する。
提案した表現は,OpenMPコード領域のランタイムを予測するために,グラフニューラルネットワーク(GNN)をトレーニングすることで評価する。
その結果,本手法は実効性があり,実行時予測では 0.004 から 0.01 に RMSE を正規化していることがわかった。
論文 参考訳(メタデータ) (2023-04-07T05:52:59Z) - Scalable Graph Convolutional Network Training on Distributed-Memory
Systems [5.169989177779801]
グラフ畳み込みネットワーク(GCN)はグラフの深層学習に広く利用されている。
グラフ上の畳み込み操作は不規則なメモリアクセスパターンを誘導するので、GCNトレーニングのためのメモリと通信効率の並列アルゴリズムを設計することはユニークな課題である。
本稿では,大規模プロセッサ数にスケールする並列トレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-09T17:51:13Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Adaptive Elastic Training for Sparse Deep Learning on Heterogeneous
Multi-GPU Servers [65.60007071024629]
本稿では,Adaptive SGDが4つの最先端ソリューションよりも精度が高いことを示す。
本稿では,Adaptive SGDが時間と精度で4つの最先端ソリューションより優れていることを示す。
論文 参考訳(メタデータ) (2021-10-13T20:58:15Z) - ScaleFreeCTR: MixCache-based Distributed Training System for CTR Models
with Huge Embedding Table [23.264897780201316]
様々なCTR(Deep Click-Through Rate)モデルが工業企業によって商用システムに展開されています。
優れた性能を得るためには、大量のトレーニングデータに基づいて深部CTRモデルを効率的に訓練する必要がある。
ScaleFreeCTR:CTRモデルのためのMixCacheベースの分散トレーニングシステムを提案する。
論文 参考訳(メタデータ) (2021-04-17T13:36:19Z) - Training Recommender Systems at Scale: Communication-Efficient Model and
Data Parallelism [56.78673028601739]
通信効率のよいハイブリッドトレーニングのためのDCT(Dynamic Communication Thresholding)という圧縮フレームワークを提案する。
DCTは、それぞれDPとMPの間に、少なくとも$100times$と$20times$の通信を削減します。
最先端の産業レコメンデーションモデルのエンドツーエンドのトレーニング時間を、パフォーマンスを損なうことなく、37%改善する。
論文 参考訳(メタデータ) (2020-10-18T01:44:42Z) - Heterogeneous CPU+GPU Stochastic Gradient Descent Algorithms [1.3249453757295084]
ヘテロジニアスCPU+GPUアーキテクチャの深層学習のためのトレーニングアルゴリズムについて検討する。
私たちの2倍の目標 -- 収束率と資源利用を同時に最大化する -- は、この問題を難しくします。
これらのアルゴリズムの実装は,複数の実データセットよりも高速な収束と資源利用の両立を実現していることを示す。
論文 参考訳(メタデータ) (2020-04-19T05:21:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。