論文の概要: ScaleFreeCTR: MixCache-based Distributed Training System for CTR Models
with Huge Embedding Table
- arxiv url: http://arxiv.org/abs/2104.08542v1
- Date: Sat, 17 Apr 2021 13:36:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-20 14:23:56.721197
- Title: ScaleFreeCTR: MixCache-based Distributed Training System for CTR Models
with Huge Embedding Table
- Title(参考訳): ScaleFreeCTR:大規模埋め込みテーブルを用いたCTRモデルの混合キャッシュ型分散トレーニングシステム
- Authors: Huifeng Guo, Wei Guo, Yong Gao, Ruiming Tang, Xiuqiang He, Wenzhi Liu
- Abstract要約: 様々なCTR(Deep Click-Through Rate)モデルが工業企業によって商用システムに展開されています。
優れた性能を得るためには、大量のトレーニングデータに基づいて深部CTRモデルを効率的に訓練する必要がある。
ScaleFreeCTR:CTRモデルのためのMixCacheベースの分散トレーニングシステムを提案する。
- 参考スコア(独自算出の注目度): 23.264897780201316
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Because of the superior feature representation ability of deep learning,
various deep Click-Through Rate (CTR) models are deployed in the commercial
systems by industrial companies. To achieve better performance, it is necessary
to train the deep CTR models on huge volume of training data efficiently, which
makes speeding up the training process an essential problem. Different from the
models with dense training data, the training data for CTR models is usually
high-dimensional and sparse. To transform the high-dimensional sparse input
into low-dimensional dense real-value vectors, almost all deep CTR models adopt
the embedding layer, which easily reaches hundreds of GB or even TB. Since a
single GPU cannot afford to accommodate all the embedding parameters, when
performing distributed training, it is not reasonable to conduct the
data-parallelism only. Therefore, existing distributed training platforms for
recommendation adopt model-parallelism. Specifically, they use CPU (Host)
memory of servers to maintain and update the embedding parameters and utilize
GPU worker to conduct forward and backward computations. Unfortunately, these
platforms suffer from two bottlenecks: (1) the latency of pull \& push
operations between Host and GPU; (2) parameters update and synchronization in
the CPU servers. To address such bottlenecks, in this paper, we propose the
ScaleFreeCTR: a MixCache-based distributed training system for CTR models.
Specifically, in SFCTR, we also store huge embedding table in CPU but utilize
GPU instead of CPU to conduct embedding synchronization efficiently. To reduce
the latency of data transfer between both GPU-Host and GPU-GPU, the MixCache
mechanism and Virtual Sparse Id operation are proposed. Comprehensive
experiments and ablation studies are conducted to demonstrate the effectiveness
and efficiency of SFCTR.
- Abstract(参考訳): 深層学習の優れた特徴表現能力のため、様々な深部クリックスルーレート(CTR)モデルが工業企業によって商業システムに展開されている。
より優れた性能を得るためには、大量のトレーニングデータに基づいて深部CTRモデルを効率的にトレーニングする必要があるため、トレーニングプロセスの高速化が不可欠である。
密集したトレーニングデータを持つモデルとは異なり、CTRモデルのトレーニングデータは通常、高次元かつ疎らである。
高次元のスパース入力を低次元の高密度実値ベクトルに変換するため、ほとんどの深部CTRモデルは埋め込み層を採用しており、数百 GB や TB にも達する。
単一のGPUは、すべての埋め込みパラメータに対応できないため、分散トレーニングを行う場合、データ並列化のみを実行するのは合理的ではない。
そのため、既存の分散トレーニングプラットフォームではモデル並列化を採用している。
具体的には、組み込みパラメータの維持と更新にサーバのcpu(ホスト)メモリを使用し、gpu workerを使用して前方および後方の計算を行う。
残念ながらこれらのプラットフォームには2つのボトルネックがある。(1)ホストとgpu間のpull \&push操作のレイテンシ、(2)cpuサーバにおけるパラメータの更新と同期。
このようなボトルネックに対処するために,本論文では,CTRモデルのためのMixCacheベースの分散トレーニングシステムであるScaleFreeCTRを提案する。
具体的には、SFCTRでは、CPUに巨大な埋め込みテーブルを格納するが、CPUの代わりにGPUを使用して効率よく埋め込み同期を行う。
GPU-HostとGPU-GPU間のデータ転送のレイテンシを低減するため、MixCache機構とVirtual Sparse Id演算を提案する。
総合的な実験とアブレーション実験を行い,SFCTRの有効性と効率を実証した。
関連論文リスト
- Activations and Gradients Compression for Model-Parallel Training [85.99744701008802]
モデル並列分散トレーニングセットアップにおけるアクティベーションと勾配の同時圧縮が収束に与える影響について検討する。
グラデーションはアクティベーションよりも軽度な圧縮速度を必要とする。
実験では、TopKでトレーニングされたモデルが、推論中に圧縮も適用された場合にのみ正常に動作することが示されている。
論文 参考訳(メタデータ) (2024-01-15T15:54:54Z) - Efficient Asynchronous Federated Learning with Sparsification and
Quantization [55.6801207905772]
フェデレートラーニング(FL)は、生データを転送することなく、機械学習モデルを協調的にトレーニングするために、ますます注目を集めている。
FLは一般的に、モデルトレーニングの全プロセス中にパラメータサーバーと多数のエッジデバイスを利用する。
TEASQ-Fedは、エッジデバイスを利用して、タスクに積極的に適用することで、トレーニングプロセスに非同期に参加する。
論文 参考訳(メタデータ) (2023-12-23T07:47:07Z) - Does compressing activations help model parallel training? [64.59298055364336]
モデル並列性に対する圧縮法の有効性に関する実験的検討を行った。
圧縮アルゴリズムの3つの共通クラスを実装し,評価する。
我々は160以上の設定と8つの一般的なデータセットでこれらの手法を評価した。
論文 参考訳(メタデータ) (2023-01-06T18:58:09Z) - FeatureBox: Feature Engineering on GPUs for Massive-Scale Ads Systems [15.622358361804343]
本稿では,機能抽出の中間I/Oを保存するために,GPUサーバ上での機能抽出とトレーニングをパイプライン化する,新たなエンドツーエンドトレーニングフレームワークを提案する。
オーバーヘッドを最小限に抑えた動的GPUメモリアロケーションをサポートする軽量GPUメモリ管理アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-09-26T02:31:13Z) - Merak: An Efficient Distributed DNN Training Framework with Automated 3D
Parallelism for Giant Foundation Models [14.903847751841221]
資源利用率の高い3次元並列化ディープラーニング学習フレームワークであるMerakを提案する。
Merakは、モデルのプロキシ表現にグラフシャーディングアルゴリズムを使用する自動モデルパーティショナで自動的にデプロイする。
Merakは1.5、2.5、8.3、200億のパラメータを持つモデルの最先端の3D並列化フレームワークをそれぞれ1.42X、1.39X、1.43X、1.61Xまで高速化することができる。
論文 参考訳(メタデータ) (2022-06-10T09:15:48Z) - Communication-Efficient TeraByte-Scale Model Training Framework for
Online Advertising [32.5337643852876]
CTR(Click-Through Rate)予測は、オンライン広告業界において重要な要素である。
大規模な広告モデルのための既存のGPUトレーニングにおける2つの大きな課題を特定します。
ハードウェアトポロジをアルゴリズム設計に結合するハードウェア対応トレーニングワークフローを提案する。
論文 参考訳(メタデータ) (2022-01-05T18:09:11Z) - ElegantRL-Podracer: Scalable and Elastic Library for Cloud-Native Deep
Reinforcement Learning [141.58588761593955]
クラウドネイティブな深層強化学習のためのライブラリElegantRL-podracerを提案する。
数百万のコアを効率的にサポートし、複数のレベルで大規模な並列トレーニングを実行する。
低レベルでは、各ポッドは1つのGPUで7,000近いGPUコアをフル活用することで、エージェントと環境のインタラクションを並列にシミュレートする。
論文 参考訳(メタデータ) (2021-12-11T06:31:21Z) - PatrickStar: Parallel Training of Pre-trained Models via a Chunk-based
Memory Management [19.341284825473558]
事前訓練モデル(PTM)は、人工知能(AI)技術に革命をもたらす。
PTMは、膨大なテキスト上に汎用的な特徴を持つモデルを学び、タスク固有のデータセットを使用してモデルを微調整する。
PatrickStarは、異種メモリ空間を使用することで、コンピューティングプラットフォームのメモリ要求を減らす。
論文 参考訳(メタデータ) (2021-08-12T15:58:12Z) - High-Performance Training by Exploiting Hot-Embeddings in Recommendation
Systems [2.708848417398231]
推奨モデルは、電子商取引およびオンライン広告ベースのアプリケーションのためにユーザーに関連アイテムを提案する一般的な学習モデルです。
これらのモデルは大量の埋め込みテーブルを使用して、アイテムとユーザのカテゴリ変数の数値表現を格納する。
これらの競合する計算とメモリの要件のために、推奨モデルのトレーニングプロセスはCPUとGPUに分割されます。
本稿では、スキューテーブルアクセスを活用して、トレーニング中にGPUリソースを効率的に活用する。
論文 参考訳(メタデータ) (2021-03-01T01:43:26Z) - Training Recommender Systems at Scale: Communication-Efficient Model and
Data Parallelism [56.78673028601739]
通信効率のよいハイブリッドトレーニングのためのDCT(Dynamic Communication Thresholding)という圧縮フレームワークを提案する。
DCTは、それぞれDPとMPの間に、少なくとも$100times$と$20times$の通信を削減します。
最先端の産業レコメンデーションモデルのエンドツーエンドのトレーニング時間を、パフォーマンスを損なうことなく、37%改善する。
論文 参考訳(メタデータ) (2020-10-18T01:44:42Z) - Joint Parameter-and-Bandwidth Allocation for Improving the Efficiency of
Partitioned Edge Learning [73.82875010696849]
機械学習アルゴリズムは、人工知能(AI)モデルをトレーニングするために、ネットワークエッジにデプロイされる。
本稿では,パラメータ(計算負荷)割り当てと帯域幅割り当ての新しい共同設計に焦点を当てる。
論文 参考訳(メタデータ) (2020-03-10T05:52:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。