論文の概要: Persia: A Hybrid System Scaling Deep Learning Based Recommenders up to
100 Trillion Parameters
- arxiv url: http://arxiv.org/abs/2111.05897v1
- Date: Wed, 10 Nov 2021 19:40:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-13 05:59:37.815708
- Title: Persia: A Hybrid System Scaling Deep Learning Based Recommenders up to
100 Trillion Parameters
- Title(参考訳): Persia: ディープラーニングベースのレコメンダを最大100トリリオンパラメータまでスケールアップするハイブリッドシステム
- Authors: Xiangru Lian, Binhang Yuan, Xuefeng Zhu, Yulong Wang, Yongjun He,
Honghuan Wu, Lei Sun, Haodong Lyu, Chengjun Liu, Xing Dong, Yiqiao Liao,
Mingnan Luo, Congfei Zhang, Jingru Xie, Haonan Li, Lei Chen, Renjie Huang,
Jianying Lin, Chengchun Shu, Xuezhong Qiu, Zhishan Liu, Dongying Kong, Lei
Yuan, Hai Yu, Sen Yang, Ce Zhang, Ji Liu
- Abstract要約: ディープラーニングモデルは、現在のプロダクションレコメンデータシステムのランドスケープを支配しています。
近年、Googleの2016年モデルから、12兆のパラメータを持つ最新のFacebookモデルまで、モデルスケールの指数的な成長が見られた。
しかし、そのようなモデルのトレーニングは、産業規模のデータセンターでも困難である。
- 参考スコア(独自算出の注目度): 36.1028179125367
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Deep learning based models have dominated the current landscape of production
recommender systems. Furthermore, recent years have witnessed an exponential
growth of the model scale--from Google's 2016 model with 1 billion parameters
to the latest Facebook's model with 12 trillion parameters. Significant quality
boost has come with each jump of the model capacity, which makes us believe the
era of 100 trillion parameters is around the corner. However, the training of
such models is challenging even within industrial scale data centers. This
difficulty is inherited from the staggering heterogeneity of the training
computation--the model's embedding layer could include more than 99.99% of the
total model size, which is extremely memory-intensive; while the rest neural
network is increasingly computation-intensive. To support the training of such
huge models, an efficient distributed training system is in urgent need. In
this paper, we resolve this challenge by careful co-design of both the
optimization algorithm and the distributed system architecture. Specifically,
in order to ensure both the training efficiency and the training accuracy, we
design a novel hybrid training algorithm, where the embedding layer and the
dense neural network are handled by different synchronization mechanisms; then
we build a system called Persia (short for parallel recommendation training
system with hybrid acceleration) to support this hybrid training algorithm.
Both theoretical demonstration and empirical study up to 100 trillion
parameters have conducted to justified the system design and implementation of
Persia. We make Persia publicly available (at
https://github.com/PersiaML/Persia) so that anyone would be able to easily
train a recommender model at the scale of 100 trillion parameters.
- Abstract(参考訳): ディープラーニングベースのモデルは、現在のプロダクションレコメンデータシステムのランドスケープを支配しています。
Furthermore, recent years have witnessed an exponential growth of the model scale--from Google's 2016 model with 1 billion parameters to the latest Facebook's model with 12 trillion parameters. Significant quality boost has come with each jump of the model capacity, which makes us believe the era of 100 trillion parameters is around the corner. However, the training of such models is challenging even within industrial scale data centers. This difficulty is inherited from the staggering heterogeneity of the training computation--the model's embedding layer could include more than 99.99% of the total model size, which is extremely memory-intensive; while the rest neural network is increasingly computation-intensive.
このような巨大なモデルのトレーニングを支援するために、効率的な分散トレーニングシステムが必要である。
本稿では,最適化アルゴリズムと分散システムアーキテクチャの両方を慎重に設計することにより,この課題を解決する。
具体的には、トレーニング効率とトレーニング精度の両立を確保するために、埋め込み層と高密度ニューラルネットワークを異なる同期機構で処理するハイブリッドトレーニングアルゴリズムを設計し、このハイブリッドトレーニングアルゴリズムをサポートするために、persia(ハイブリッド加速度を用いた並列推奨トレーニングシステム)と呼ばれるシステムを構築する。
理論実証と100兆のパラメータに関する実証研究は、ペルシャのシステム設計と実装を正当化するために行われた。
私たちはpersiaを(https://github.com/persiaml/persiaで)公開し、誰でも100兆のパラメータのスケールで推奨モデルを簡単にトレーニングできるようにしています。
関連論文リスト
- Partitioned Neural Network Training via Synthetic Intermediate Labels [0.0]
GPUメモリの制約は、そのような巨大なモデルをトレーニングする上で、注目すべきボトルネックになっている。
この研究は、モデルをGPU間で分割し、個々のセグメントをトレーニングするために合成中間ラベルを生成することを提唱する。
このアプローチは、モデル精度を維持しながらデータ通信を最小限に抑える、より効率的なトレーニングプロセスをもたらす。
論文 参考訳(メタデータ) (2024-03-17T13:06:29Z) - Training Deep Surrogate Models with Large Scale Online Learning [48.7576911714538]
ディープラーニングアルゴリズムは、PDEの高速解を得るための有効な代替手段として登場した。
モデルは通常、ソルバによって生成された合成データに基づいてトレーニングされ、ディスクに格納され、トレーニングのために読み返される。
ディープサロゲートモデルのためのオープンソースのオンライントレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-28T12:02:27Z) - Bayesian Generational Population-Based Training [35.70338636901159]
Population-Based Training (PBT)は、いくつかの大規模な設定で素晴らしいパフォーマンスを実現している。
PBTスタイルの手法に2つの新しい革新を導入する。
これらのイノベーションが大きなパフォーマンス向上につながっていることを示しています。
論文 参考訳(メタデータ) (2022-07-19T16:57:38Z) - Decentralized Training of Foundation Models in Heterogeneous
Environments [77.47261769795992]
GPT-3 や PaLM のようなトレーニング基盤モデルは、非常に高価である。
ヘテロジニアスネットワーク上での分散型システムにおけるモデル並列化を用いた大規模基盤モデルのトレーニングに関する最初の研究について述べる。
論文 参考訳(メタデータ) (2022-06-02T20:19:51Z) - Colossal-AI: A Unified Deep Learning System For Large-Scale Parallel
Training [23.633810934134065]
Colossal-AIは、大規模モデルで最大2.76回のトレーニングスピードアップを達成することができる。
システムは、データ、パイプライン、テンソル、シーケンス並列化などの並列トレーニングメソッドをサポートする。
論文 参考訳(メタデータ) (2021-10-28T04:45:55Z) - LCS: Learning Compressible Subspaces for Adaptive Network Compression at
Inference Time [57.52251547365967]
本稿では,ニューラルネットワークの「圧縮可能な部分空間」を訓練する手法を提案する。
構造的・非構造的空間に対する推定時間における微粒な精度・効率のトレードオフを任意に達成するための結果を示す。
我々のアルゴリズムは、可変ビット幅での量子化にまで拡張し、個別に訓練されたネットワークと同等の精度を実現する。
論文 参考訳(メタデータ) (2021-10-08T17:03:34Z) - M6-10T: A Sharing-Delinking Paradigm for Efficient Multi-Trillion
Parameter Pretraining [55.16088793437898]
極端なモデルのトレーニングには大量の計算とメモリフットプリントが必要です。
本稿では,高メモリフットプリント要求大モデルのための簡単なトレーニング戦略"Pseudo-to-Real"を提案する。
論文 参考訳(メタデータ) (2021-10-08T04:24:51Z) - Large-Scale Training System for 100-Million Classification at Alibaba [43.58719630882661]
極度の分類は 深層学習に欠かせない話題になっています
最後の出力層におけるメモリと爆発のため、数百万のクラスでディープモデルをトレーニングするのは非常に困難です。
トレーニングプロセスを実現可能にするために、ハイブリッド並列トレーニングフレームワークを構築しています。
第2に,GPUメモリ使用量と計算コストの両方を削減するKNNソフトマックスという新しいソフトマックス変種を提案する。
論文 参考訳(メタデータ) (2021-02-09T06:53:31Z) - Deep Generative Models that Solve PDEs: Distributed Computing for
Training Large Data-Free Models [25.33147292369218]
科学機械学習(SciML)の最近の進歩は、複雑な偏微分方程式(PDE)を解く新しいニューラルネットワークアーキテクチャを訓練する可能性を開く。
本稿では、これらの大規模SciMLモデルをトレーニングする2つの課題を解決するために、データ並列分散ディープラーニングのためのソフトウェアフレームワークについて報告する。
私たちのフレームワークは、(a)プロセス数に依存しない損失整合性、(b)同期バッチ正規化、(c)分散高階最適化方法など、いくつかのアウトオブボックス機能を提供します。
論文 参考訳(メタデータ) (2020-07-24T22:42:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。