論文の概要: Maximizing Parallelism in Distributed Training for Huge Neural Networks
- arxiv url: http://arxiv.org/abs/2105.14450v1
- Date: Sun, 30 May 2021 07:41:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-01 16:49:12.373872
- Title: Maximizing Parallelism in Distributed Training for Huge Neural Networks
- Title(参考訳): 大規模ニューラルネットワークの分散学習における並列性の最大化
- Authors: Zhengda Bian and Qifan Xu and Boxiang Wang and Yang You
- Abstract要約: 本稿では,大規模言語モデルの高速化を目的とした3次元モデル並列化手法を提案する。
提案手法は,既存の1-Dモデルと2-Dモデルによる並列処理よりも,メモリと通信コストを小さくする。
- 参考スコア(独自算出の注目度): 7.471658821614902
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recent Natural Language Processing techniques have been refreshing the
state-of-the-art performance at an incredible speed. Training huge language
models is therefore an imperative demand in both industry and academy. However,
huge language models impose challenges to both hardware and software. Graphical
processing units (GPUs) are iterated frequently to meet the exploding demand,
and a variety of ASICs like TPUs are spawned. However, there is still a tension
between the fast growth of the extremely huge models and the fact that Moore's
law is approaching the end. To this end, many model parallelism techniques are
proposed to distribute the model parameters to multiple devices, so as to
alleviate the tension on both memory and computation. Our work is the first to
introduce a 3-dimensional model parallelism for expediting huge language
models. By reaching a perfect load balance, our approach presents smaller
memory and communication cost than existing state-of-the-art 1-D and 2-D model
parallelism. Our experiments on 64 TACC's V100 GPUs show that our 3-D
parallelism outperforms the 1-D and 2-D parallelism with 2.32x and 1.57x
speedup, respectively.
- Abstract(参考訳): 最近の自然言語処理技術は、最先端のパフォーマンスを驚くほどのスピードでリフレッシュしている。
したがって、巨大な言語モデルのトレーニングは、産業とアカデミーの両方において必須の需要である。
しかし、巨大な言語モデルはハードウェアとソフトウェアの両方に課題を課している。
グラフィカル処理ユニット(GPU)は爆発的な需要を満たすために頻繁にイテレーションされ、TPUのような様々なASICが生成される。
しかし、非常に巨大なモデルの急速な成長とムーアの法則が終わりに近づいているという事実の間にはまだ緊張関係がある。
この目的のために、モデルパラメータを複数のデバイスに分散し、メモリと計算の両方の張力を軽減するために、多くのモデル並列化手法が提案されている。
我々の研究は,大規模言語モデルを実現するための3次元モデル並列処理を導入する最初の試みである。
完全なロードバランスに達することで、既存の1次元および2次元モデル並列処理よりも、メモリと通信コストが小さくなります。
64TACCのV100 GPUに対する実験により、我々の3次元並列処理は、それぞれ2.32倍と1.57倍のスピードアップで1次元と2次元の並列処理より優れていた。
関連論文リスト
- Deep Optimizer States: Towards Scalable Training of Transformer Models Using Interleaved Offloading [2.8231000588510757]
トランスフォーマーと大規模言語モデル(LLM)は、すべてのドメインで急速に採用されている。
変圧器の訓練は非常に高価で、しばしば記憶壁にぶつかる」
本稿では,LLMをCPUまたはGPU上で更新フェーズをスケジュールしたサブグループに分割する手法を提案する。
論文 参考訳(メタデータ) (2024-10-26T00:43:59Z) - Retentive Network: A Successor to Transformer for Large Language Models [91.6652200825638]
大規模言語モデルの基盤アーキテクチャとしてRetentive Network(RetNet)を提案する。
理論的には、再発と注意の関係を導出する。
言語モデリングの実験結果から、RetNetは優れたスケーリング結果、並列トレーニング、低コストなデプロイメント、効率的な推論を実現している。
論文 参考訳(メタデータ) (2023-07-17T16:40:01Z) - SWARM Parallelism: Training Large Models Can Be Surprisingly
Communication-Efficient [69.61083127540776]
ディープラーニングアプリケーションは、数十億のパラメータを持つ大きなモデルを使用することの恩恵を受ける。
これらのモデルのトレーニングは、特殊なHPCクラスタを必要とするため、非常に高価である。
安価な"プリエンプティブル"インスタンスを使用するか、あるいは複数のリージョンから既存のリソースをプールする。
論文 参考訳(メタデータ) (2023-01-27T18:55:19Z) - Does compressing activations help model parallel training? [64.59298055364336]
モデル並列性に対する圧縮法の有効性に関する実験的検討を行った。
圧縮アルゴリズムの3つの共通クラスを実装し,評価する。
我々は160以上の設定と8つの一般的なデータセットでこれらの手法を評価した。
論文 参考訳(メタデータ) (2023-01-06T18:58:09Z) - Cramming: Training a Language Model on a Single GPU in One Day [64.18297923419627]
言語モデリングの最近のトレンドは、スケーリングによるパフォーマンス向上に焦点を当てている。
我々は,1つのコンシューマGPU上で1日間,マスク付き言語モデルを用いてゼロから完全に訓練されたトランスフォーマーベース言語モデルで達成可能なダウンストリーム性能について検討した。
この制約された設定であっても、大規模設定で観測されるスケーリングの法則に密接に従う性能を示す。
論文 参考訳(メタデータ) (2022-12-28T18:59:28Z) - Merak: An Efficient Distributed DNN Training Framework with Automated 3D
Parallelism for Giant Foundation Models [14.903847751841221]
資源利用率の高い3次元並列化ディープラーニング学習フレームワークであるMerakを提案する。
Merakは、モデルのプロキシ表現にグラフシャーディングアルゴリズムを使用する自動モデルパーティショナで自動的にデプロイする。
Merakは1.5、2.5、8.3、200億のパラメータを持つモデルの最先端の3D並列化フレームワークをそれぞれ1.42X、1.39X、1.43X、1.61Xまで高速化することができる。
論文 参考訳(メタデータ) (2022-06-10T09:15:48Z) - Hydra: A System for Large Multi-Model Deep Learning [3.571623412954477]
本稿では,トランスフォーマーやCNNといったモデルを対象として,DRAMとGPUメモリ間のレイヤ群を移動させる手法である'model spilling'を提案する。
次に,マルチモデルトレーニングワークロードの効率を上げるために,こぼれを利用した新しいテクニックのセットを提案する。
実際のベンチマークワークロードによる実験によると、HYDRAは通常のモデル並列処理よりも7倍高速で、パイプライン並列処理のための最先端の産業ツールよりも50%高速である。
論文 参考訳(メタデータ) (2021-10-16T18:13:57Z) - M6-10T: A Sharing-Delinking Paradigm for Efficient Multi-Trillion
Parameter Pretraining [55.16088793437898]
極端なモデルのトレーニングには大量の計算とメモリフットプリントが必要です。
本稿では,高メモリフットプリント要求大モデルのための簡単なトレーニング戦略"Pseudo-to-Real"を提案する。
論文 参考訳(メタデータ) (2021-10-08T04:24:51Z) - Model-Parallel Model Selection for Deep Learning Systems [0.0]
機械学習(ML)トレーニングの非効率性は、ほとんどのユーザにとって最先端モデルの実用的使用を防止する。
多くのML実践者は、計算要求を複数のデバイスに分散させる方法として、並列性をモデル化している。
タスクとモデル並列性を組み合わせた新しい形式の「シャード並列性」を提案し、それをHydraという名前のフレームワークにパッケージ化する。
論文 参考訳(メタデータ) (2021-07-14T03:20:37Z) - Efficient Large-Scale Language Model Training on GPU Clusters [19.00915720435389]
大規模な言語モデルは、様々なタスクに最先端の精度をもたらす。
メモリ容量は限られており、大きなモデルを単一のGPUに収めることは不可能である。
これらのモデルのトレーニングに必要な計算操作の数は、非現実的な長いトレーニング時間をもたらす可能性がある。
論文 参考訳(メタデータ) (2021-04-09T16:43:11Z) - Scaling Distributed Deep Learning Workloads beyond the Memory Capacity
with KARMA [58.040931661693925]
冗長な再計算とアウト・オブ・コアの手法を組み合わせた戦略を提案する。
最先端のアウト・オブ・コア手法を用いて,6種類のモデルで平均1.22倍の高速化を実現した。
我々のデータ並列化ソリューションは,Megatron-LMやTurning-NLGといった大規模モデルのトレーニングにおいて,複雑なハイブリッドモデル並列性よりも優れる。
論文 参考訳(メタデータ) (2020-08-26T07:24:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。