論文の概要: Automatic Graph Partitioning for Very Large-scale Deep Learning
- arxiv url: http://arxiv.org/abs/2103.16063v1
- Date: Tue, 30 Mar 2021 04:26:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-31 14:35:38.438142
- Title: Automatic Graph Partitioning for Very Large-scale Deep Learning
- Title(参考訳): 大規模ディープラーニングのためのグラフの自動分割
- Authors: Masahiro Tanaka, Kenjiro Taura, Toshihiro Hanawa, Kentaro Torisawa
- Abstract要約: 本研究では,自動ハイブリッド並列処理のためのRaNNC(Rapid Neural Network Connector)を提案する。
RaNNCは自動的にモデルをサブコンポーネントのセットに分割し、各サブコンポーネントがデバイスメモリに適合するようにします。
RaNNCはMegatron-LMよりも5倍大きなモデルのトレーニングに成功し、RaNNCのトレーニングスループットは、同じモデルを事前トレーニングする際にMegatron-LMに匹敵するものでした。
- 参考スコア(独自算出の注目度): 4.472135966077758
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work proposes RaNNC (Rapid Neural Network Connector) as middleware for
automatic hybrid parallelism. In recent deep learning research, as exemplified
by T5 and GPT-3, the size of neural network models continues to grow. Since
such models do not fit into the memory of accelerator devices, they need to be
partitioned by model parallelism techniques. Moreover, to accelerate training
for huge training data, we need a combination of model and data parallelisms,
i.e., hybrid parallelism. Given a model description for PyTorch without any
specification for model parallelism, RaNNC automatically partitions the model
into a set of subcomponents so that (1) each subcomponent fits a device memory
and (2) a high training throughput for pipeline parallelism is achieved by
balancing the computation times of the subcomponents. In our experiments, we
compared RaNNC with two popular frameworks, Megatron-LM (hybrid parallelism)
and GPipe (originally proposed for model parallelism, but a version allowing
hybrid parallelism also exists), for training models with increasingly greater
numbers of parameters. In the pre-training of enlarged BERT models, RaNNC
successfully trained models five times larger than those Megatron-LM could, and
RaNNC's training throughputs were comparable to Megatron-LM's when pre-training
the same models. RaNNC also achieved better training throughputs than GPipe on
both the enlarged BERT model pre-training (GPipe with hybrid parallelism) and
the enlarged ResNet models (GPipe with model parallelism) in all of the
settings we tried. These results are remarkable, since RaNNC automatically
partitions models without any modification to their descriptions; Megatron-LM
and GPipe require users to manually rewrite the models' descriptions.
- Abstract(参考訳): 本稿では,自動ハイブリッド並列処理のためのミドルウェアとしてrannc(rapid neural network connector)を提案する。
最近のディープラーニング研究では、T5とGPT-3が示すように、ニューラルネットワークモデルのサイズは増加を続けている。
このようなモデルは加速器装置のメモリに収まらないため、モデル並列化技術によって分割する必要がある。
さらに,大規模トレーニングデータのトレーニングを高速化するためには,モデルとデータ並列性の組み合わせ,すなわちハイブリッド並列性が必要である。
モデル並列性の仕様のないPyTorchのモデル記述が与えられた場合、RaNNCはモデルをサブコンポーネントのセットに自動的に分割し、(1)サブコンポーネントがデバイスメモリに適合するようにし、(2)サブコンポーネントの計算時間をバランスさせてパイプライン並列性のための高いトレーニングスループットを実現する。
実験では,RaNNCとMegatron-LM(ハイブリッド並列性)とGPipe(もともとモデル並列性のために提案されていたが,ハイブリッド並列性を実現するバージョンも存在する)の2つのフレームワークを比較した。
拡張されたBERTモデルの事前トレーニングでは、RaNNCはMegatron-LMの5倍のモデルをトレーニングし、同じモデルの事前トレーニングではRaNNCのトレーニングスループットはMegatron-LMと同等であった。
また,拡張BERTモデル事前学習(GPipe with hybrid parallelism)と拡張ResNetモデル(GPipe with model parallelism)の両方で,GPipeよりも優れたトレーニングスループットを実現した。
これらの結果は驚くべきもので、runncはモデルの記述を変更することなく自動的にモデルを分割するので、megatron-lmとgpipeはユーザーが手動でモデルの記述を書き直す必要がある。
関連論文リスト
- SWARM Parallelism: Training Large Models Can Be Surprisingly
Communication-Efficient [69.61083127540776]
ディープラーニングアプリケーションは、数十億のパラメータを持つ大きなモデルを使用することの恩恵を受ける。
これらのモデルのトレーニングは、特殊なHPCクラスタを必要とするため、非常に高価である。
安価な"プリエンプティブル"インスタンスを使用するか、あるいは複数のリージョンから既存のリソースをプールする。
論文 参考訳(メタデータ) (2023-01-27T18:55:19Z) - Does compressing activations help model parallel training? [64.59298055364336]
モデル並列性に対する圧縮法の有効性に関する実験的検討を行った。
圧縮アルゴリズムの3つの共通クラスを実装し,評価する。
我々は160以上の設定と8つの一般的なデータセットでこれらの手法を評価した。
論文 参考訳(メタデータ) (2023-01-06T18:58:09Z) - Merak: An Efficient Distributed DNN Training Framework with Automated 3D
Parallelism for Giant Foundation Models [14.903847751841221]
資源利用率の高い3次元並列化ディープラーニング学習フレームワークであるMerakを提案する。
Merakは、モデルのプロキシ表現にグラフシャーディングアルゴリズムを使用する自動モデルパーティショナで自動的にデプロイする。
Merakは1.5、2.5、8.3、200億のパラメータを持つモデルの最先端の3D並列化フレームワークをそれぞれ1.42X、1.39X、1.43X、1.61Xまで高速化することができる。
論文 参考訳(メタデータ) (2022-06-10T09:15:48Z) - Alpa: Automating Inter- and Intra-Operator Parallelism for Distributed
Deep Learning [54.99749970495241]
Alpaは大規模なディープラーニング(DL)モデルのモデル並列トレーニングを自動化する。
Alpaはデータ、演算子、パイプライン並列性を統一する実行計画を生成する。
特殊なシステムとは異なり、Alpaは手動設計の計画なしで異質なアーキテクチャやモデルを持つモデルに一般化する。
論文 参考訳(メタデータ) (2022-01-28T10:13:35Z) - SplitBrain: Hybrid Data and Model Parallel Deep Learning [11.63431725146897]
本稿では,ハイブリッドデータとモデル並列性をサポートする高性能分散ディープラーニングフレームワークSplitBrainを提案する。
具体的には、SplitBrainは、メモリ要求層をシャーディングしながら、計算集約的な畳み込み層を同時に配置する、層固有のパーティショニングを提供する。
その結果,データとモデル並列VGGをCIFAR-10上で最大67%のメモリ消費を節約しながら,ほぼ線形スピードアップを実現することができた。
論文 参考訳(メタデータ) (2021-12-31T06:25:38Z) - Model-Parallel Model Selection for Deep Learning Systems [0.0]
機械学習(ML)トレーニングの非効率性は、ほとんどのユーザにとって最先端モデルの実用的使用を防止する。
多くのML実践者は、計算要求を複数のデバイスに分散させる方法として、並列性をモデル化している。
タスクとモデル並列性を組み合わせた新しい形式の「シャード並列性」を提案し、それをHydraという名前のフレームワークにパッケージ化する。
論文 参考訳(メタデータ) (2021-07-14T03:20:37Z) - TeraPipe: Token-Level Pipeline Parallelism for Training Large-Scale
Language Models [60.23234205219347]
TeraPipeは、Transformerベースの言語モデルの同期モデル並列トレーニングのための高性能トークンレベルのパイプライン並列アルゴリズムです。
TeraPipeは、AWSクラスタ上で1750億のパラメータを持つ最大のGPT-3モデルのトレーニングを5.0倍高速化できることを示す。
論文 参考訳(メタデータ) (2021-02-16T07:34:32Z) - Scaling Distributed Deep Learning Workloads beyond the Memory Capacity
with KARMA [58.040931661693925]
冗長な再計算とアウト・オブ・コアの手法を組み合わせた戦略を提案する。
最先端のアウト・オブ・コア手法を用いて,6種類のモデルで平均1.22倍の高速化を実現した。
我々のデータ並列化ソリューションは,Megatron-LMやTurning-NLGといった大規模モデルのトレーニングにおいて,複雑なハイブリッドモデル並列性よりも優れる。
論文 参考訳(メタデータ) (2020-08-26T07:24:34Z) - LAMP: Large Deep Nets with Automated Model Parallelism for Image
Segmentation [13.933491086186809]
モデル並列処理(LAMP)を用いた大深度3D ConvNets について紹介する。
画像全体であっても、大きな入力パッチで大きな3D ConvNetをトレーニングすることが可能である。
実験により、自動モデル並列化によって促進されるセグメンテーション精度が向上できることが示されている。
論文 参考訳(メタデータ) (2020-06-22T19:20:35Z) - Model Fusion via Optimal Transport [64.13185244219353]
ニューラルネットワークのための階層モデル融合アルゴリズムを提案する。
これは、不均一な非i.d.データに基づいてトレーニングされたニューラルネットワーク間での"ワンショット"な知識伝達に成功していることを示す。
論文 参考訳(メタデータ) (2019-10-12T22:07:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。