論文の概要: Parallel Training of Deep Networks with Local Updates
- arxiv url: http://arxiv.org/abs/2012.03837v1
- Date: Mon, 7 Dec 2020 16:38:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-18 09:57:40.980661
- Title: Parallel Training of Deep Networks with Local Updates
- Title(参考訳): ローカル更新によるディープネットワークの並列トレーニング
- Authors: Michael Laskin, Luke Metz, Seth Nabarrao, Mark Saroufim, Badreddine
Noune, Carlo Luschi, Jascha Sohl-Dickstein, Pieter Abbeel
- Abstract要約: ローカル並列性(Local Parallelism)は、グローバルバックプロパゲーションを切り捨てられたレイヤワイズバックプロパゲーションに置き換えることで、ディープネットワーク内の個々のレイヤのトレーニングを並列化するフレームワークである。
我々は、様々なアーキテクチャセットにわたるビジョンと言語領域の両方で結果を示し、局所的並列性は特に高コンピュートなシステムにおいて有効であることを見出した。
- 参考スコア(独自算出の注目度): 84.30918922367442
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep learning models trained on large data sets have been widely successful
in both vision and language domains. As state-of-the-art deep learning
architectures have continued to grow in parameter count so have the compute
budgets and times required to train them, increasing the need for
compute-efficient methods that parallelize training. Two common approaches to
parallelize the training of deep networks have been data and model parallelism.
While useful, data and model parallelism suffer from diminishing returns in
terms of compute efficiency for large batch sizes. In this paper, we
investigate how to continue scaling compute efficiently beyond the point of
diminishing returns for large batches through local parallelism, a framework
which parallelizes training of individual layers in deep networks by replacing
global backpropagation with truncated layer-wise backpropagation. Local
parallelism enables fully asynchronous layer-wise parallelism with a low memory
footprint, and requires little communication overhead compared with model
parallelism. We show results in both vision and language domains across a
diverse set of architectures, and find that local parallelism is particularly
effective in the high-compute regime.
- Abstract(参考訳): 大規模データセットでトレーニングされたディープラーニングモデルは、ビジョンと言語ドメインの両方で広く成功している。
最先端のディープラーニングアーキテクチャはパラメータ数の増加を続けており、トレーニングに必要な計算予算と時間を確保でき、訓練を並列化する計算効率の高い方法の必要性が高まっている。
ディープネットワークのトレーニングを並列化する一般的なアプローチは、データとモデル並列化である。
有用ではあるが、データとモデルの並列処理は大規模なバッチサイズに対する計算効率の点でリターンの低下に悩まされる。
本稿では,グローバルバックプロパゲーションを廃止層毎バックプロパゲーションに置き換えることで,ディープネットワーク内の個々のレイヤのトレーニングを並列化するフレームワークであるlocal parallelismを通じて,大規模バッチのリターンを減少させる点を超えて,計算を効率的にスケーリングする方法について検討する。
ローカル並列化は、メモリフットプリントの少ない完全に非同期なレイヤワイド並列化を可能にし、モデル並列化と比較して通信オーバーヘッドが少ない。
我々は、様々なアーキテクチャセットにわたるビジョンと言語領域の両方で結果を示し、局所的並列性は特に高コンピュートなシステムにおいて有効であることを見出した。
関連論文リスト
- Retentive Network: A Successor to Transformer for Large Language Models [91.6652200825638]
大規模言語モデルの基盤アーキテクチャとしてRetentive Network(RetNet)を提案する。
理論的には、再発と注意の関係を導出する。
言語モデリングの実験結果から、RetNetは優れたスケーリング結果、並列トレーニング、低コストなデプロイメント、効率的な推論を実現している。
論文 参考訳(メタデータ) (2023-07-17T16:40:01Z) - SWARM Parallelism: Training Large Models Can Be Surprisingly
Communication-Efficient [69.61083127540776]
ディープラーニングアプリケーションは、数十億のパラメータを持つ大きなモデルを使用することの恩恵を受ける。
これらのモデルのトレーニングは、特殊なHPCクラスタを必要とするため、非常に高価である。
安価な"プリエンプティブル"インスタンスを使用するか、あるいは複数のリージョンから既存のリソースをプールする。
論文 参考訳(メタデータ) (2023-01-27T18:55:19Z) - On Optimizing the Communication of Model Parallelism [74.15423270435949]
大規模モデル並列ディープラーニング(DL)における新しい重要なコミュニケーションパターンについて検討する。
クロスメッシュリシャーディングでは、シャードテンソルをソースデバイスメッシュから宛先デバイスメッシュに送信する必要がある。
本稿では、効率的な放送ベースの通信システムと「重複しやすい」パイプラインスケジュールという、クロスメシュ・リシャーディングに対処するための2つのコントリビューションを提案する。
論文 参考訳(メタデータ) (2022-11-10T03:56:48Z) - SplitBrain: Hybrid Data and Model Parallel Deep Learning [11.63431725146897]
本稿では,ハイブリッドデータとモデル並列性をサポートする高性能分散ディープラーニングフレームワークSplitBrainを提案する。
具体的には、SplitBrainは、メモリ要求層をシャーディングしながら、計算集約的な畳み込み層を同時に配置する、層固有のパーティショニングを提供する。
その結果,データとモデル並列VGGをCIFAR-10上で最大67%のメモリ消費を節約しながら,ほぼ線形スピードアップを実現することができた。
論文 参考訳(メタデータ) (2021-12-31T06:25:38Z) - Colossal-AI: A Unified Deep Learning System For Large-Scale Parallel
Training [23.633810934134065]
Colossal-AIは、大規模モデルで最大2.76回のトレーニングスピードアップを達成することができる。
システムは、データ、パイプライン、テンソル、シーケンス並列化などの並列トレーニングメソッドをサポートする。
論文 参考訳(メタデータ) (2021-10-28T04:45:55Z) - TeraPipe: Token-Level Pipeline Parallelism for Training Large-Scale
Language Models [60.23234205219347]
TeraPipeは、Transformerベースの言語モデルの同期モデル並列トレーニングのための高性能トークンレベルのパイプライン並列アルゴリズムです。
TeraPipeは、AWSクラスタ上で1750億のパラメータを持つ最大のGPT-3モデルのトレーニングを5.0倍高速化できることを示す。
論文 参考訳(メタデータ) (2021-02-16T07:34:32Z) - Towards a Scalable and Distributed Infrastructure for Deep Learning
Applications [4.4979162962108905]
Phylanxは生産性を重視した実行ツリーを提供する。
分散ディープラーニングフレームワークにおける欠点を軽減する可能性を持つPhylanxを提案する。
論文 参考訳(メタデータ) (2020-10-06T20:38:47Z) - Restructuring, Pruning, and Adjustment of Deep Models for Parallel
Distributed Inference [15.720414948573753]
複数の処理ノード(ワーカ)上で既に訓練済みのディープモデルの並列実装について検討する。
並列化モデル全体の性能を保証するレイヤワイドモデル再構成およびプルーニング手法であるRePurposeを提案する。
既存の手法と比較して,RePurposeは並列実装による分散推論の効率を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2020-08-19T06:44:41Z) - A Linear Algebraic Approach to Model Parallelism in Deep Learning [0.0]
ネットワークのサイズと複雑さが大きくなるにつれて、大規模クラスタコンピューティング環境でのディープニューラルネットワーク(DNN)のトレーニングがますます必要になる。
深層学習における並列性をモデル化するための線形代数的手法を提案し,DNNにおけるテンソルの並列分布を実現する。
本研究では,これらの並列プリミティブを用いて分散DNN層を構築し,PyTorchおよびMPIベースの分散ディープラーニングツールキットであるDistDLを用いて分散DNNを構築し,訓練することにより,それらのアプリケーションを実演する。
論文 参考訳(メタデータ) (2020-06-04T19:38:05Z) - Understanding the Effects of Data Parallelism and Sparsity on Neural
Network Training [126.49572353148262]
ニューラルネットワークトレーニングにおける2つの要因として,データ並列性と疎性について検討する。
有望なメリットにもかかわらず、ニューラルネットワークトレーニングに対する彼らの影響を理解することは、依然として明白である。
論文 参考訳(メタデータ) (2020-03-25T10:49:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。