論文の概要: ReCycle: Resilient Training of Large DNNs using Pipeline Adaptation
- arxiv url: http://arxiv.org/abs/2405.14009v2
- Date: Wed, 25 Sep 2024 21:43:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-09-28 01:51:09.441020
- Title: ReCycle: Resilient Training of Large DNNs using Pipeline Adaptation
- Title(参考訳): ReCycle: パイプライン適応を用いた大規模DNNのレジリエンストレーニング
- Authors: Swapnil Gandhi, Mark Zhao, Athinagoras Skiadopoulos, Christos Kozyrakis,
- Abstract要約: ReCycleは、障害発生時の効率的なトレーニング用に設計されたシステムである。
分散トレーニングシステムに固有の機能的冗長性を活用する。
複数の障害で高いトレーニングスループットを実現していることを示す。
- 参考スコア(独自算出の注目度): 2.0181279529015925
- License:
- Abstract: Training large Deep Neural Network (DNN) models requires thousands of GPUs over the course of several days or weeks. At this scale, failures are frequent and can have a big impact on training throughput. Utilizing spare GPU servers to mitigate performance loss becomes increasingly costly as model sizes grow. ReCycle is a system designed for efficient DNN training in the presence of failures, without relying on spare servers. It exploits the inherent functional redundancy in distributed training systems -- where servers across data-parallel groups store the same model parameters -- and pipeline schedule bubbles within each data-parallel group. When servers fails, ReCycle dynamically re-routes micro-batches to data-parallel peers, allowing for uninterrupted training despite multiple failures. However, this re-routing can create imbalances across pipeline stages, leading to reduced training throughput. To address this, ReCycle introduces two key optimizations that ensure re-routed micro-batches are processed within the original pipeline schedule's bubbles. First, it decouples the backward pass into two phases: one for computing gradients for the input and another for calculating gradients for the parameters. Second, it avoids synchronization across pipeline stages by staggering the optimizer step. Together, these optimizations enable adaptive pipeline schedules that minimize or even eliminate training throughput degradation during failures. We describe a prototype for ReCycle and show that it achieves high training throughput under multiple failures, outperforming recent proposals for fault-tolerant training such as Oobleck and Bamboo by up to $1.46\times$ and $1.64\times$, respectively.
- Abstract(参考訳): 大規模なDeep Neural Network(DNN)モデルのトレーニングには,数日ないし数週間にわたって数千のGPUが必要になる。
この規模では、障害は頻繁に発生し、トレーニングのスループットに大きな影響を与えます。
モデルのサイズが大きくなるにつれて、余分なGPUサーバを使用してパフォーマンス損失を軽減します。
ReCycleは、予備サーバに頼ることなく、障害発生時に効率的なDNNトレーニングのために設計されたシステムである。
データ並列グループにまたがるサーバが同じモデルパラメータを格納する分散トレーニングシステムに固有の機能的冗長性を活用し、各データ並列グループ内でバブルをパイプラインする。
サーバがフェールすると、ReCycleはマイクロバッチをデータ並列ピアに動的に再ルーティングし、複数の障害があっても未中断のトレーニングを可能にする。
しかし、この再ルーティングはパイプラインステージ間の不均衡を生じさせ、トレーニングのスループットを低下させる。
これを解決するため、ReCycleは2つの重要な最適化を導入し、再ルートされたマイクロバッチが元のパイプラインスケジュールのバブル内で確実に処理されるようにした。
1つは入力の勾配を計算するためのもので、もう1つはパラメータの勾配を計算するためのものである。
第2に、オプティマイザステップをステージングすることで、パイプラインステージ間の同期を回避する。
これらの最適化により、適応的なパイプラインスケジュールが実現され、障害時のトレーニングスループットの低下を最小化または排除できる。
我々はReCycleのプロトタイプを説明し、複数の障害下で高いトレーニングスループットを実現し、OobleckやBambooといったフォールトトレラントトレーニングの最近の提案を最大1.46\times$と1.64\times$で上回っていることを示す。
関連論文リスト
- Efficient Stagewise Pretraining via Progressive Subnetworks [55.65819977062729]
我々は、トレーニング全体を通して完全なモデルを維持できる代替フレームワークであるプログレッシブサブネットワークトレーニングを提案し、各ステップでモデル内でのみトレインワークを行う。
RaPTr は BERT と UL2 言語モデルの事前トレーニング損失が向上すると同時に,標準的なトレーニングに比べて 20-33% のFLOP の削減が要求される。
論文 参考訳(メタデータ) (2024-02-08T18:49:09Z) - Online Training Through Time for Spiking Neural Networks [66.7744060103562]
スパイキングニューラルネットワーク(SNN)は、脳にインスパイアされたエネルギー効率のモデルである。
近年のトレーニング手法の進歩により、レイテンシの低い大規模タスクにおいて、ディープSNNを成功させることができた。
本稿では,BPTT から派生した SNN の時間的学習(OTTT)によるオンライントレーニングを提案する。
論文 参考訳(メタデータ) (2022-10-09T07:47:56Z) - Slimmable Networks for Contrastive Self-supervised Learning [67.21528544724546]
自己教師付き学習は、大規模なモデルを事前訓練する上で大きな進歩を遂げるが、小さなモデルでは苦労する。
追加の教師を必要とせずに、事前訓練された小型モデルを得るための一段階のソリューションを提案する。
スリム化可能なネットワークは、完全なネットワークと、様々なネットワークを得るために一度にトレーニングできるいくつかの重み共有サブネットワークから構成される。
論文 参考訳(メタデータ) (2022-09-30T15:15:05Z) - Online Convolutional Re-parameterization [51.97831675242173]
2段階のパイプラインであるオンライン畳み込み再パラメータ化(OREPA)は、複雑なトレーニング時間ブロックを単一の畳み込みに絞ることで、巨大なトレーニングオーバーヘッドを低減することを目的としている。
最先端のre-paramモデルと比較して、OREPAはトレーニング時間のメモリコストを約70%削減し、トレーニング速度を約2倍向上させることができる。
また、オブジェクト検出とセマンティックセグメンテーションの実験を行い、下流タスクに一貫した改善を示す。
論文 参考訳(メタデータ) (2022-04-02T09:50:19Z) - ProgFed: Effective, Communication, and Computation Efficient Federated
Learning by Progressive Training [78.44473677588887]
本稿では,効率的なフェデレート学習のためのプログレッシブトレーニングフレームワークであるProgFedを提案する。
これは本質的に、最終モデルの強力な性能を維持しながら、計算と双方向通信コストを削減します。
以上の結果から, ProgFed はフルモデルの標準トレーニングと同等の速度で収束することがわかった。
論文 参考訳(メタデータ) (2021-10-11T14:45:00Z) - ScaleFreeCTR: MixCache-based Distributed Training System for CTR Models
with Huge Embedding Table [23.264897780201316]
様々なCTR(Deep Click-Through Rate)モデルが工業企業によって商用システムに展開されています。
優れた性能を得るためには、大量のトレーニングデータに基づいて深部CTRモデルを効率的に訓練する必要がある。
ScaleFreeCTR:CTRモデルのためのMixCacheベースの分散トレーニングシステムを提案する。
論文 参考訳(メタデータ) (2021-04-17T13:36:19Z) - Procrustes: a Dataflow and Accelerator for Sparse Deep Neural Network
Training [0.5219568203653523]
我々は,まず,第1の訓練を行わず,第2の訓練を行ない,第2の訓練を行ない,第1の訓練を行ない,第1の訓練を行ない,第1の訓練を行ない,第2の訓練を行ないながら,第1の訓練を行ない,第1の訓練を行ない,第2の訓練を行ないながら、第2の訓練を行ない、第2の訓練を行ない、第2の訓練を行ない、第2の訓練を行ない、第2の訓練を行ない、第2の訓練を行なう。
最先端のDNNアクセラレーターをスパーストレーニングサポートなしで使用した同等の未使用モデルのトレーニングと比較すると、Procrustesは最大3.26$times$少ないエネルギーを消費し、様々なモデルにわたって最大4$times$のスピードアップを提供する。
論文 参考訳(メタデータ) (2020-09-23T07:39:55Z) - Domain-specific Communication Optimization for Distributed DNN Training [10.781867496460837]
本稿では,DNN訓練の通信オーバーヘッドをきめ細かな方法で最適化するために,ディープラーニングのドメイン固有性を利用した新しいソリューションDLCPを提案する。
これは、SGDベースのトレーニングの有界損失耐性を利用して、勾配圧縮によって純粋に回避できない尾の通信遅延を改善する。
その後、フローレベルのスケジューリングとは対照的に、粒度の細かいパケットレベルの優先順位付けとドロップを行い、グレードの層や大きさに基づいて、精度に影響を与えることなくモデル収束をさらに高速化する。
論文 参考訳(メタデータ) (2020-08-16T09:53:21Z) - Pipelined Backpropagation at Scale: Training Large Models without
Batches [0.9580895202050946]
我々は,非同期パイプライン並列学習アルゴリズムである細粒度パイプラインバックプロパゲーションの小型バッチの利用を評価した。
適切な正規化と小さなバッチサイズは、トレーニングにも役立ちます。
論文 参考訳(メタデータ) (2020-03-25T22:26:28Z) - Do We Need Zero Training Loss After Achieving Zero Training Error? [76.44358201918156]
本研究では,遠心分離法(Emphflooding)と呼ばれる直接解法を提案する。
本研究では, 浸水により性能が向上し, 副産物として, 試験損失の2重降下曲線が誘導されることを実験的に示す。
論文 参考訳(メタデータ) (2020-02-20T12:50:49Z) - Pipelined Training with Stale Weights of Deep Convolutional Neural
Networks [0.1921787217122713]
パイプライン化バックプロパゲーション方式の統計的効率と性能に及ぼす固定重みの影響について検討する。
パイプライニングがネットワークの初期の層に限られている場合、固定重み付きトレーニングが収束し、同じ精度のモデルが得られることを示す。
本稿では,パイプライン型と非パイプライン型を併用したハイブリッドスキームを提案する。
論文 参考訳(メタデータ) (2019-12-29T15:28:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。