論文の概要: Bamboo: Making Preemptible Instances Resilient for Affordable Training
of Large DNNs
- arxiv url: http://arxiv.org/abs/2204.12013v1
- Date: Tue, 26 Apr 2022 00:40:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-28 00:44:13.886913
- Title: Bamboo: Making Preemptible Instances Resilient for Affordable Training
of Large DNNs
- Title(参考訳): Bamboo: 大規模DNNのトレーニングに使えるプリエンプティブルインスタンス
- Authors: John Thorpe and Pengzhan Zhao and Jonathan Eyolfson and Yifan Qiao and
Zhihao Jia and Minjia Zhang and Ravi Netravali and Guoqing Harry Xu
- Abstract要約: 本稿では,プリエンプティブルインスタンスを効果的に活用することで,トレーニングコストを大幅に削減することを目的とする。
トレーニングパイプラインに冗長な計算を導入することで、これらの課題に対処する分散システムであるBambooを紹介します。
- 参考スコア(独自算出の注目度): 16.179210071890974
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: DNN models across many domains continue to grow in size, resulting in high
resource requirements for effective training, and unpalatable (and often
unaffordable) costs for organizations and research labs across scales. This
paper aims to significantly reduce training costs with effective use of
preemptible instances, i.e., those that can be obtained at a much cheaper price
while idle, but may be preempted whenever requested by priority users. Doing
so, however, requires new forms of resiliency and efficiency to cope with the
possibility of frequent preemptions - a failure model that is drastically
different from the occasional failures in normal cluster settings that existing
checkpointing techniques target.
We present Bamboo, a distributed system that tackles these challenges by
introducing redundant computations into the training pipeline, i.e., whereby
one node performs computations over not only its own layers but also over some
layers in its neighbor. Our key insight is that training large models often
requires pipeline parallelism where "pipeline bubbles" naturally exist. Bamboo
carefully fills redundant computations into these bubbles, providing resilience
at a low cost. Across a variety of widely used DNN models, Bamboo outperforms
traditional checkpointing by 3.7x in training throughput, and reduces costs by
2.4x compared to a setting where on-demand instances are used.
- Abstract(参考訳): 多くのドメインにわたるDNNモデルは規模が拡大し続けており、結果として効果的なトレーニングのためのリソースの要求が高くなり、組織や研究機関の規模で適用不可能なコストがかかる。
本研究の目的は、アイドル時にはるかに安価に入手できるが、優先ユーザからの要求に応じてプリエンプティブルなインスタンスを有効利用することで、トレーニングコストを大幅に削減することである。
しかし、頻繁なプリエンプションの可能性を対処するためには、新しいタイプのレジリエンスと効率が必要だ。これは、既存のチェックポイント技術がターゲットとする通常のクラスタ設定の障害と大きく異なる、障害モデルである。
本稿では,学習パイプラインに冗長な計算を導入することで,これらの課題に対処可能な分散システムであるbambooを提案する。
私たちのキーとなる洞察は、大きなモデルのトレーニングには、"パイプラインバブル"が自然に存在するパイプライン並列性が必要です。
Bambooは、これらのバブルに冗長な計算を注意深く埋め、低コストでレジリエンスを提供する。
広く使用されているDNNモデル全体では、Bambooは従来のチェックポイントを3.7倍のトレーニングスループットで上回り、オンデマンドインスタンスを使用する設定に比べて2.4倍のコスト削減を実現している。
関連論文リスト
- Preparing Lessons for Progressive Training on Language Models [75.88952808979087]
人工知能におけるトランスフォーマーの急速な進歩は、資源消費の増加と温室効果ガス排出のコストを犠牲にしている。
我々は,低層学習におけるtextbflayer functitextbfonality による extextbfpanding textbfoperation の授業をプレptextbfars で行うApolloを提案する。
実験では、アポロは最先端の加速比を達成し、事前訓練されたモデルを用いた手法にさえ対抗できることを示した。
論文 参考訳(メタデータ) (2024-01-17T13:04:14Z) - An End-to-End Network Pruning Pipeline with Sparsity Enforcement [0.0]
トレーニングのすべての段階において、ニューラルネットワークのプルーニングとスパーシフィケーションに適したエンドツーエンドのトレーニングパイプラインを開発します。
本研究は, 刈り込み工程で使用する異なる技術に加えて, これらの手法の組み合わせを利用した実験を行う。
論文 参考訳(メタデータ) (2023-12-04T06:11:39Z) - Instant Soup: Cheap Pruning Ensembles in A Single Pass Can Draw Lottery
Tickets from Large Models [106.19385911520652]
Lottery Ticket hypothesis (LTH)とその変種は、パラメーターワークを生成する大規模な事前訓練モデルを作成するために利用されてきた。
LTHは反復的フルトレーニングと反復的マグニチュードプルーニング(IMP)のプルーニングルーチンによって著しく抑制される
Instant Soup Pruning (ISP) を提案する。
論文 参考訳(メタデータ) (2023-06-18T03:09:52Z) - Sparse Upcycling: Training Mixture-of-Experts from Dense Checkpoints [59.39280540478479]
密なチェックポイントから疎活性化されたMixture-of-Expertsモデルを初期化することにより、サンクトレーニングコストを再利用する簡単な方法であるスパースアップサイクリングを提案する。
我々は, 比較的高サイクルなT5 Base, Large, XL言語モデル, Vision Transformer Base と Large モデルが, SuperGLUE と ImageNet の高密度モデルよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2022-12-09T18:57:37Z) - Actively Learning Costly Reward Functions for Reinforcement Learning [56.34005280792013]
複雑な実世界の環境でエージェントを訓練することは、桁違いに高速であることを示す。
強化学習の手法を新しい領域に適用することにより、興味深く非自明な解を見つけることができることを示す。
論文 参考訳(メタデータ) (2022-11-23T19:17:20Z) - Towards Efficient Full 8-bit Integer DNN Online Training on
Resource-limited Devices without Batch Normalization [13.340254606150232]
畳み込みとバッチ正規化(BN)によってもたらされる膨大な計算コストは、オンライントレーニングとディープニューラルネットワーク(DNN)の応用に大きな課題を引き起こしている。
既存の作業は畳み込みやBNアクセラレーションにのみ焦点を合わせており、満足なパフォーマンスで両方の問題を緩和できる解決策は存在しない。
オンライントレーニングは、携帯電話のようなリソース制限されたデバイスでは徐々にトレンドになりつつあるが、モデル性能、処理速度、計算コストを許容する完全な技術スキームはいまだに存在しない。
論文 参考訳(メタデータ) (2021-05-27T14:58:04Z) - Alternate Model Growth and Pruning for Efficient Training of
Recommendation Systems [7.415129876303651]
モデルプルーニングは、冗長なパラメータを取り除いてディープニューラルネットワークの計算オーバーヘッドを削減する効果的な手法である。
ビッグデータ処理の需要のため、現代のレコメンデーションシステムはモデルキャパシティにとってまだ渇望的です。
トレーニング中の重量を代替して構築し、調整するためのダイナミックなトレーニングスキーム、すなわち、モデルの成長と刈り取りを提案します。
論文 参考訳(メタデータ) (2021-05-04T03:14:30Z) - Enabling Binary Neural Network Training on the Edge [7.32770338248516]
既存のバイナリニューラルネットワークトレーニング手法では、すべてのレイヤに対して高精度なアクティベーションを同時に保存する必要がある。
本稿では,メモリフットプリントの大幅な削減を図った,低コストなバイナリニューラルネットワークトレーニング戦略を提案する。
また、2ナライズされたResNet-18のin-scratch ImageNetトレーニングも実施し、3.78$times$メモリ削減を実現した。
論文 参考訳(メタデータ) (2021-02-08T15:06:41Z) - EarlyBERT: Efficient BERT Training via Early-bird Lottery Tickets [106.79387235014379]
EarlyBERTは、大規模言語モデルの事前学習と微調整の両方に適用できる一般的な計算効率のトレーニングアルゴリズムである。
BERTトレーニングの初期段階において、構造化された入賞チケットを最初に識別し、効率的なトレーニングに使用します。
EarlyBERTは、トレーニング時間を3545%短縮した標準BERTと同等のパフォーマンスを簡単に達成します。
論文 参考訳(メタデータ) (2020-12-31T20:38:20Z) - Machine Learning on Volatile Instances [40.19551148721116]
この研究は、(プリエンプションの結果)アクティブワーカーノード数の変動がSGD収束とモデルをトレーニングする時間にどのように影響するかを定量化した最初のものである。
我々は,標準的なインスタンスよりも安価な揮発性クラウドインスタンスを利用するための費用対効果戦略を提案する。
論文 参考訳(メタデータ) (2020-03-12T07:47:34Z) - Towards Practical Lottery Ticket Hypothesis for Adversarial Training [78.30684998080346]
トレーニングプロセス中にはるかに高速に収束する,前述のサブネットワークのサブセットが存在することを示す。
本研究の実践的応用として,このようなサブネットワークは,対人訓練の総時間を短縮する上で有効であることを示す。
論文 参考訳(メタデータ) (2020-03-06T03:11:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。