論文の概要: Multi-node Bert-pretraining: Cost-efficient Approach
- arxiv url: http://arxiv.org/abs/2008.00177v1
- Date: Sat, 1 Aug 2020 05:49:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-04 00:21:43.470731
- Title: Multi-node Bert-pretraining: Cost-efficient Approach
- Title(参考訳): マルチノードベルトプレトレーニング:コスト効率のアプローチ
- Authors: Jiahuang Lin, Xin Li, Gennady Pekhimenko
- Abstract要約: 大規模トランスフォーマーベースの言語モデルは、多くの自然言語処理(NLP)タスクの最先端結果にエキサイティングな飛躍をもたらした。
大規模な教師なしデータセットの出現により、単一のトレーニングエポック内のデータサンプルの増加により、トレーニング時間がさらに延長される。
学術的な環境では、適切な時間予算(12日)でBERTの事前訓練を行うことが可能であることを示す。
- 参考スコア(独自算出の注目度): 6.5998084177955425
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, large scale Transformer-based language models such as BERT, GPT-2,
and XLNet have brought about exciting leaps in state-of-the-art results for
many Natural Language Processing (NLP) tasks. One of the common trends in these
recent models is a significant increase in model complexity, which introduces
both more weights and computation. Moreover, with the advent of large-scale
unsupervised datasets, training time is further extended due to the increased
amount of data samples within a single training epoch. As a result, to train
these models within a reasonable time, machine learning (ML) programmers often
require advanced hardware setups such as the premium GPU-enabled NVIDIA DGX
workstations or specialized accelerators such as Google's TPU Pods. Our work
addresses this limitation and demonstrates that the BERT pre-trained model can
be trained within 2 weeks on an academic-size cluster of widely available GPUs
through careful algorithmic and software optimizations. In this paper, we
present these optimizations on how to improve single device training
throughput, distribute the training workload over multiple nodes and GPUs, and
overcome the communication bottleneck introduced by the large data exchanges
over the network. We show that we are able to perform pre-training on BERT
within a reasonable time budget (12 days) in an academic setting, but with a
much less expensive and less aggressive hardware resource requirement than in
previously demonstrated industrial settings based on NVIDIA DGX machines or
Google's TPU Pods.
- Abstract(参考訳): 近年,BERT,GPT-2,XLNetなどの大規模トランスフォーマーベースの言語モデルが,多くの自然言語処理(NLP)タスクの最先端結果にエキサイティングな飛躍をもたらした。
これらのモデルにおける一般的な傾向の1つは、重み付けと計算の両方を導入するモデル複雑性の著しい増加である。
さらに、大規模な教師なしデータセットの出現に伴い、単一のトレーニングエポック内のデータサンプルの増加により、トレーニング時間がさらに延長される。
結果として、これらのモデルを適切な時間内にトレーニングするために、機械学習(ML)プログラマは、GPU対応のNVIDIA DGXワークステーションやGoogleのTPU Podsのような特別なアクセラレータのような高度なハードウェアセットアップを必要とすることが多い。
我々の研究は、この制限に対処し、BERT事前訓練モデルが2週間以内に、慎重にアルゴリズムとソフトウェア最適化を行うことで、広く利用可能なGPUの学術規模のクラスタでトレーニングできることを実証している。
本稿では,単一デバイスでのトレーニングスループットの向上,複数のノードとgpu上でのトレーニングワークロードの分散,ネットワーク上での大規模データ交換によって引き起こされる通信ボトルネックを克服するための最適化について述べる。
学術的な環境では,BERTの事前トレーニングを合理的な時間予算(12日)で行うことができるが,NVIDIA DGXマシンやGoogleのTPU Podをベースとした産業環境よりもはるかに安価で,攻撃的なハードウェアリソース要件で行うことができる。
関連論文リスト
- Towards Universal Performance Modeling for Machine Learning Training on Multi-GPU Platforms [4.959530958049395]
我々は,コンピュータシステム上での機械学習(ML)ワークロードのトレーニングパフォーマンスを特徴付けるパイプラインを開発し,予測する。
私たちのパイプラインは、TransformerベースのNLPモデルなど、他のタイプのMLワークロードに一般化されています。
最速の埋め込みテーブルシャーディング構成を素早く選択するような洞察を生成することができる。
論文 参考訳(メタデータ) (2024-04-19T07:20:33Z) - Harnessing Manycore Processors with Distributed Memory for Accelerated
Training of Sparse and Recurrent Models [43.1773057439246]
現在のAIトレーニングインフラストラクチャは、単一の命令多重データ(SIMD)とシストリック配列アーキテクチャによって支配されている。
分散ローカルメモリを用いた大規模並列多重命令型マルチデータアーキテクチャにおけるスパース・リカレントモデルトレーニングについて検討する。
論文 参考訳(メタデータ) (2023-11-07T23:18:35Z) - PILOT: A Pre-Trained Model-Based Continual Learning Toolbox [71.63186089279218]
本稿では,PILOTとして知られるモデルベース連続学習ツールボックスについて紹介する。
一方、PILOTはL2P、DualPrompt、CODA-Promptといった事前学習モデルに基づいて、最先端のクラスインクリメンタル学習アルゴリズムを実装している。
一方、PILOTは、事前学習されたモデルの文脈に典型的なクラス増分学習アルゴリズムを適合させ、それらの効果を評価する。
論文 参考訳(メタデータ) (2023-09-13T17:55:11Z) - Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - bert2BERT: Towards Reusable Pretrained Language Models [51.078081486422896]
本稿では,既存のより小さな事前学習モデルの知識を大規模モデルに効果的に伝達できるbert2BERTを提案する。
bert2BERTは、ほぼ半分の大きさのモデルを再利用することで、BERT_BASEとGPT_BASEの事前トレーニングに約45%と47%の計算コストを節約する。
論文 参考訳(メタデータ) (2021-10-14T04:05:25Z) - M6-10T: A Sharing-Delinking Paradigm for Efficient Multi-Trillion
Parameter Pretraining [55.16088793437898]
極端なモデルのトレーニングには大量の計算とメモリフットプリントが必要です。
本稿では,高メモリフットプリント要求大モデルのための簡単なトレーニング戦略"Pseudo-to-Real"を提案する。
論文 参考訳(メタデータ) (2021-10-08T04:24:51Z) - Horizontally Fused Training Array: An Effective Hardware Utilization
Squeezer for Training Novel Deep Learning Models [8.055533378391814]
単一加速器のトレーニングジョブが繰り返し起動した場合,クラスタ全体のリソース消費を支配していることを示す。
本稿では,DL研究者や実践者が新たなDLトレーニングワークロードのハードウェア利用を効果的かつ容易に向上するために,水平混合訓練アレイ(HFTA)を提案する。
HFTAは、ハードウェア使用量の削減に強い効果を示し、個別のアクセラレータ上で各ジョブを実行する標準的なプラクティスと比較して、最大15.1倍のトレーニングスループットを実現している。
論文 参考訳(メタデータ) (2021-02-03T23:56:55Z) - EarlyBERT: Efficient BERT Training via Early-bird Lottery Tickets [106.79387235014379]
EarlyBERTは、大規模言語モデルの事前学習と微調整の両方に適用できる一般的な計算効率のトレーニングアルゴリズムである。
BERTトレーニングの初期段階において、構造化された入賞チケットを最初に識別し、効率的なトレーニングに使用します。
EarlyBERTは、トレーニング時間を3545%短縮した標準BERTと同等のパフォーマンスを簡単に達成します。
論文 参考訳(メタデータ) (2020-12-31T20:38:20Z) - A Tensor Compiler for Unified Machine Learning Prediction Serving [8.362773007171118]
企業における機械学習(ML)の採用には、よりシンプルで効率的なソフトウェアインフラが必要である。
モデルのスコアリングは、モデルが一度訓練されるが、何度も使用されるため、インフラストラクチャの複雑さとコストに主要な貢献をする。
本稿では,HUMMINGBIRDを提案する。HUMMINGBIRDは,計算演算子と従来のMLモデルを小さなテンソル演算系にコンパイルする新しいモデルスコアリング手法である。
論文 参考訳(メタデータ) (2020-10-09T21:02:47Z) - Real-Time Execution of Large-scale Language Models on Mobile [49.32610509282623]
BERTの最良のモデル構造は,特定のデバイスに適合する計算サイズである。
我々のフレームワークは、モバイルデバイスのリソース仕様とリアルタイム仕様の両方を満たすための特定モデルを保証することができる。
具体的には、当社のモデルはCPUでは5.2倍、GPUでは4.1倍、BERTベースでは0.5-2%の精度損失がある。
論文 参考訳(メタデータ) (2020-09-15T01:59:17Z) - Caffe Barista: Brewing Caffe with FPGAs in the Training Loop [13.83645579871775]
Baristaは、CNN(Convolutional Neural Network)のトレーニングにFPGAをシームレスに統合する自動ツールフローである。
この作業では、人気のあるディープラーニングフレームワークCaffe内のCNNのトレーニングにFPGAをシームレスに統合する自動化ツールフローであるBaristaを紹介している。
論文 参考訳(メタデータ) (2020-06-18T17:56:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。