論文の概要: Exploring the limits of Concurrency in ML Training on Google TPUs
- arxiv url: http://arxiv.org/abs/2011.03641v3
- Date: Mon, 15 Mar 2021 19:33:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-28 22:52:03.740355
- Title: Exploring the limits of Concurrency in ML Training on Google TPUs
- Title(参考訳): Google TPUにおける機械学習トレーニングにおける並行性の限界を探る
- Authors: Sameer Kumar and James Bradbury and Cliff Young and Yu Emma Wang and
Anselm Levskaya and Blake Hechtman and Dehao Chen and HyoukJoong Lee and
Mehmet Deveci and Naveen Kumar and Pankaj Kanwar and Shibo Wang and Skye
Wanderman-Milne and Steve Lacy and Tao Wang and Tayo Oguntebi and Yazhou Zu
and Yuanzhong Xu and Andy Swing
- Abstract要約: 我々は、4096 TPU-v3チップを備えたメッシュであるGoogle Multipodでモデルをスケールする手法を提案する。
Google TPU-v3 Multipod マシンの 4erf モデルでは,16秒から28秒間のトレーニング時間を記録できる。
- 参考スコア(独自算出の注目度): 12.165692382950713
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent results in language understanding using neural networks have required
training hardware of unprecedentedscale, with thousands of chips cooperating on
a single training run. This paper presents techniques to scaleML models on the
Google TPU Multipod, a mesh with 4096 TPU-v3 chips. We discuss model
parallelism toovercome scaling limitations from the fixed batch size in data
parallelism, communication/collective optimizations,distributed evaluation of
training metrics, and host input processing scaling optimizations. These
techniques aredemonstrated in both the TensorFlow and JAX programming
frameworks. We also present performance resultsfrom the recent Google
submission to the MLPerf-v0.7 benchmark contest, achieving record training
times from16 to 28 seconds in four MLPerf models on the Google TPU-v3 Multipod
machine.
- Abstract(参考訳): ニューラルネットワークを用いた最近の言語理解の結果、何千ものチップが1回のトレーニング実行で協調し、前例のない規模のトレーニングハードウェアが必要になった。
本稿では,4096 TPU-v3チップを備えたメッシュであるGoogle TPU Multipod上でMLモデルをスケールする手法を提案する。
データ並列性における固定バッチサイズからのスケーリング制限、通信/集約最適化、トレーニングメトリクスの分散評価、ホストの入力処理スケーリング最適化について論じる。
これらのテクニックはTensorFlowとJAXプログラミングフレームワークの両方で実証されている。
また、Google TPU-v3 Multipodマシン上の4つのMLPerfモデルにおいて、MLPerf-v0.7ベンチマークコンテストへの最近のGoogleの提出によるパフォーマンス結果を示す。
関連論文リスト
- TÜLU 3: Pushing Frontiers in Open Language Model Post-Training [94.14908801708049]
我々は、完全にオープンな最先端の訓練後モデルであるT"ULU 3を紹介する。
T"ULU 3はLlama 3.1ベースモデルをベースにしており、Llama 3.1、Qwen 2.5、Mistral、さらにGPT-4o-mini、Claude 3.5-Haikuといったクローズドモデルにも勝っている。
論文 参考訳(メタデータ) (2024-11-22T18:44:04Z) - Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。
そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。
スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文 参考訳(メタデータ) (2024-05-06T16:03:32Z) - Towards Universal Performance Modeling for Machine Learning Training on Multi-GPU Platforms [4.959530958049395]
我々は,コンピュータシステム上での機械学習(ML)ワークロードのトレーニングパフォーマンスを特徴付けるパイプラインを開発し,予測する。
私たちのパイプラインは、TransformerベースのNLPモデルなど、他のタイプのMLワークロードに一般化されています。
最速の埋め込みテーブルシャーディング構成を素早く選択するような洞察を生成することができる。
論文 参考訳(メタデータ) (2024-04-19T07:20:33Z) - Recurrent Drafter for Fast Speculative Decoding in Large Language Models [18.342742904042673]
本稿では,高度な投機的復号法であるRecurrent Drafterを提案する。
大規模言語モデル(LLM)推論の最先端の高速化を実現する。
論文 参考訳(メタデータ) (2024-03-14T23:40:56Z) - Tensor Slicing and Optimization for Multicore NPUs [2.670309629218727]
本稿では,Slicing Optimization (TSO) と呼ばれるマルチコアNPUに対するコンパイラ最適化パスを提案する。
TSOは、一連のCNNモデルの実行時間を最小化する最高のテンソルスライシングを特定する。
その結果、TSOは一連のCNNモデルの実行時間を最小化する最適なテンソルスライシングを識別できることがわかった。
論文 参考訳(メタデータ) (2023-04-06T12:03:03Z) - Cramming: Training a Language Model on a Single GPU in One Day [64.18297923419627]
言語モデリングの最近のトレンドは、スケーリングによるパフォーマンス向上に焦点を当てている。
我々は,1つのコンシューマGPU上で1日間,マスク付き言語モデルを用いてゼロから完全に訓練されたトランスフォーマーベース言語モデルで達成可能なダウンストリーム性能について検討した。
この制約された設定であっても、大規模設定で観測されるスケーリングの法則に密接に従う性能を示す。
論文 参考訳(メタデータ) (2022-12-28T18:59:28Z) - Accelerating Training and Inference of Graph Neural Networks with Fast
Sampling and Pipelining [58.10436813430554]
グラフニューラルネットワーク(GNN)のミニバッチトレーニングには、多くの計算とデータ移動が必要である。
我々は,分散マルチGPU環境において,近傍サンプリングを用いたミニバッチトレーニングを行うことを支持する。
本稿では,これらのボトルネックを緩和する一連の改良点について述べる。
また,サンプリングによる推論を支援する実験分析を行い,試験精度が実質的に損なわれていないことを示す。
論文 参考訳(メタデータ) (2021-10-16T02:41:35Z) - Towards Efficient Post-training Quantization of Pre-trained Language
Models [85.68317334241287]
PLMのポストトレーニング量子化(PTQ)について検討し,モジュール単位の量子化誤差最小化(MREM)を提案する。
GLUEとSQuADベンチマークの実験により、提案したPTQソリューションはQATに近く動作するだけでなく、トレーニング時間、メモリオーバーヘッド、データ消費を大幅に削減できることがわかった。
論文 参考訳(メタデータ) (2021-09-30T12:50:06Z) - Efficient Large-Scale Language Model Training on GPU Clusters [19.00915720435389]
大規模な言語モデルは、様々なタスクに最先端の精度をもたらす。
メモリ容量は限られており、大きなモデルを単一のGPUに収めることは不可能である。
これらのモデルのトレーニングに必要な計算操作の数は、非現実的な長いトレーニング時間をもたらす可能性がある。
論文 参考訳(メタデータ) (2021-04-09T16:43:11Z) - TeraPipe: Token-Level Pipeline Parallelism for Training Large-Scale
Language Models [60.23234205219347]
TeraPipeは、Transformerベースの言語モデルの同期モデル並列トレーニングのための高性能トークンレベルのパイプライン並列アルゴリズムです。
TeraPipeは、AWSクラスタ上で1750億のパラメータを持つ最大のGPT-3モデルのトレーニングを5.0倍高速化できることを示す。
論文 参考訳(メタデータ) (2021-02-16T07:34:32Z) - Automatic Cross-Replica Sharding of Weight Update in Data-Parallel
Training [12.36664837965624]
本稿では,レプリカ間で自動的に重み更新を行う手法を提案する。
本手法は,クラウドTPU上での典型的な画像モデルと言語モデルにおいて,大幅な高速化を実現する。
論文 参考訳(メタデータ) (2020-04-28T07:13:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。