論文の概要: Automatic Cross-Replica Sharding of Weight Update in Data-Parallel
Training
- arxiv url: http://arxiv.org/abs/2004.13336v1
- Date: Tue, 28 Apr 2020 07:13:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 22:32:15.595341
- Title: Automatic Cross-Replica Sharding of Weight Update in Data-Parallel
Training
- Title(参考訳): データ並列トレーニングにおける重み更新の自動クロスレプリカシャーディング
- Authors: Yuanzhong Xu, HyoukJoong Lee, Dehao Chen, Hongjun Choi, Blake
Hechtman, Shibo Wang
- Abstract要約: 本稿では,レプリカ間で自動的に重み更新を行う手法を提案する。
本手法は,クラウドTPU上での典型的な画像モデルと言語モデルにおいて,大幅な高速化を実現する。
- 参考スコア(独自算出の注目度): 12.36664837965624
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In data-parallel synchronous training of deep neural networks, different
devices (replicas) run the same program with different partitions of the
training batch, but weight update computation is repeated on all replicas,
because the weights do not have a batch dimension to partition. This can be a
bottleneck for performance and scalability in typical language models with
large weights, and models with small per-replica batch size which is typical in
large-scale training. This paper presents an approach to automatically shard
the weight update computation across replicas with efficient communication
primitives and data formatting, using static analysis and transformations on
the training computation graph. We show this technique achieves substantial
speedups on typical image and language models on Cloud TPUs, requiring no
change to model code. This technique helps close the gap between traditionally
expensive (ADAM) and cheap (SGD) optimizers, as they will only take a small
part of training step time and have similar peak memory usage. It helped us to
achieve state-of-the-art training performance in Google's MLPerf 0.6
submission.
- Abstract(参考訳): ディープニューラルネットワークのデータ並列同期トレーニングでは、異なるデバイス(複製)がトレーニングバッチの異なるパーティションで同じプログラムを実行するが、重み付けは分割にバッチ次元を持たないため、すべてのレプリカで重み更新計算が繰り返される。
これは、大きな重みを持つ典型的な言語モデルや、大規模なトレーニングで典型的な、複製単位のバッチサイズが小さいモデルにおける、パフォーマンスとスケーラビリティのボトルネックになり得る。
本稿では、静的解析とトレーニング計算グラフの変換を用いて、効率的な通信プリミティブとデータフォーマッティングを用いてレプリカ間での重み更新計算を自動的にシャードする手法を提案する。
本手法は,クラウドTPU上での典型的な画像および言語モデルの大幅な高速化を実現し,モデルコードの変更を必要としないことを示す。
この技術は、従来の高価な(ADAM)と安価な(SGD)オプティマイザのギャップを埋めるのに役立つ。
GoogleのMLPerf 0.6で最先端のトレーニングパフォーマンスを達成するのに役立ちました。
関連論文リスト
- OmniBal: Towards Fast Instruct-tuning for Vision-Language Models via Omniverse Computation Balance [35.40320275366383]
視覚言語インストラクションチューニングモデルにおける大規模3D並列トレーニングは、異なるデバイス間で不均衡な計算負荷をもたらす。
私たちはこの問題に対処するために、データ、モデル、メモリの観点から計算負荷を再バランスさせました。
提案手法の有効性と一般化性は,様々なモデルやデータセットでさらに実証された。
論文 参考訳(メタデータ) (2024-07-30T12:02:58Z) - Partitioned Neural Network Training via Synthetic Intermediate Labels [0.0]
GPUメモリの制約は、そのような巨大なモデルをトレーニングする上で、注目すべきボトルネックになっている。
この研究は、モデルをGPU間で分割し、個々のセグメントをトレーニングするために合成中間ラベルを生成することを提唱する。
このアプローチは、モデル精度を維持しながらデータ通信を最小限に抑える、より効率的なトレーニングプロセスをもたらす。
論文 参考訳(メタデータ) (2024-03-17T13:06:29Z) - In Situ Framework for Coupling Simulation and Machine Learning with
Application to CFD [51.04126395480625]
近年、流体力学計算を容易にする機械学習(ML)の多くの成功例が報告されている。
シミュレーションが大きくなるにつれて、従来のオフライン学習のための新しいトレーニングデータセットの生成は、I/Oとストレージのボトルネックを生み出します。
この作業は、この結合を単純化し、異種クラスタでのその場トレーニングと推論を可能にするソリューションを提供する。
論文 参考訳(メタデータ) (2023-06-22T14:07:54Z) - Just One Byte (per gradient): A Note on Low-Bandwidth Decentralized
Language Model Finetuning Using Shared Randomness [86.61582747039053]
分散環境での言語モデルトレーニングは、交換の通信コストによって制限される。
分散微調整を低帯域幅で行うために,共有ランダムネスを用いた最近の作業を拡張した。
論文 参考訳(メタデータ) (2023-06-16T17:59:51Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - MAP: Memory-aware Automated Intra-op Parallel Training For Foundation
Models [15.256207550970501]
我々は PyTorch 上に構築された MAP を紹介した。
MAPは既存の手法と比較して、任意のPyTorchモデルのメモリおよび計算統計を生成するのに使いやすいシンボリックプロファイラを提供する。
論文 参考訳(メタデータ) (2023-02-06T07:22:49Z) - Towards Efficient Post-training Quantization of Pre-trained Language
Models [85.68317334241287]
PLMのポストトレーニング量子化(PTQ)について検討し,モジュール単位の量子化誤差最小化(MREM)を提案する。
GLUEとSQuADベンチマークの実験により、提案したPTQソリューションはQATに近く動作するだけでなく、トレーニング時間、メモリオーバーヘッド、データ消費を大幅に削減できることがわかった。
論文 参考訳(メタデータ) (2021-09-30T12:50:06Z) - Layered gradient accumulation and modular pipeline parallelism: fast and
efficient training of large language models [0.0]
分散トレーニングのさまざまな構成について、可能な限り最短のトレーニング時間を分析します。
本稿では,最短トレーニング時間を半減する2つの新しい手法,テキスト層勾配蓄積法とテキストモジュールパイプライン並列化法を提案する。
論文 参考訳(メタデータ) (2021-06-04T19:21:49Z) - Training Recommender Systems at Scale: Communication-Efficient Model and
Data Parallelism [56.78673028601739]
通信効率のよいハイブリッドトレーニングのためのDCT(Dynamic Communication Thresholding)という圧縮フレームワークを提案する。
DCTは、それぞれDPとMPの間に、少なくとも$100times$と$20times$の通信を削減します。
最先端の産業レコメンデーションモデルのエンドツーエンドのトレーニング時間を、パフォーマンスを損なうことなく、37%改善する。
論文 参考訳(メタデータ) (2020-10-18T01:44:42Z) - Scaling Distributed Deep Learning Workloads beyond the Memory Capacity
with KARMA [58.040931661693925]
冗長な再計算とアウト・オブ・コアの手法を組み合わせた戦略を提案する。
最先端のアウト・オブ・コア手法を用いて,6種類のモデルで平均1.22倍の高速化を実現した。
我々のデータ並列化ソリューションは,Megatron-LMやTurning-NLGといった大規模モデルのトレーニングにおいて,複雑なハイブリッドモデル並列性よりも優れる。
論文 参考訳(メタデータ) (2020-08-26T07:24:34Z) - Stochastic Weight Averaging in Parallel: Large-Batch Training that
Generalizes Well [7.262048441360133]
DNNトレーニングの高速化を目的として,SWAP(Weight Averaging in Parallel)を提案する。
提案アルゴリズムは, 高速に近似解を計算し, 並列に計算された複数のモデルの重みを平均化し, 精度を向上する。
結果として得られるモデルは、小さなミニバッチで訓練されたモデルと同等に一般化されるが、かなり短い時間で生産される。
論文 参考訳(メタデータ) (2020-01-07T23:13:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。