論文の概要: 1-bit LAMB: Communication Efficient Large-Scale Large-Batch Training
with LAMB's Convergence Speed
- arxiv url: http://arxiv.org/abs/2104.06069v1
- Date: Tue, 13 Apr 2021 10:07:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-14 21:19:05.416867
- Title: 1-bit LAMB: Communication Efficient Large-Scale Large-Batch Training
with LAMB's Convergence Speed
- Title(参考訳): 1ビットLAMB: LAMBの収束速度を用いた通信効率の高い大規模バッチ学習
- Authors: Conglong Li, Ammar Ahmad Awan, Hanlin Tang, Samyam Rajbhandari,
Yuxiong He
- Abstract要約: 通信を圧縮した場合でも適応層学習率をサポートする新しい通信効率の高い1ビットラムを提案する。
バッチサイズが8Kから64KのBERT-Large事前学習タスクでは,NCCLベースのバックエンドを持つ1ビットLAMBが最大4.6倍の通信量削減を実現可能であることを示す。
- 参考スコア(独自算出の注目度): 17.953619054149378
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To train large models (like BERT and GPT-3) with hundreds or even thousands
of GPUs, the communication has become a major bottleneck, especially on
commodity systems with limited-bandwidth TCP interconnects network. On one side
large-batch optimization such as LAMB algorithm was proposed to reduce the
number of communications. On the other side, communication compression
algorithms such as 1-bit SGD and 1-bit Adam help to reduce the volume of each
communication. However, we find that simply using one of the techniques is not
sufficient to solve the communication challenge, especially on low-bandwidth
Ethernet networks. Motivated by this we aim to combine the power of large-batch
optimization and communication compression, but we find that existing
compression strategies cannot be directly applied to LAMB due to its unique
adaptive layerwise learning rates. To this end, we design a new
communication-efficient algorithm, 1-bit LAMB, which introduces a novel way to
support adaptive layerwise learning rates even when communication is
compressed. In addition, we introduce a new system implementation for
compressed communication using the NCCL backend of PyTorch distributed, which
improves both usability and performance compared to existing MPI-based
implementation. For BERT-Large pre-training task with batch sizes from 8K to
64K, our evaluations on up to 256 GPUs demonstrate that 1-bit LAMB with
NCCL-based backend is able to achieve up to 4.6x communication volume
reduction, up to 2.8x end-to-end speedup (in terms of number of training
samples per second), and the same convergence speed (in terms of number of
pre-training samples to reach the same accuracy on fine-tuning tasks) compared
to uncompressed LAMB.
- Abstract(参考訳): BERTやGPT-3のような)大規模なモデルを数百から数千のGPUで訓練するために、通信は特に帯域幅の限られたTCP相互接続ネットワークを持つコモディティシステムにおいて、大きなボトルネックとなっている。
LAMBアルゴリズムのような一方の大規模バッチ最適化は通信量を減らすために提案された。
一方、1ビットのSGDや1ビットのAdamのような通信圧縮アルゴリズムは、各通信量の削減に役立つ。
しかし,通信課題,特に低帯域イーサネットネットワークにおいて,これらの手法の1つを単純に使うだけでは十分ではないことがわかった。
そこで我々は,大規模バッチ最適化と通信圧縮のパワーを組み合わせることを目的としているが,その適応層学習率から,既存の圧縮戦略はラムに直接適用できないことがわかった。
この目的のために,1ビットLAMBという新しい通信効率アルゴリズムを設計し,通信を圧縮しても適応層ワイド学習率をサポートする新しい手法を提案する。
さらに,pytorch distributedのncclバックエンドを用いた圧縮通信のための新しいシステム実装を導入することで,既存のmpiベースの実装に比べてユーザビリティとパフォーマンスが向上する。
BERT-Large のバッチサイズ 8K から 64K までの事前学習タスクでは,最大 256 GPU で評価した結果,NCCL ベースのバックエンドを持つ 1 ビット LAMB が,最大 4.6 倍の通信量削減,最大2.8 倍のエンドツーエンドスピードアップ(毎秒のトレーニングサンプル数)を実現し,同じ収束速度 (未圧縮の LAMB と比較した場合の事前学習サンプル数) を実現できた。
関連論文リスト
- FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - Accelerating Error Correction Code Transformers [56.75773430667148]
本稿では,トランスを用いたデコーダの高速化手法を提案する。
最新のハードウェアでは、90%の圧縮比を実現し、算術演算エネルギー消費を少なくとも224倍削減する。
論文 参考訳(メタデータ) (2024-10-08T11:07:55Z) - Accelerating Large Language Model Training with Hybrid GPU-based Compression [3.204387803072905]
MPIライブラリはメッセージサイズを大幅に削減し、相互接続帯域幅を活用することが証明されている。
分散大言語モデル(LLM)学習における圧縮支援型MPI集団の有効性について検討した。
論文 参考訳(メタデータ) (2024-09-04T04:05:30Z) - LoCo: Low-Bit Communication Adaptor for Large-scale Model Training [63.040522637816906]
低ビット通信は、しばしば圧縮情報損失によってトレーニング品質が低下する。
本稿では,ローカルGPUノードを補償するLoCo(Lo-bit Communication Adaptor)を提案する。
実験結果から,Megatron-LMやPyTorchs FSDPといった大規模トレーニングモデルフレームワークの移動により,LoCoは圧縮通信効率を大幅に向上することがわかった。
論文 参考訳(メタデータ) (2024-07-05T13:01:36Z) - Accelerating Communication in Deep Learning Recommendation Model Training with Dual-Level Adaptive Lossy Compression [10.233937665979694]
DLRMは最先端のレコメンデーションシステムモデルであり、様々な業界アプリケーションで広く採用されている。
このプロセスの重大なボトルネックは、すべてのデバイスから埋め込みデータを集めるのに必要な全通信に時間を要することだ。
本稿では,通信データサイズを削減し,DLRMトレーニングを高速化するために,エラーバウンドの損失圧縮を利用する手法を提案する。
論文 参考訳(メタデータ) (2024-07-05T05:55:18Z) - Communication-Efficient Federated Learning with Adaptive Compression under Dynamic Bandwidth [6.300376113680886]
フェデレーション学習は、ローカルデータをサーバに直接提供せずにモデルをトレーニングすることができる。
近年の研究者は、主にモデル圧縮により、連合学習のコミュニケーション効率を達成している。
本稿では,AdapComFLアルゴリズムの性能を示し,既存のアルゴリズムと比較する。
論文 参考訳(メタデータ) (2024-05-06T08:00:43Z) - Accelerating Distributed Deep Learning using Lossless Homomorphic
Compression [17.654138014999326]
本稿では,ワーカレベルの圧縮とネットワーク内アグリゲーションを効果的に融合する新しい圧縮アルゴリズムを提案する。
集約のスループットが6.33$times$改善され、イテレーションごとのトレーニング速度が3.74$times$アップします。
論文 参考訳(メタデータ) (2024-02-12T09:57:47Z) - DeAR: Accelerating Distributed Deep Learning with Fine-Grained
All-Reduce Pipelining [22.168137965177284]
コミュニケーションスケジューリングは、分散トレーニングの加速に有効であることが示されている。
本稿では,全再現プリミティブを2つの連続演算に分解する新しいスケジューリングアルゴリズムであるDeARを提案する。
DeARは最先端ソリューションよりも最大83%,15%のトレーニングスピードアップを実現していることを示す。
論文 参考訳(メタデータ) (2023-02-24T04:11:18Z) - TAMUNA: Doubly Accelerated Distributed Optimization with Local Training, Compression, and Partial Participation [53.84175614198885]
分散最適化と学習では、複数のマシンが並列にローカル計算と遠隔サーバとの通信を交互に行う。
ローカルトレーニングと圧縮の2つの戦略を共同で活用し,部分的参加を可能にする分散最適化のための最初のアルゴリズムであるTAMUNAを提案する。
論文 参考訳(メタデータ) (2023-02-20T08:37:44Z) - A Linearly Convergent Algorithm for Decentralized Optimization: Sending
Less Bits for Free! [72.31332210635524]
分散最適化手法は、中央コーディネータを使わずに、機械学習モデルのデバイス上でのトレーニングを可能にする。
ランダム化圧縮演算子を適用し,通信ボトルネックに対処する新しいランダム化一階法を提案する。
本手法は,ベースラインに比べて通信数の増加を伴わずに問題を解くことができることを示す。
論文 参考訳(メタデータ) (2020-11-03T13:35:53Z) - Training Recommender Systems at Scale: Communication-Efficient Model and
Data Parallelism [56.78673028601739]
通信効率のよいハイブリッドトレーニングのためのDCT(Dynamic Communication Thresholding)という圧縮フレームワークを提案する。
DCTは、それぞれDPとMPの間に、少なくとも$100times$と$20times$の通信を削減します。
最先端の産業レコメンデーションモデルのエンドツーエンドのトレーニング時間を、パフォーマンスを損なうことなく、37%改善する。
論文 参考訳(メタデータ) (2020-10-18T01:44:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。