Fugu-MT 論文翻訳(概要): 1-bit LAMB: Communication Efficient Large-Scale Large-Batch Training with LAMB's Convergence Speed

論文の概要: 1-bit LAMB: Communication Efficient Large-Scale Large-Batch Training with LAMB's Convergence Speed

arxiv url: http://arxiv.org/abs/2104.06069v1
Date: Tue, 13 Apr 2021 10:07:49 GMT
ステータス: 翻訳完了
システム内更新日: 2021-04-14 21:19:05.416867
Title: 1-bit LAMB: Communication Efficient Large-Scale Large-Batch Training with LAMB's Convergence Speed
Title（参考訳）: 1ビットLAMB: LAMBの収束速度を用いた通信効率の高い大規模バッチ学習
Authors: Conglong Li, Ammar Ahmad Awan, Hanlin Tang, Samyam Rajbhandari, Yuxiong He
Abstract要約: 通信を圧縮した場合でも適応層学習率をサポートする新しい通信効率の高い1ビットラムを提案する。バッチサイズが8Kから64KのBERT-Large事前学習タスクでは,NCCLベースのバックエンドを持つ1ビットLAMBが最大4.6倍の通信量削減を実現可能であることを示す。
参考スコア（独自算出の注目度）: 17.953619054149378
License: http://creativecommons.org/licenses/by/4.0/
Abstract: To train large models (like BERT and GPT-3) with hundreds or even thousands of GPUs, the communication has become a major bottleneck, especially on commodity systems with limited-bandwidth TCP interconnects network. On one side large-batch optimization such as LAMB algorithm was proposed to reduce the number of communications. On the other side, communication compression algorithms such as 1-bit SGD and 1-bit Adam help to reduce the volume of each communication. However, we find that simply using one of the techniques is not sufficient to solve the communication challenge, especially on low-bandwidth Ethernet networks. Motivated by this we aim to combine the power of large-batch optimization and communication compression, but we find that existing compression strategies cannot be directly applied to LAMB due to its unique adaptive layerwise learning rates. To this end, we design a new communication-efficient algorithm, 1-bit LAMB, which introduces a novel way to support adaptive layerwise learning rates even when communication is compressed. In addition, we introduce a new system implementation for compressed communication using the NCCL backend of PyTorch distributed, which improves both usability and performance compared to existing MPI-based implementation. For BERT-Large pre-training task with batch sizes from 8K to 64K, our evaluations on up to 256 GPUs demonstrate that 1-bit LAMB with NCCL-based backend is able to achieve up to 4.6x communication volume reduction, up to 2.8x end-to-end speedup (in terms of number of training samples per second), and the same convergence speed (in terms of number of pre-training samples to reach the same accuracy on fine-tuning tasks) compared to uncompressed LAMB.
Abstract（参考訳）: BERTやGPT-3のような)大規模なモデルを数百から数千のGPUで訓練するために、通信は特に帯域幅の限られたTCP相互接続ネットワークを持つコモディティシステムにおいて、大きなボトルネックとなっている。 LAMBアルゴリズムのような一方の大規模バッチ最適化は通信量を減らすために提案された。一方、1ビットのSGDや1ビットのAdamのような通信圧縮アルゴリズムは、各通信量の削減に役立つ。しかし,通信課題,特に低帯域イーサネットネットワークにおいて,これらの手法の1つを単純に使うだけでは十分ではないことがわかった。そこで我々は,大規模バッチ最適化と通信圧縮のパワーを組み合わせることを目的としているが,その適応層学習率から,既存の圧縮戦略はラムに直接適用できないことがわかった。この目的のために,1ビットLAMBという新しい通信効率アルゴリズムを設計し,通信を圧縮しても適応層ワイド学習率をサポートする新しい手法を提案する。さらに,pytorch distributedのncclバックエンドを用いた圧縮通信のための新しいシステム実装を導入することで,既存のmpiベースの実装に比べてユーザビリティとパフォーマンスが向上する。 BERT-Large のバッチサイズ 8K から 64K までの事前学習タスクでは,最大 256 GPU で評価した結果,NCCL ベースのバックエンドを持つ 1 ビット LAMB が,最大 4.6 倍の通信量削減,最大2.8 倍のエンドツーエンドスピードアップ(毎秒のトレーニングサンプル数)を実現し,同じ収束速度 (未圧縮の LAMB と比較した場合の事前学習サンプル数) を実現できた。

関連論文リスト

Reducing Storage of Pretrained Neural Networks by Rate-Constrained Quantization and Entropy Coding [56.066799081747845]
成長を続けるニューラルネットワークのサイズは、リソースに制約のあるデバイスに深刻な課題をもたらす。本稿では,レートアウェア量子化とエントロピー符号化を組み合わせた学習後圧縮フレームワークを提案する。この方法では非常に高速な復号化が可能であり、任意の量子化グリッドと互換性がある。
論文参考訳（メタデータ） (2025-05-24T15:52:49Z)
Sparsity-Aware Communication for Distributed Graph Neural Network Training [0.41942958779358674]
グラフニューラルネットワーク(GNN)は、グラフデータの埋め込みや分類を学ぶための計算効率の良い手法である。 GNNトレーニングは計算強度が低く、通信コストがスケーラビリティのボトルネックとなる。我々は3つの新しいアプローチでGNN訓練における通信ボトルネックに対処する空間性認識アルゴリズムを開発した。
論文参考訳（メタデータ） (2025-04-07T01:53:14Z)
FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45～9.39倍の高速化を実現可能であることを示す。
論文参考訳（メタデータ） (2024-10-16T16:13:19Z)
Accelerating Error Correction Code Transformers [56.75773430667148]
本稿では,トランスを用いたデコーダの高速化手法を提案する。最新のハードウェアでは、90%の圧縮比を実現し、算術演算エネルギー消費を少なくとも224倍削減する。
論文参考訳（メタデータ） (2024-10-08T11:07:55Z)
Accelerating Large Language Model Training with Hybrid GPU-based Compression [3.204387803072905]
MPIライブラリはメッセージサイズを大幅に削減し、相互接続帯域幅を活用することが証明されている。分散大言語モデル(LLM)学習における圧縮支援型MPI集団の有効性について検討した。
論文参考訳（メタデータ） (2024-09-04T04:05:30Z)
LoCo: Low-Bit Communication Adaptor for Large-scale Model Training [63.040522637816906]
低ビット通信は、しばしば圧縮情報損失によってトレーニング品質が低下する。本稿では,ローカルGPUノードを補償するLoCo(Lo-bit Communication Adaptor)を提案する。実験結果から,Megatron-LMやPyTorchs FSDPといった大規模トレーニングモデルフレームワークの移動により,LoCoは圧縮通信効率を大幅に向上することがわかった。
論文参考訳（メタデータ） (2024-07-05T13:01:36Z)
Accelerating Communication in Deep Learning Recommendation Model Training with Dual-Level Adaptive Lossy Compression [10.233937665979694]
DLRMは最先端のレコメンデーションシステムモデルであり、様々な業界アプリケーションで広く採用されている。このプロセスの重大なボトルネックは、すべてのデバイスから埋め込みデータを集めるのに必要な全通信に時間を要することだ。本稿では,通信データサイズを削減し,DLRMトレーニングを高速化するために,エラーバウンドの損失圧縮を利用する手法を提案する。
論文参考訳（メタデータ） (2024-07-05T05:55:18Z)
Communication-Efficient Federated Learning with Adaptive Compression under Dynamic Bandwidth [6.300376113680886]
フェデレーション学習は、ローカルデータをサーバに直接提供せずにモデルをトレーニングすることができる。近年の研究者は、主にモデル圧縮により、連合学習のコミュニケーション効率を達成している。本稿では,AdapComFLアルゴリズムの性能を示し,既存のアルゴリズムと比較する。
論文参考訳（メタデータ） (2024-05-06T08:00:43Z)
LoCoDL: Communication-Efficient Distributed Learning with Local Training and Compression [56.01900711954956]
そこで我々はLoCoDL(LoCoDL)と,フロートの実次元ベクトルの代わりに短いビットストリームが送信される圧縮(Compression)という,ローカルトレーニングの一般的かつ効果的な2つの手法を利用する通信効率の高いアルゴリズムを紹介した。 LoCoDLは、局所的な訓練と圧縮の恩恵を受け、強い凸関数を持つ一般的な異種体制において、関数の条件数とモデル次元に関して、二重に加速された通信複雑性を享受する。
論文参考訳（メタデータ） (2024-03-07T09:22:50Z)
Accelerating Distributed Deep Learning using Lossless Homomorphic Compression [17.654138014999326]
本稿では,ワーカレベルの圧縮とネットワーク内アグリゲーションを効果的に融合する新しい圧縮アルゴリズムを提案する。集約のスループットが6.33$times$改善され、イテレーションごとのトレーニング速度が3.74$times$アップします。
論文参考訳（メタデータ） (2024-02-12T09:57:47Z)
DeAR: Accelerating Distributed Deep Learning with Fine-Grained All-Reduce Pipelining [22.168137965177284]
コミュニケーションスケジューリングは、分散トレーニングの加速に有効であることが示されている。本稿では,全再現プリミティブを2つの連続演算に分解する新しいスケジューリングアルゴリズムであるDeARを提案する。 DeARは最先端ソリューションよりも最大83%,15%のトレーニングスピードアップを実現していることを示す。
論文参考訳（メタデータ） (2023-02-24T04:11:18Z)
TAMUNA: Doubly Accelerated Distributed Optimization with Local Training, Compression, and Partial Participation [53.84175614198885]
分散最適化と学習では、複数のマシンが並列にローカル計算と遠隔サーバとの通信を交互に行う。ローカルトレーニングと圧縮の2つの戦略を共同で活用し,部分的参加を可能にする分散最適化のための最初のアルゴリズムであるTAMUNAを提案する。
論文参考訳（メタデータ） (2023-02-20T08:37:44Z)
A Linearly Convergent Algorithm for Decentralized Optimization: Sending Less Bits for Free! [72.31332210635524]
分散最適化手法は、中央コーディネータを使わずに、機械学習モデルのデバイス上でのトレーニングを可能にする。ランダム化圧縮演算子を適用し,通信ボトルネックに対処する新しいランダム化一階法を提案する。本手法は,ベースラインに比べて通信数の増加を伴わずに問題を解くことができることを示す。
論文参考訳（メタデータ） (2020-11-03T13:35:53Z)
Training Recommender Systems at Scale: Communication-Efficient Model and Data Parallelism [56.78673028601739]
通信効率のよいハイブリッドトレーニングのためのDCT(Dynamic Communication Thresholding)という圧縮フレームワークを提案する。 DCTは、それぞれDPとMPの間に、少なくとも$100times$と$20times$の通信を削減します。最先端の産業レコメンデーションモデルのエンドツーエンドのトレーニング時間を、パフォーマンスを損なうことなく、37%改善する。
論文参考訳（メタデータ） (2020-10-18T01:44:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。