論文の概要: 1-bit Adam: Communication Efficient Large-Scale Training with Adam's
Convergence Speed
- arxiv url: http://arxiv.org/abs/2102.02888v1
- Date: Thu, 4 Feb 2021 21:02:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-08 23:35:38.293214
- Title: 1-bit Adam: Communication Efficient Large-Scale Training with Adam's
Convergence Speed
- Title(参考訳): 1ビットAdam:Adamの収束速度によるコミュニケーション効率の高い大規模トレーニング
- Authors: Hanlin Tang, Shaoduo Gan, Ammar Ahmad Awan, Samyam Rajbhandari,
Conglong Li, Xiangru Lian, Ji Liu, Ce Zhang, Yuxiong He
- Abstract要約: 通信は、ネットワーク帯域幅が限られている標準のTCPインターコネクトを持つコモディティシステムにおいて、大きなボトルネックとなっている。
最も効果的な方法の1つは、誤り補償圧縮であり、1ビット圧縮でも堅牢な収束速度を提供する。
我々は,通信容量を最大5倍に削減し,スケーラビリティを向上し,非圧縮Adamと同じ収束速度を提供する1ビットAdamを提案する。
- 参考スコア(独自算出の注目度): 39.23129626683372
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Scalable training of large models (like BERT and GPT-3) requires careful
optimization rooted in model design, architecture, and system capabilities.
From a system standpoint, communication has become a major bottleneck,
especially on commodity systems with standard TCP interconnects that offer
limited network bandwidth. Communication compression is an important technique
to reduce training time on such systems. One of the most effective methods is
error-compensated compression, which offers robust convergence speed even under
1-bit compression. However, state-of-the-art error compensation techniques only
work with basic optimizers like SGD and momentum SGD, which are linearly
dependent on the gradients. They do not work with non-linear gradient-based
optimizers like Adam, which offer state-of-the-art convergence efficiency and
accuracy for models like BERT. In this paper, we propose 1-bit Adam that
reduces the communication volume by up to $5\times$, offers much better
scalability, and provides the same convergence speed as uncompressed Adam. Our
key finding is that Adam's variance (non-linear term) becomes stable (after a
warmup phase) and can be used as a fixed precondition for the rest of the
training (compression phase). Experiments on up to 256 GPUs show that 1-bit
Adam enables up to $3.3\times$ higher throughput for BERT-Large pre-training
and up to $2.9\times$ higher throughput for SQuAD fine-tuning. In addition, we
provide theoretical analysis for our proposed work.
- Abstract(参考訳): 大規模モデル(BERTやGPT-3など)のスケーラブルなトレーニングには、モデル設計、アーキテクチャ、システム機能に根ざした慎重な最適化が必要です。
システムの観点からは、通信は特にネットワーク帯域幅が限られている標準TCPインターコネクトを持つコモディティシステムにおいて、大きなボトルネックとなっている。
通信圧縮は、そのようなシステムの訓練時間を短縮する重要な技術である。
最も効果的な方法の1つは、1ビット圧縮下でも堅牢な収束速度を提供するエラー補償圧縮です。
しかし、最先端のエラー補償技術は、勾配に依存するsgdやmomentum sgdのような基本的な最適化器でのみ動作する。
bertのようなモデルに対して最先端の収束効率と精度を提供するadamのような非線形勾配に基づく最適化では動作しない。
本稿では,通信容量を最大5\times$に削減し,スケーラビリティを向上し,非圧縮Adamと同じ収束速度を提供する1ビットAdamを提案する。
我々の重要な発見は、アダムの分散(非線形項)が(ウォームアップフェーズの後)安定し、残りのトレーニング(圧縮フェーズ)の固定プレコンディションとして使用できることである。
最大256 gpu での実験では、1ビット adam は bert-large pre-training で最大3.3\times$、 squad fine-tuningで最大2.9\times$ high throughput となる。
また,提案する研究に対して理論的分析を行う。
関連論文リスト
- Communication-Efficient Adam-Type Algorithms for Distributed Data Mining [93.50424502011626]
我々はスケッチを利用した新しい分散Adam型アルゴリズムのクラス(例:SketchedAMSGrad)を提案する。
我々の新しいアルゴリズムは、反復毎に$O(frac1sqrtnT + frac1(k/d)2 T)$の高速収束率を$O(k log(d))$の通信コストで達成する。
論文 参考訳(メタデータ) (2022-10-14T01:42:05Z) - Maximizing Communication Efficiency for Large-scale Training via 0/1
Adam [49.426602335460295]
1ビット通信はモデルトレーニングのスケールアップに有効な手法であり、SGDで広く研究されている。
我々は2つの新しい手法により最先端の1ビットAdamを改善する0/1Adamを提案する。
論文 参考訳(メタデータ) (2022-02-12T08:02:23Z) - Robust Training of Neural Networks using Scale Invariant Architectures [70.67803417918854]
SGDとは対照的に、Adamのような適応勾配法は、現代のディープネットワークの堅牢なトレーニングを可能にする。
この一般的なアプローチは、パラメータと損失の再スケーリングに頑健であることを示す。
我々は、単にバニラSGDで訓練された場合、Adamのような適応的な手法で訓練されたBERTに匹敵する性能を達成する、SIBERTと呼ばれるスケール不変バージョンのBERTを設計する。
論文 参考訳(メタデータ) (2022-02-02T11:58:56Z) - ProgFed: Effective, Communication, and Computation Efficient Federated
Learning by Progressive Training [78.44473677588887]
本稿では,効率的なフェデレート学習のためのプログレッシブトレーニングフレームワークであるProgFedを提案する。
これは本質的に、最終モデルの強力な性能を維持しながら、計算と双方向通信コストを削減します。
以上の結果から, ProgFed はフルモデルの標準トレーニングと同等の速度で収束することがわかった。
論文 参考訳(メタデータ) (2021-10-11T14:45:00Z) - Training Recommender Systems at Scale: Communication-Efficient Model and
Data Parallelism [56.78673028601739]
通信効率のよいハイブリッドトレーニングのためのDCT(Dynamic Communication Thresholding)という圧縮フレームワークを提案する。
DCTは、それぞれDPとMPの間に、少なくとも$100times$と$20times$の通信を削減します。
最先端の産業レコメンデーションモデルのエンドツーエンドのトレーニング時間を、パフォーマンスを損なうことなく、37%改善する。
論文 参考訳(メタデータ) (2020-10-18T01:44:42Z) - APMSqueeze: A Communication Efficient Adam-Preconditioned Momentum SGD
Algorithm [39.110478306078974]
AdamはBERTやImageNetといった多くの重要なタスクをトレーニングするための効率性と正確性を保証する重要な最適化アルゴリズムである。
本稿では,bf ADAM bfプレコンディション付きbf Momentum SGDアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-08-26T02:20:23Z) - Domain-specific Communication Optimization for Distributed DNN Training [10.781867496460837]
本稿では,DNN訓練の通信オーバーヘッドをきめ細かな方法で最適化するために,ディープラーニングのドメイン固有性を利用した新しいソリューションDLCPを提案する。
これは、SGDベースのトレーニングの有界損失耐性を利用して、勾配圧縮によって純粋に回避できない尾の通信遅延を改善する。
その後、フローレベルのスケジューリングとは対照的に、粒度の細かいパケットレベルの優先順位付けとドロップを行い、グレードの層や大きさに基づいて、精度に影響を与えることなくモデル収束をさらに高速化する。
論文 参考訳(メタデータ) (2020-08-16T09:53:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。