論文の概要: Near-Optimal Sparse Allreduce for Distributed Deep Learning
- arxiv url: http://arxiv.org/abs/2201.07598v1
- Date: Wed, 19 Jan 2022 13:56:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-20 15:28:27.910090
- Title: Near-Optimal Sparse Allreduce for Distributed Deep Learning
- Title(参考訳): 分散ディープラーニングのための準最適スパースallreduce
- Authors: Shigang Li, Torsten Hoefler
- Abstract要約: コミュニケーションのオーバーヘッドは、大規模なディープラーニングモデルを大規模にトレーニングする上で、大きな障害のひとつです。
本稿では,スパース勾配を用いた分散トレーニング手法であるO$k$-Top$k$を提案する。
- 参考スコア(独自算出の注目度): 18.99898181586806
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Communication overhead is one of the major obstacles to train large deep
learning models at scale. Gradient sparsification is a promising technique to
reduce the communication volume. However, it is very challenging to obtain real
performance improvement because of (1) the difficulty of achieving an scalable
and efficient sparse allreduce algorithm and (2) the sparsification overhead.
This paper proposes O$k$-Top$k$, a scheme for distributed training with sparse
gradients. O$k$-Top$k$ integrates a novel sparse allreduce algorithm (less than
6$k$ communication volume which is asymptotically optimal) with the
decentralized parallel Stochastic Gradient Descent (SGD) optimizer, and its
convergence is proved. To reduce the sparsification overhead, O$k$-Top$k$
efficiently selects the top-$k$ gradient values according to an estimated
threshold. Evaluations are conducted on the Piz Daint supercomputer with neural
network models from different deep learning domains. Empirical results show
that O$k$-Top$k$ achieves similar model accuracy to dense allreduce. Compared
with the optimized dense and the state-of-the-art sparse allreduces,
O$k$-Top$k$ is more scalable and significantly improves training throughput
(e.g., 3.29x-12.95x improvement for BERT on 256 GPUs).
- Abstract(参考訳): 大規模なディープラーニングモデルをトレーニングする上で,コミュニケーションのオーバーヘッドは大きな障害のひとつだ。
勾配スパーシフィケーションは通信量を減らすための有望な技術である。
しかし,(1)スケーラブルで効率的なsparse allreduceアルゴリズムの達成が困難で,(2)スパース化オーバーヘッドの低減が困難であることから,実性能の向上は困難である。
本稿では,分散勾配を持つ分散学習のためのスキームであるo$k$-top$k$を提案する。
O$k$-Top$k$は、分散並列SGD(Stochastic Gradient Descent)オプティマイザと新しいスパースアレーダアルゴリズム(漸近的に最適である6$k$以下の通信量)を統合し、その収束性を証明する。
スパーシフィケーションオーバーヘッドを低減するため、o$k$-top$k$は推定しきい値に応じてトップ$k$勾配値を効率的に選択する。
異なるディープラーニング領域のニューラルネットワークモデルを用いたpiz daintスーパーコンピュータ上で評価を行う。
実験の結果、o$k$-top$k$ は密集したallreduceと類似のモデル精度が得られることがわかった。
最適化されたsparse allreduceと最先端のsparse allreduceと比較して、o$k$-top$k$はよりスケーラブルで、トレーニングスループットが大幅に向上している(256gpuでのbertの3.29x-12.95倍の改善など)。
関連論文リスト
- Differential Private Stochastic Optimization with Heavy-tailed Data: Towards Optimal Rates [15.27596975662702]
重み付き勾配を用いたDP最適化の最適速度を達成するアルゴリズムについて検討する。
その結果,DP下での凸最適化の理論的限界が達成可能であることを示す。
論文 参考訳(メタデータ) (2024-08-19T11:07:05Z) - Memory-Efficient Gradient Unrolling for Large-Scale Bi-level Optimization [71.35604981129838]
従来の勾配に基づく二段階最適化アルゴリズムは、大規模アプリケーションの要求を満たすには不適である。
両レベル最適化のためのメタ勾配の偏りのない近似を実現するための$(textFG)2textU$を導入する。
$(textFG)2textU$は本質的に並列コンピューティングをサポートするように設計されており、大規模分散コンピューティングシステムを効果的に活用することができる。
論文 参考訳(メタデータ) (2024-06-20T08:21:52Z) - Stochastic Constrained Decentralized Optimization for Machine Learning with Fewer Data Oracles: a Gradient Sliding Approach [32.36073823372713]
機械学習モデルでは、アルゴリズムはその勾配のためにデータセンターとサンプルデータに通信する必要がある。
これにより、通信効率が良く、勾配計算の数を最小限に抑える分散最適化アルゴリズムの必要性が生じる。
通信効率が高く,$varepsilon$-approximate のソリューションを実現する。
論文 参考訳(メタデータ) (2024-04-03T06:55:59Z) - Adaptive Federated Minimax Optimization with Lower Complexities [82.51223883622552]
本稿では,これらのミニマックス問題の解法として,適応最小最適化アルゴリズム(AdaFGDA)を提案する。
運動量に基づく還元および局所SGD技術を構築し、様々な適応学習率を柔軟に組み込む。
論文 参考訳(メタデータ) (2022-11-14T12:32:18Z) - Communication-Efficient Adam-Type Algorithms for Distributed Data Mining [93.50424502011626]
我々はスケッチを利用した新しい分散Adam型アルゴリズムのクラス(例:SketchedAMSGrad)を提案する。
我々の新しいアルゴリズムは、反復毎に$O(frac1sqrtnT + frac1(k/d)2 T)$の高速収束率を$O(k log(d))$の通信コストで達成する。
論文 参考訳(メタデータ) (2022-10-14T01:42:05Z) - Rethinking gradient sparsification as total error minimization [0.0]
分散トレーニングネットワーク(DNN)における通信ボトルネックに対処する手段として,グラディエント圧縮が広く確立されている。
我々は、特にDNNにとって、勾配スペーシフィケーションの利点は必要であると主張する。
論文 参考訳(メタデータ) (2021-08-02T14:52:42Z) - Effective Model Sparsification by Scheduled Grow-and-Prune Methods [73.03533268740605]
本稿では,高密度モデルの事前学習を伴わない新規なGrow-and-prune(GaP)手法を提案する。
実験により、そのようなモデルは様々なタスクにおいて80%の間隔で高度に最適化された高密度モデルの品質に適合または打ち勝つことができることが示された。
論文 参考訳(メタデータ) (2021-06-18T01:03:13Z) - On the Benefits of Multiple Gossip Steps in Communication-Constrained
Decentralized Optimization [29.42301299741866]
ステップサイズが一定である$O(logfrac1epsilon)$の反復を$O(logfrac1epsilon)$とすることで、スムーズな非圧縮勾配目的に対する最適値の$epsilon$に収束できることを示す。
我々の知る限り、これは圧縮された通信圧縮パラメータの下での非最適化の収束結果を導出した最初の研究である。
論文 参考訳(メタデータ) (2020-11-20T21:17:32Z) - Sparse Communication for Training Deep Networks [56.441077560085475]
同期勾配降下(SGD)は、ディープラーニングモデルの分散トレーニングに最もよく用いられる手法である。
このアルゴリズムでは、各ワーカーは他のワーカーと局所勾配を共有し、すべてのワーカーの平均勾配を使ってパラメータを更新する。
いくつかの圧縮スキームについて検討し、3つの重要なパラメータが性能に与える影響を同定する。
論文 参考訳(メタデータ) (2020-09-19T17:28:11Z) - Gradient Free Minimax Optimization: Variance Reduction and Faster
Convergence [120.9336529957224]
本稿では、勾配のないミニマックス最適化問題の大きさを非強設定で表現する。
本稿では,新しいゼロ階分散還元降下アルゴリズムが,クエリの複雑さを最もよく表すことを示す。
論文 参考訳(メタデータ) (2020-06-16T17:55:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。