論文の概要: Empirical Analysis on Top-k Gradient Sparsification for Distributed Deep
Learning in a Supercomputing Environment
- arxiv url: http://arxiv.org/abs/2209.08497v1
- Date: Sun, 18 Sep 2022 07:42:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-20 16:58:09.471579
- Title: Empirical Analysis on Top-k Gradient Sparsification for Distributed Deep
Learning in a Supercomputing Environment
- Title(参考訳): スーパーコンピュータ環境における分散深層学習のためのトップk勾配スカラー化に関する実証分析
- Authors: Daegun Yoon and Sangyoon Oh
- Abstract要約: 通信トラフィックを大幅に削減するために,勾配スペーシフィケーションが提案されている。
Top-kグラデーションスペーシフィケーション(Top-k SGD)は、トレーニング全体のパフォーマンス向上に限界がある。
我々はTop-k SGDの非効率性を示す実験を行い、低性能の知見を提供する。
- 参考スコア(独自算出の注目度): 0.6091702876917281
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To train deep learning models faster, distributed training on multiple GPUs
is the very popular scheme in recent years. However, the communication
bandwidth is still a major bottleneck of training performance. To improve
overall training performance, recent works have proposed gradient
sparsification methods that reduce the communication traffic significantly.
Most of them require gradient sorting to select meaningful gradients such as
Top-k gradient sparsification (Top-k SGD). However, Top-k SGD has a limit to
increase the speed up overall training performance because gradient sorting is
significantly inefficient on GPUs. In this paper, we conduct experiments that
show the inefficiency of Top-k SGD and provide the insight of the low
performance. Based on observations from our empirical analysis, we plan to
yield a high performance gradient sparsification method as a future work.
- Abstract(参考訳): ディープラーニングモデルを高速にトレーニングするために、複数のGPU上での分散トレーニングが近年非常に人気のあるスキームである。
しかし、通信帯域幅は依然としてトレーニング性能の大きなボトルネックである。
総合訓練性能を向上させるため,近年では通信トラフィックを大幅に削減する勾配スペーシフィケーション手法が提案されている。
それらの多くは、Top-k Gragient Sparsification (Top-k SGD)のような意味のある勾配を選択するために勾配ソートを必要とする。
しかし、Top-k SGDはGPUでは勾配ソートが著しく非効率であるため、トレーニング全体の高速化に限界がある。
本稿では,Top-k SGDの非効率性を示す実験を行い,低性能について考察する。
実験分析から得られた知見に基づき,今後の研究として,高性能な勾配スカラー化手法を提案する。
関連論文リスト
- Fast and Slow Gradient Approximation for Binary Neural Network Optimization [11.064044986709733]
ハイパーネットワークに基づく手法は、ニューラルネットワークを用いて微分不可能な量子化関数の勾配を学習する。
本稿では,ヒストリ・グラディエント・ストレージ(HGS)モジュールを提案する。これは,ヒストリ・グラディエント・シーケンスをモデル化し,最適化に必要な1次モーメントを生成する。
また、ハイパーネットワークに層認識埋め込み(LRE)を導入し、層固有の微細勾配の生成を容易にする。
論文 参考訳(メタデータ) (2024-12-16T13:48:40Z) - Gradient Sparsification For Masked Fine-Tuning of Transformers [6.936564049727831]
調整済みの自己教師型言語モデルが下流タスクへの変換学習に広く採用されている。
緩やかな凍結は、トレーニング中に層全体の勾配を徐々に解凍することで両者のトレードオフをもたらす。
徐々に凍結する層が、緩やかに変化して徐々に凍結する層に比べて、トレーニング全体を通して徐々に凍結する層が最適であるかどうかは不明である。
論文 参考訳(メタデータ) (2023-07-19T16:13:13Z) - DEFT: Exploiting Gradient Norm Difference between Model Layers for
Scalable Gradient Sparsification [0.6091702876917281]
勾配スペーシフィケーションは分散ディープラーニングにおける過剰な通信トラフィックを減らすために広く採用されているソリューションである。
本稿では、勾配選択タスクをサブタスクに分割し、労働者に分散する新しい勾配スペーシフィケーションスキームDEFTを提案する。
既存のスパリファイアよりも勾配選択の速度において,DEFTはトレーニング性能が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2023-07-07T10:29:25Z) - Quantized Training of Gradient Boosting Decision Trees [84.97123593657584]
我々は,GBDTのトレーニングアルゴリズムにおいて,高精度勾配を非常に単純かつ効果的な方法で定量化することを提案する。
低精度勾配では、GBDTトレーニングにおけるほとんどの算術演算は、8, 16, 32ビットの整数演算に置き換えられる。
大規模なデータセット上でのSOTA GBDTシステムと比較して、単純な量子化戦略の2$times$スピードアップを観測する。
論文 参考訳(メタデータ) (2022-07-20T06:27:06Z) - Gradient Correction beyond Gradient Descent [63.33439072360198]
勾配補正は明らかに、ニューラルネットワークのトレーニングにおいて、最も重要な側面である。
勾配補正を行うためのフレームワーク(textbfGCGD)を導入する。
実験結果から, 勾配補正フレームワークは, トレーニングエポックスを$sim$20%削減し, ネットワーク性能を向上させることができることがわかった。
論文 参考訳(メタデータ) (2022-03-16T01:42:25Z) - Adapting Stepsizes by Momentumized Gradients Improves Optimization and
Generalization [89.66571637204012]
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
論文 参考訳(メタデータ) (2021-06-22T03:13:23Z) - Sparse Communication for Training Deep Networks [56.441077560085475]
同期勾配降下(SGD)は、ディープラーニングモデルの分散トレーニングに最もよく用いられる手法である。
このアルゴリズムでは、各ワーカーは他のワーカーと局所勾配を共有し、すべてのワーカーの平均勾配を使ってパラメータを更新する。
いくつかの圧縮スキームについて検討し、3つの重要なパラメータが性能に与える影響を同定する。
論文 参考訳(メタデータ) (2020-09-19T17:28:11Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Large Batch Training Does Not Need Warmup [111.07680619360528]
大きなバッチサイズを使用してディープニューラルネットワークをトレーニングすることは、有望な結果を示し、多くの現実世界のアプリケーションに利益をもたらしている。
本稿では,大規模バッチ学習のための全層適応レートスケーリング(CLARS)アルゴリズムを提案する。
分析に基づいて,このギャップを埋め,3つの一般的な大規模バッチトレーニング手法の理論的洞察を提示する。
論文 参考訳(メタデータ) (2020-02-04T23:03:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。