論文の概要: MiCRO: Near-Zero Cost Gradient Sparsification for Scaling and
Accelerating Distributed DNN Training
- arxiv url: http://arxiv.org/abs/2310.00967v2
- Date: Sun, 26 Nov 2023 18:30:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-30 14:25:26.988637
- Title: MiCRO: Near-Zero Cost Gradient Sparsification for Scaling and
Accelerating Distributed DNN Training
- Title(参考訳): MiCRO:分散DNNトレーニングのスケーリングと高速化のためのニアゼロコスト勾配スカラー化
- Authors: Daegun Yoon, Sangyoon Oh
- Abstract要約: 勾配スペーシフィケーションは分散ディープニューラルネットワーク(DNN)トレーニングのスケーリングと高速化のためのテクニックである。
既存のスペーサーは、勾配選択の計算コストが高いためスケーラビリティが低い。
そこで本研究では,MiCROと呼ばれる新しい勾配スカラー化手法を提案する。
我々の実験では、MiCROは卓越した収束率で最先端のスパリファイアよりも優れていた。
- 参考スコア(独自算出の注目度): 0.32634122554914
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Gradient sparsification is a communication optimisation technique for scaling
and accelerating distributed deep neural network (DNN) training. It reduces the
increasing communication traffic for gradient aggregation. However, existing
sparsifiers have poor scalability because of the high computational cost of
gradient selection and/or increase in communication traffic. In particular, an
increase in communication traffic is caused by gradient build-up and
inappropriate threshold for gradient selection.
To address these challenges, we propose a novel gradient sparsification
method called MiCRO. In MiCRO, the gradient vector is partitioned, and each
partition is assigned to the corresponding worker. Each worker then selects
gradients from its partition, and the aggregated gradients are free from
gradient build-up. Moreover, MiCRO estimates the accurate threshold to maintain
the communication traffic as per user requirement by minimising the compression
ratio error. MiCRO enables near-zero cost gradient sparsification by solving
existing problems that hinder the scalability and acceleration of distributed
DNN training. In our extensive experiments, MiCRO outperformed state-of-the-art
sparsifiers with an outstanding convergence rate.
- Abstract(参考訳): Gradient Sparsificationは、分散ディープニューラルネットワーク(DNN)トレーニングのスケーリングと高速化のための通信最適化技術である。
これにより、グラデーション集約のための通信トラフィックが増加する。
しかし、勾配選択や通信トラフィックの増加といった計算コストが高いため、既存のスパルサライザはスケーラビリティに乏しい。
特に通信トラフィックの増加は勾配のビルドアップと勾配選択の不適切なしきい値によって引き起こされる。
これらの課題に対処するため、我々はMiCROと呼ばれる新しい勾配スカラー化手法を提案する。
MiCROでは、勾配ベクトルは分割され、各パーティションは対応するワーカーに割り当てられる。
各ワーカーはそのパーティションから勾配を選択し、集約された勾配は勾配のビルドから解放される。
さらに、圧縮比誤差を最小にすることで、ユーザの要求に応じて通信トラフィックを維持するための正確な閾値を推定する。
MiCROは、分散DNNトレーニングのスケーラビリティと加速を妨げる既存の問題を解決することで、ほぼゼロのコスト勾配スカラー化を可能にする。
我々の大規模な実験では、MiCROは優れた収束率を持つ最先端のスパリファイアよりも優れていた。
関連論文リスト
- Preserving Near-Optimal Gradient Sparsification Cost for Scalable
Distributed Deep Learning [0.32634122554914]
勾配スペーシフィケーションは、モデルの忠実度を著しく損なうことなく、通信量を削減するための潜在的な最適化手法である。
既存の勾配スペーシフィケーション法は、アルゴリズムの非効率設計のため、スケーラビリティが低い。
本稿では,これらの課題に対処するため,ExDynaと呼ばれる新しい勾配スカラー化手法を提案する。
実験では、ExDynaはトレーニング速度とスパシフィケーション性能の点で最先端のスパシファイアよりも優れていた。
論文 参考訳(メタデータ) (2024-02-21T13:00:44Z) - RS-DGC: Exploring Neighborhood Statistics for Dynamic Gradient
Compression on Remote Sensing Image Interpretation [23.649838489244917]
通信コスト削減のためのGC技術として,勾配スペーシフィケーションの有効性が検証されている。
本稿では,RS-DGC画像解釈のための近傍統計指標を用いた簡易かつ効果的な動的勾配圧縮手法を提案する。
NWPU-RESISC45データセットの50倍以上の通信圧縮で0.51%の精度向上を実現した。
論文 参考訳(メタデータ) (2023-12-29T09:24:26Z) - GIFD: A Generative Gradient Inversion Method with Feature Domain
Optimization [52.55628139825667]
Federated Learning(FL)は、クライアントのプライバシを保護するための有望な分散機械学習フレームワークとして登場した。
近年の研究では、事前学習された生成逆ネットワーク(GAN)を事前知識として活用することにより、攻撃者が共有勾配を逆転し、FLシステムに対する機密データを回復できることが示されている。
textbfGradient textbfInversion over textbfFeature textbfDomains (GIFD)を提案する。
論文 参考訳(メタデータ) (2023-08-09T04:34:21Z) - DEFT: Exploiting Gradient Norm Difference between Model Layers for
Scalable Gradient Sparsification [0.6091702876917281]
勾配スペーシフィケーションは分散ディープラーニングにおける過剰な通信トラフィックを減らすために広く採用されているソリューションである。
本稿では、勾配選択タスクをサブタスクに分割し、労働者に分散する新しい勾配スペーシフィケーションスキームDEFTを提案する。
既存のスパリファイアよりも勾配選択の速度において,DEFTはトレーニング性能が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2023-07-07T10:29:25Z) - Magnitude Matters: Fixing SIGNSGD Through Magnitude-Aware Sparsification
in the Presence of Data Heterogeneity [60.791736094073]
通信オーバーヘッドは、ディープニューラルネットワークの分散トレーニングにおいて、大きなボトルネックのひとつになっています。
本稿では,SIGNSGDの非収束問題に対処する等級化方式を提案する。
提案手法は,Fashion-MNIST, CIFAR-10, CIFAR-100データセットを用いて検証した。
論文 参考訳(メタデータ) (2023-02-19T17:42:35Z) - Adaptive Top-K in SGD for Communication-Efficient Distributed Learning [14.867068493072885]
本稿では,SGDフレームワークにおける新しい適応Top-Kを提案する。
MNIST と CIFAR-10 データセットの数値結果から,SGD における適応型 Top-K アルゴリズムは,最先端の手法に比べてはるかに優れた収束率が得られることが示された。
論文 参考訳(メタデータ) (2022-10-24T18:33:35Z) - Scaling Forward Gradient With Local Losses [117.22685584919756]
フォワード学習は、ディープニューラルネットワークを学ぶためのバックプロップに代わる生物学的に妥当な代替手段である。
重みよりも活性化に摂動を適用することにより、前方勾配のばらつきを著しく低減できることを示す。
提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-07T03:52:27Z) - Fundamental Limits of Communication Efficiency for Model Aggregation in
Distributed Learning: A Rate-Distortion Approach [54.311495894129585]
本研究では,分散学習におけるモデルアグリゲーションの通信コストの限界について,速度歪みの観点から検討する。
SignSGDでは,ワーカノード間の相関を利用した通信利得が重要であることがわかった。
論文 参考訳(メタデータ) (2022-06-28T13:10:40Z) - Gradient Correction beyond Gradient Descent [63.33439072360198]
勾配補正は明らかに、ニューラルネットワークのトレーニングにおいて、最も重要な側面である。
勾配補正を行うためのフレームワーク(textbfGCGD)を導入する。
実験結果から, 勾配補正フレームワークは, トレーニングエポックスを$sim$20%削減し, ネットワーク性能を向上させることができることがわかった。
論文 参考訳(メタデータ) (2022-03-16T01:42:25Z) - Sparse Communication for Training Deep Networks [56.441077560085475]
同期勾配降下(SGD)は、ディープラーニングモデルの分散トレーニングに最もよく用いられる手法である。
このアルゴリズムでは、各ワーカーは他のワーカーと局所勾配を共有し、すべてのワーカーの平均勾配を使ってパラメータを更新する。
いくつかの圧縮スキームについて検討し、3つの重要なパラメータが性能に与える影響を同定する。
論文 参考訳(メタデータ) (2020-09-19T17:28:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。