論文の概要: Preserving Near-Optimal Gradient Sparsification Cost for Scalable
Distributed Deep Learning
- arxiv url: http://arxiv.org/abs/2402.13781v1
- Date: Wed, 21 Feb 2024 13:00:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-22 15:18:04.112488
- Title: Preserving Near-Optimal Gradient Sparsification Cost for Scalable
Distributed Deep Learning
- Title(参考訳): スケーラブルな分散ディープラーニングのための準最適勾配スパーシフィケーションコストの維持
- Authors: Daegun Yoon, Sangyoon Oh
- Abstract要約: 勾配スペーシフィケーションは、モデルの忠実度を著しく損なうことなく、通信量を削減するための潜在的な最適化手法である。
既存の勾配スペーシフィケーション法は、アルゴリズムの非効率設計のため、スケーラビリティが低い。
本稿では,これらの課題に対処するため,ExDynaと呼ばれる新しい勾配スカラー化手法を提案する。
実験では、ExDynaはトレーニング速度とスパシフィケーション性能の点で最先端のスパシファイアよりも優れていた。
- 参考スコア(独自算出の注目度): 0.32634122554914
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Communication overhead is a major obstacle to scaling distributed training
systems. Gradient sparsification is a potential optimization approach to reduce
the communication volume without significant loss of model fidelity. However,
existing gradient sparsification methods have low scalability owing to
inefficient design of their algorithms, which raises the communication overhead
significantly. In particular, gradient build-up and inadequate sparsity control
methods degrade the sparsification performance considerably. Moreover,
communication traffic increases drastically owing to workload imbalance of
gradient selection between workers.
To address these challenges, we propose a novel gradient sparsification
scheme called ExDyna. In ExDyna, the gradient tensor of the model comprises
fined-grained blocks, and contiguous blocks are grouped into non-overlapping
partitions. Each worker selects gradients in its exclusively allocated
partition so that gradient build-up never occurs. To balance the workload of
gradient selection between workers, ExDyna adjusts the topology of partitions
by comparing the workloads of adjacent partitions. In addition, ExDyna supports
online threshold scaling, which estimates the accurate threshold of gradient
selection on-the-fly. Accordingly, ExDyna can satisfy the user-required
sparsity level during a training period regardless of models and datasets.
Therefore, ExDyna can enhance the scalability of distributed training systems
by preserving near-optimal gradient sparsification cost. In experiments, ExDyna
outperformed state-of-the-art sparsifiers in terms of training speed and
sparsification performance while achieving high accuracy.
- Abstract(参考訳): 分散トレーニングシステムのスケールアップには,通信オーバーヘッドが大きな障害になります。
勾配スパーシフィケーション(gradient sparsification)は、モデルの忠実さを損なうことなく通信量を削減できる潜在的な最適化アプローチである。
しかし,従来の勾配スペーシフィケーション手法は,アルゴリズムの非効率設計のためスケーラビリティが低く,通信オーバーヘッドが著しく増大する。
特に、勾配の組立と不適切なスパーシティ制御は、スパーシフィケーション性能を著しく低下させる。
さらに、作業者間の勾配選択の不均衡により、通信トラフィックが大幅に増加する。
これらの課題に対処するため,我々はexdynaと呼ばれる新しい勾配スパーシフィケーションスキームを提案する。
exdynaでは、モデルの勾配テンソルは細粒度ブロックを含み、連続したブロックは重複しないパーティションにグループ化される。
各ワーカーは専用のパーティションで勾配を選択し、勾配のビルドは決して起こらない。
ワーカー間の勾配選択のワークロードのバランスをとるために、ExDynaは隣接するパーティションのワークロードを比較してパーティションのトポロジを調整する。
さらに、exdynaはオンラインしきい値スケーリングをサポートし、オンザフライでの勾配選択の正確なしきい値を推定する。
したがって、ExDynaは、モデルやデータセットに関わらず、トレーニング期間中に、ユーザが要求するスパーシリティレベルを満たすことができる。
したがってexdynaは,準最適勾配スパーシフィケーションコストを保ちながら,分散トレーニングシステムのスケーラビリティを向上させることができる。
実験では、ExDynaはトレーニング速度とスパシフィケーション性能の点で最先端のスパシファイアより優れ、精度が高い。
関連論文リスト
- Efficient Diffusion as Low Light Enhancer [63.789138528062225]
RATR(Reflectance-Aware Trajectory Refinement)は、イメージの反射成分を用いて教師の軌跡を洗練するための、シンプルで効果的なモジュールである。
textbfReDDiT (textbfDistilled textbfTrajectory) は低照度画像強調(LLIE)に適した効率的で柔軟な蒸留フレームワークである。
論文 参考訳(メタデータ) (2024-10-16T08:07:18Z) - MiCRO: Near-Zero Cost Gradient Sparsification for Scaling and
Accelerating Distributed DNN Training [0.32634122554914]
勾配スペーシフィケーションは分散ディープニューラルネットワーク(DNN)トレーニングのスケーリングと高速化のためのテクニックである。
既存のスペーサーは、勾配選択の計算コストが高いためスケーラビリティが低い。
そこで本研究では,MiCROと呼ばれる新しい勾配スカラー化手法を提案する。
我々の実験では、MiCROは卓越した収束率で最先端のスパリファイアよりも優れていた。
論文 参考訳(メタデータ) (2023-10-02T08:15:35Z) - GIFD: A Generative Gradient Inversion Method with Feature Domain
Optimization [52.55628139825667]
Federated Learning(FL)は、クライアントのプライバシを保護するための有望な分散機械学習フレームワークとして登場した。
近年の研究では、事前学習された生成逆ネットワーク(GAN)を事前知識として活用することにより、攻撃者が共有勾配を逆転し、FLシステムに対する機密データを回復できることが示されている。
textbfGradient textbfInversion over textbfFeature textbfDomains (GIFD)を提案する。
論文 参考訳(メタデータ) (2023-08-09T04:34:21Z) - DEFT: Exploiting Gradient Norm Difference between Model Layers for
Scalable Gradient Sparsification [0.6091702876917281]
勾配スペーシフィケーションは分散ディープラーニングにおける過剰な通信トラフィックを減らすために広く採用されているソリューションである。
本稿では、勾配選択タスクをサブタスクに分割し、労働者に分散する新しい勾配スペーシフィケーションスキームDEFTを提案する。
既存のスパリファイアよりも勾配選択の速度において,DEFTはトレーニング性能が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2023-07-07T10:29:25Z) - End-to-End Diffusion Latent Optimization Improves Classifier Guidance [81.27364542975235]
拡散潜水剤(DOODL)の直接最適化は,新しいガイダンス手法である。
拡散潜伏剤の最適化によるプラグアンドプレイ誘導を可能にする。
計算と人的評価の指標において、一段階の分類器ガイダンスよりも優れている。
論文 参考訳(メタデータ) (2023-03-23T22:43:52Z) - Adaptive Top-K in SGD for Communication-Efficient Distributed Learning [14.867068493072885]
本稿では,SGDフレームワークにおける新しい適応Top-Kを提案する。
MNIST と CIFAR-10 データセットの数値結果から,SGD における適応型 Top-K アルゴリズムは,最先端の手法に比べてはるかに優れた収束率が得られることが示された。
論文 参考訳(メタデータ) (2022-10-24T18:33:35Z) - Wyner-Ziv Gradient Compression for Federated Learning [4.619828919345114]
グラディエント圧縮は, 圧縮勾配を伝送することで通信負荷を低減する効果的な方法である。
本稿では、歴史的勾配を用いて勾配を圧縮するフェデレート学習のための実用的な勾配圧縮手法を提案する。
また、実際のデータセットに勾配量子化法を実装し、提案手法の性能は従来の手法よりも優れている。
論文 参考訳(メタデータ) (2021-11-16T07:55:43Z) - Efficient Distributed Auto-Differentiation [22.192220404846267]
大規模ディープニューラルネットワーク(DNN)をトレーニングするための勾配ベースのアルゴリズムは通信量が多い。
グラデーションよりもコミュニケーションにやさしい分散型DNNをトレーニングするための驚くほど単純な統計を紹介します。
このプロセスは、バックプロパゲーション中のグラデーション平均の柔軟性を提供し、新しい柔軟なトレーニングスキーマを可能にします。
論文 参考訳(メタデータ) (2021-02-18T21:46:27Z) - Sparse Communication for Training Deep Networks [56.441077560085475]
同期勾配降下(SGD)は、ディープラーニングモデルの分散トレーニングに最もよく用いられる手法である。
このアルゴリズムでは、各ワーカーは他のワーカーと局所勾配を共有し、すべてのワーカーの平均勾配を使ってパラメータを更新する。
いくつかの圧縮スキームについて検討し、3つの重要なパラメータが性能に与える影響を同定する。
論文 参考訳(メタデータ) (2020-09-19T17:28:11Z) - Implicit Bias in Deep Linear Classification: Initialization Scale vs
Training Accuracy [71.25689267025244]
移行がスケールとトレーニング損失の最小化の関係によってどのように制御されるかを示す。
以上の結果から,勾配降下の限界挙動は,ばかげた訓練精度でのみ引き起こされることが示唆された。
論文 参考訳(メタデータ) (2020-07-13T23:49:53Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。