論文の概要: SparDL: Distributed Deep Learning Training with Efficient Sparse
Communication
- arxiv url: http://arxiv.org/abs/2304.00737v1
- Date: Mon, 3 Apr 2023 06:15:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-04 16:37:17.990080
- Title: SparDL: Distributed Deep Learning Training with Efficient Sparse
Communication
- Title(参考訳): SparDL: 効率的なスパース通信による分散ディープラーニングトレーニング
- Authors: Minjun Zhao, Yichen Yin, Yuren Mao, Lu Chen, Yunjun Gao
- Abstract要約: 我々はSparDLと呼ばれるフレキシブルで効率的なスパース通信フレームワークを提案する。
SparDLはSpar-Reduce-Scatterアルゴリズムを用いて、追加の通信操作なしでグラディエント累積ジレンマを解く。
通信の複雑さをさらに軽減するため,SparDLの一部としてSpar-All-Gatherアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 22.46037658479844
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Top-$k$ sparsification has recently been widely used to reduce the
communication volume in distributed deep learning; however, due to Gradient
Accumulation (GA) dilemma, the performance of top-$k$ sparsification is still
limited. Several methods have been proposed to handle the GA dilemma but have
two drawbacks: (1) they are frustrated by the high communication complexity as
they introduce a large amount of extra transmission; (2) they are not flexible
for non-power-of-two numbers of workers. To solve these two problems, we
propose a flexible and efficient sparse communication framework, dubbed SparDL.
SparDL uses the Spar-Reduce-Scatter algorithm to solve the GA dilemma without
additional communication operations and is flexible to any number of workers.
Besides, to further reduce the communication complexity and adjust the
proportion of latency and bandwidth cost in communication complexity, we
propose the Spar-All-Gather algorithm as part of SparDL. Extensive experiments
validate the superiority of SparDL.
- Abstract(参考訳): Top-k$スペーシフィケーションは近年,分散ディープラーニングにおける通信量削減に広く利用されているが,Gradient Accumulation (GA) ジレンマにより,Top-k$スペーシフィケーションの性能は依然として限られている。
GAジレンマの処理にはいくつかの方法が提案されているが,(1)大量の余剰送信を導入すると通信の複雑化に不満を抱くこと,(2)非力の労働者には柔軟性がないこと,の2つの欠点がある。
これら2つの問題を解決するために,SparDLと呼ばれるフレキシブルで効率的なスパース通信フレームワークを提案する。
SparDLはSpar-Reduce-Scatterアルゴリズムを用いて、追加の通信操作なしでGAジレンマを解く。
さらに,通信複雑性をさらに低減し,通信複雑性のレイテンシと帯域幅コストの比率を調整するために,SparDLの一部としてSpar-All-Gatherアルゴリズムを提案する。
広範な実験はspardlの優位性を検証する。
関連論文リスト
- FRUGAL: Memory-Efficient Optimization by Reducing State Overhead for Scalable Training [51.39495282347475]
我々は、新しいメモリ効率最適化フレームワークであるtextbfF$ull-$textbfR$ank $textbfU$pdates with $textbfG$r$textbfA$dient sp$textbfL$ittingを紹介します。
当社のフレームワークは,GaLoreやBAdamなど,さまざまな低ランク更新選択技術と統合することが可能です。
論文 参考訳(メタデータ) (2024-11-12T14:41:07Z) - Search for Efficient Large Language Models [52.98684997131108]
大規模言語モデル(LLMs)は、人工知能研究の領域で長い間停滞してきた。
軽量プルーニング、量子化、蒸留がLLMの圧縮に取り入れられ、メモリの削減と推論の加速を狙った。
ほとんどのモデル圧縮技術は、最適アーキテクチャの探索を見越して重量最適化に重点を置いている。
論文 参考訳(メタデータ) (2024-09-25T21:32:12Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - Fast and Controllable Post-training Sparsity: Learning Optimal Sparsity Allocation with Global Constraint in Minutes [33.68058313321142]
本稿では,ニューラルネットワークの疎度を制御可能な後訓練時疎度(FCPTS)フレームワークを提案する。
提案手法は,グローバルなスパシティ率への収束の保証を付加して,短時間で迅速かつ正確なスパシティ割当学習を可能にする。
論文 参考訳(メタデータ) (2024-05-09T14:47:15Z) - Gradient Sparsification for Efficient Wireless Federated Learning with
Differential Privacy [25.763777765222358]
フェデレートラーニング(FL)により、分散クライアントは、生データを互いに共有することなく、機械学習モデルを協調的にトレーニングできる。
モデルのサイズが大きくなるにつれて、送信帯域の制限によるトレーニングのレイテンシが低下し、個人情報が劣化すると同時に、差分プライバシ(DP)保護を使用する。
我々は、収束性能を犠牲にすることなく、トレーニング効率を向上させるために、FLフレームワーク無線チャネルのスペース化を提案する。
論文 参考訳(メタデータ) (2023-04-09T05:21:15Z) - Adaptive Top-K in SGD for Communication-Efficient Distributed Learning [14.867068493072885]
本稿では,SGDフレームワークにおける新しい適応Top-Kを提案する。
MNIST と CIFAR-10 データセットの数値結果から,SGD における適応型 Top-K アルゴリズムは,最先端の手法に比べてはるかに優れた収束率が得られることが示された。
論文 参考訳(メタデータ) (2022-10-24T18:33:35Z) - Communication-Efficient Adam-Type Algorithms for Distributed Data Mining [93.50424502011626]
我々はスケッチを利用した新しい分散Adam型アルゴリズムのクラス(例:SketchedAMSGrad)を提案する。
我々の新しいアルゴリズムは、反復毎に$O(frac1sqrtnT + frac1(k/d)2 T)$の高速収束率を$O(k log(d))$の通信コストで達成する。
論文 参考訳(メタデータ) (2022-10-14T01:42:05Z) - Sparse Communication for Training Deep Networks [56.441077560085475]
同期勾配降下(SGD)は、ディープラーニングモデルの分散トレーニングに最もよく用いられる手法である。
このアルゴリズムでは、各ワーカーは他のワーカーと局所勾配を共有し、すべてのワーカーの平均勾配を使ってパラメータを更新する。
いくつかの圧縮スキームについて検討し、3つの重要なパラメータが性能に与える影響を同定する。
論文 参考訳(メタデータ) (2020-09-19T17:28:11Z) - Detached Error Feedback for Distributed SGD with Random Sparsification [98.98236187442258]
コミュニケーションのボトルネックは、大規模なディープラーニングにおいて重要な問題である。
非効率な分散問題に対する誤りフィードバックよりも優れた収束性を示す分散誤差フィードバック(DEF)アルゴリズムを提案する。
また、DEFよりも優れた境界を示すDEFの一般化を加速するDEFAを提案する。
論文 参考訳(メタデータ) (2020-04-11T03:50:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。