論文の概要: Communication-Efficient Adam-Type Algorithms for Distributed Data Mining
- arxiv url: http://arxiv.org/abs/2210.07454v1
- Date: Fri, 14 Oct 2022 01:42:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-17 18:04:11.880510
- Title: Communication-Efficient Adam-Type Algorithms for Distributed Data Mining
- Title(参考訳): 分散データマイニングのための通信効率の高いadam型アルゴリズム
- Authors: Wenhan Xian, Feihu Huang, Heng Huang
- Abstract要約: 我々はスケッチを利用した新しい分散Adam型アルゴリズムのクラス(例:SketchedAMSGrad)を提案する。
我々の新しいアルゴリズムは、反復毎に$O(frac1sqrtnT + frac1(k/d)2 T)$の高速収束率を$O(k log(d))$の通信コストで達成する。
- 参考スコア(独自算出の注目度): 93.50424502011626
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Distributed data mining is an emerging research topic to effectively and
efficiently address hard data mining tasks using big data, which are
partitioned and computed on different worker nodes, instead of one centralized
server. Nevertheless, distributed learning methods often suffer from the
communication bottleneck when the network bandwidth is limited or the size of
model is large. To solve this critical issue, many gradient compression methods
have been proposed recently to reduce the communication cost for multiple
optimization algorithms. However, the current applications of gradient
compression to adaptive gradient method, which is widely adopted because of its
excellent performance to train DNNs, do not achieve the same ideal compression
rate or convergence rate as Sketched-SGD. To address this limitation, in this
paper, we propose a class of novel distributed Adam-type algorithms
(\emph{i.e.}, SketchedAMSGrad) utilizing sketching, which is a promising
compression technique that reduces the communication cost from $O(d)$ to
$O(\log(d))$ where $d$ is the parameter dimension. In our theoretical analysis,
we prove that our new algorithm achieves a fast convergence rate of
$O(\frac{1}{\sqrt{nT}} + \frac{1}{(k/d)^2 T})$ with the communication cost of
$O(k \log(d))$ at each iteration. Compared with single-machine AMSGrad, our
algorithm can achieve the linear speedup with respect to the number of workers
$n$. The experimental results on training various DNNs in distributed paradigm
validate the efficiency of our algorithms.
- Abstract(参考訳): 分散データマイニングは、ひとつの集中型サーバではなく、さまざまなワーカノードで分割、計算されるビッグデータを使用して、ハードデータマイニングタスクを効果的かつ効率的に処理する、新たな研究トピックである。
それでも、ネットワーク帯域幅が制限されたり、モデルのサイズが大きくなると、分散学習手法は通信ボトルネックに陥ることが多い。
この課題を解決するために,近年,複数の最適化アルゴリズムの通信コストを削減するために,勾配圧縮法が多数提案されている。
しかし、DNNの訓練性能に優れたため広く採用されている適応勾配法への勾配圧縮の適用は、Sketched-SGDと同様の理想的な圧縮率や収束率を達成できない。
そこで,本稿では,d$ がパラメータ次元である場合の通信コストを $o(d)$ から $o(\log(d))$ に下げる有望な圧縮手法であるsketchingを用いた,新しい分散adam型アルゴリズム(\emph{i.e.}, sketchedamsgrad)を提案する。
我々の理論解析において、我々の新しいアルゴリズムは、反復ごとに$O(k \log(d))$の通信コストで、$O(\frac{1}{\sqrt{nT}} + \frac{1}{(k/d)^2 T})$の高速収束率を達成することを証明している。
シングルマシンのAMSGradと比較して、我々のアルゴリズムは、労働者数$n$に対して線形スピードアップを達成することができる。
分散パラダイムにおける各種DNNのトレーニング実験の結果,アルゴリズムの有効性が検証された。
関連論文リスト
- Efficient Dataset Distillation Using Random Feature Approximation [109.07737733329019]
本稿では,ニューラルネットワークガウス過程(NNGP)カーネルのランダム特徴近似(RFA)を用いた新しいアルゴリズムを提案する。
我々のアルゴリズムは、KIP上で少なくとも100倍のスピードアップを提供し、1つのGPUで実行できる。
RFA蒸留 (RFAD) と呼ばれる本手法は, 大規模データセットの精度において, KIP や他のデータセット凝縮アルゴリズムと競合して動作する。
論文 参考訳(メタデータ) (2022-10-21T15:56:13Z) - DADAO: Decoupled Accelerated Decentralized Asynchronous Optimization [0.0]
DADAOは、L$-smooth と $mu$-strongly convex 関数の和を最小化する最初の分散化、高速化、非同期化、プライマリ化、一階述語アルゴリズムである。
我々のアルゴリズムは、$mathcalO(nsqrtchisqrtfracLmulog(frac1epsilon)$ localと$mathcalO(nsqrtchisqrtfracLmulog()のみを必要とすることを示す。
論文 参考訳(メタデータ) (2022-07-26T08:47:54Z) - Near-Optimal Sparse Allreduce for Distributed Deep Learning [18.99898181586806]
コミュニケーションのオーバーヘッドは、大規模なディープラーニングモデルを大規模にトレーニングする上で、大きな障害のひとつです。
本稿では,スパース勾配を用いた分散トレーニング手法であるO$k$-Top$k$を提案する。
論文 参考訳(メタデータ) (2022-01-19T13:56:57Z) - Acceleration in Distributed Optimization Under Similarity [72.54787082152278]
集中ノードを持たないエージェントネットワーク上での分散(強い凸)最適化問題について検討する。
$varepsilon$-solutionは$tildemathcalrhoObig(sqrtfracbeta/mu (1-)log1/varepsilonbig)$通信ステップ数で達成される。
この速度は、関心のクラスに適用される分散ゴシップ-アルゴリズムの、初めて(ポリログ因子まで)より低い複雑性の通信境界と一致する。
論文 参考訳(メタデータ) (2021-10-24T04:03:00Z) - A Distributed Training Algorithm of Generative Adversarial Networks with
Quantized Gradients [8.202072658184166]
本稿では,量子化勾配を用いた分散GAN学習アルゴリズムDQGANを提案する。
この新しい方法は、OMDアルゴリズムと呼ばれる特定の単一マシンアルゴリズムに基づいてGANを訓練し、一般的な$delta$-approximate圧縮器を満たす任意の勾配圧縮手法に適用できる。
理論的には、DQGANアルゴリズムの1次定常点への非漸近収束を確立し、提案アルゴリズムが線形高速化を実現することを示す。
論文 参考訳(メタデータ) (2020-10-26T06:06:43Z) - Coded Stochastic ADMM for Decentralized Consensus Optimization with Edge
Computing [113.52575069030192]
セキュリティ要件の高いアプリケーションを含むビッグデータは、モバイルデバイスやドローン、車両など、複数の異種デバイスに収集され、格納されることが多い。
通信コストとセキュリティ要件の制限のため、核融合センターにデータを集約するのではなく、分散的に情報を抽出することが最重要となる。
分散エッジノードを介してデータを局所的に処理するマルチエージェントシステムにおいて,モデルパラメータを学習する問題を考える。
分散学習モデルを開発するために,乗算器アルゴリズムの最小バッチ交互方向法(ADMM)のクラスについて検討した。
論文 参考訳(メタデータ) (2020-10-02T10:41:59Z) - Sparse Communication for Training Deep Networks [56.441077560085475]
同期勾配降下(SGD)は、ディープラーニングモデルの分散トレーニングに最もよく用いられる手法である。
このアルゴリズムでは、各ワーカーは他のワーカーと局所勾配を共有し、すべてのワーカーの平均勾配を使ってパラメータを更新する。
いくつかの圧縮スキームについて検討し、3つの重要なパラメータが性能に与える影響を同定する。
論文 参考訳(メタデータ) (2020-09-19T17:28:11Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。