論文の概要: Decentralized Stochastic Proximal Gradient Descent with Variance
Reduction over Time-varying Networks
- arxiv url: http://arxiv.org/abs/2112.10389v1
- Date: Mon, 20 Dec 2021 08:23:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-21 18:54:03.005430
- Title: Decentralized Stochastic Proximal Gradient Descent with Variance
Reduction over Time-varying Networks
- Title(参考訳): 時間変化ネットワークによる分散確率近位勾配の変動低減
- Authors: Xuanjie Li, Yuedong Xu, Jessie Hui Wang, Xin Wang, John C.S. Lui
- Abstract要約: 分散学習において、ノードのネットワークは、通常、その局所的な目的の有限サムである全体的な目的関数を最小化するために協力する。
そこで本研究では,分散縮小手法を利用して分散学習を高速化する新しいアルゴリズムDPSVRGを提案する。
- 参考スコア(独自算出の注目度): 30.231314171218994
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In decentralized learning, a network of nodes cooperate to minimize an
overall objective function that is usually the finite-sum of their local
objectives, and incorporates a non-smooth regularization term for the better
generalization ability. Decentralized stochastic proximal gradient (DSPG)
method is commonly used to train this type of learning models, while the
convergence rate is retarded by the variance of stochastic gradients. In this
paper, we propose a novel algorithm, namely DPSVRG, to accelerate the
decentralized training by leveraging the variance reduction technique. The
basic idea is to introduce an estimator in each node, which tracks the local
full gradient periodically, to correct the stochastic gradient at each
iteration. By transforming our decentralized algorithm into a centralized
inexact proximal gradient algorithm with variance reduction, and controlling
the bounds of error sequences, we prove that DPSVRG converges at the rate of
$O(1/T)$ for general convex objectives plus a non-smooth term with $T$ as the
number of iterations, while DSPG converges at the rate $O(\frac{1}{\sqrt{T}})$.
Our experiments on different applications, network topologies and learning
models demonstrate that DPSVRG converges much faster than DSPG, and the loss
function of DPSVRG decreases smoothly along with the training epochs.
- Abstract(参考訳): 分散学習において、ノードのネットワークは、通常局所目的の有限和である全体的な目的関数を最小化するために協力し、より良い一般化能力のために非スムース正規化項を組み込む。
分散確率的近位勾配法(DSPG)はこの種の学習モデルの訓練に一般的に用いられ、収束速度は確率的勾配の分散によって抑制される。
本稿では,分散低減手法を利用して分散学習を高速化する新しいアルゴリズムDPSVRGを提案する。
基本的な考え方は、各ノードに局所的な全勾配を周期的に追跡する推定器を導入し、各イテレーションにおける確率勾配を修正することである。
分散化アルゴリズムを分散化による非現実的近位勾配アルゴリズムに変換し、誤差列の境界を制御することにより、DPSVRGが一般凸対象に対して$O(1/T)$と反復数として$T$の非滑らか項で収束し、DSPGは$O(\frac{1}{\sqrt{T}})$で収束することを証明する。
異なるアプリケーション,ネットワークトポロジ,学習モデルによる実験により,DPSVRGはDSPGよりもはるかに早く収束し,DPSVRGの損失関数はトレーニングの経過とともにスムーズに低下することが示された。
関連論文リスト
- Preconditioned Gradient Descent Finds Over-Parameterized Neural Networks with Sharp Generalization for Nonparametric Regression [8.130817534654089]
本稿では、勾配降下(GD)またはその変種により訓練された2層ニューラルネットワークによる非パラメトリック回帰を考察する。
ニューラルネットワークが早期停止を伴う新しいプレコンディション付きグラディエント・ディフレクション(PGD)でトレーニングされ、ターゲット関数がディープラーニング文献において広く研究されているスペクトルバイアスを持つ場合、トレーニングされたネットワークは、特に、極小値の最大速度が$cO(1/n4alpha/(4alpha+1)$で制限されたシャープな一般化をレンダリングする。
論文 参考訳(メタデータ) (2024-07-16T03:38:34Z) - Flattened one-bit stochastic gradient descent: compressed distributed optimization with controlled variance [55.01966743652196]
パラメータ・サーバ・フレームワークにおける圧縮勾配通信を用いた分散勾配降下(SGD)のための新しいアルゴリズムを提案する。
平坦な1ビット勾配勾配勾配法(FO-SGD)は2つの単純なアルゴリズムの考え方に依存している。
論文 参考訳(メタデータ) (2024-05-17T21:17:27Z) - Adaptive Federated Learning Over the Air [108.62635460744109]
オーバー・ザ・エア・モデル・トレーニングの枠組みの中で,適応勾配法,特にAdaGradとAdamの連合バージョンを提案する。
解析の結果,AdaGrad に基づくトレーニングアルゴリズムは $mathcalO(ln(T) / T 1 - frac1alpha の速度で定常点に収束することがわかった。
論文 参考訳(メタデータ) (2024-03-11T09:10:37Z) - Federated Learning Using Variance Reduced Stochastic Gradient for
Probabilistically Activated Agents [0.0]
本稿では,各エージェントが各反復において任意の選択の確率を持つような最適解に対して,分散低減と高速収束率の両方を達成する2層構造を持つフェデレートラーニング(FL)のアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-25T22:04:49Z) - DR-DSGD: A Distributionally Robust Decentralized Learning Algorithm over
Graphs [54.08445874064361]
本稿では,分散環境下での正規化された分散ロバストな学習問題を解くことを提案する。
Kullback-Liebler正規化関数をロバストなmin-max最適化問題に追加することにより、学習問題を修正されたロバストな問題に還元することができる。
提案アルゴリズムは, 最低分布検定精度を最大10%向上できることを示す。
論文 参考訳(メタデータ) (2022-08-29T18:01:42Z) - Improving the Transient Times for Distributed Stochastic Gradient
Methods [5.215491794707911]
拡散適応段階法(EDAS)と呼ばれる分散勾配アルゴリズムについて検討する。
EDASが集中勾配降下(SGD)と同じネットワーク独立収束率を達成することを示す。
我々の知る限り、EDASは$n$のコスト関数の平均が強い凸である場合に最も短い時間を達成する。
論文 参考訳(メタデータ) (2021-05-11T08:09:31Z) - A Variance Controlled Stochastic Method with Biased Estimation for
Faster Non-convex Optimization [0.0]
減少勾配(SVRG)の性能を向上させるために, 分散制御勾配(VCSG)という新しい手法を提案する。
ラムダ$はVCSGで導入され、SVRGによる分散の過剰還元を避ける。
$mathcalO(min1/epsilon3/2,n1/4/epsilon)$ 勾配評価の数。
論文 参考訳(メタデータ) (2021-02-19T12:22:56Z) - A hybrid variance-reduced method for decentralized stochastic non-convex
optimization [15.447966950703947]
textttGTHSGDアルゴリズムは、グローバルな勾配を追跡するためにネットワークを実装している。
textttGTHSGDは、必要なエラートレランス$epsilon$が十分小さいときに、ネットワークの複雑さを$O(n-1)$にします。
論文 参考訳(メタデータ) (2021-02-12T20:13:05Z) - Private Stochastic Non-Convex Optimization: Adaptive Algorithms and
Tighter Generalization Bounds [72.63031036770425]
有界非次元最適化のための差分プライベート(DP)アルゴリズムを提案する。
標準勾配法に対する経験的優位性について,2つの一般的なディープラーニング手法を実証する。
論文 参考訳(メタデータ) (2020-06-24T06:01:24Z) - Optimal Rates for Averaged Stochastic Gradient Descent under Neural
Tangent Kernel Regime [50.510421854168065]
平均勾配勾配勾配は極小収束率が得られることを示す。
本稿では、ReLUネットワークのNTKで指定されたターゲット関数を最適収束速度で学習できることを示す。
論文 参考訳(メタデータ) (2020-06-22T14:31:37Z) - Towards Better Understanding of Adaptive Gradient Algorithms in
Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。
本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。
実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文 参考訳(メタデータ) (2019-12-26T22:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。