論文の概要: Variance Reduced ProxSkip: Algorithm, Theory and Application to
Federated Learning
- arxiv url: http://arxiv.org/abs/2207.04338v1
- Date: Sat, 9 Jul 2022 20:59:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-12 16:23:29.361718
- Title: Variance Reduced ProxSkip: Algorithm, Theory and Application to
Federated Learning
- Title(参考訳): 分散還元型proxskip:アルゴリズム、理論および連合学習への応用
- Authors: Grigory Malinovsky and Kai Yi and Peter Richt\'arik
- Abstract要約: 本研究では,Em Local Training(LT)パラダイムに基づく分散最適化手法について検討する。
提案手法は,最先端の手法であるProxSkipよりも,総合的なトレーニングコストの面ではるかに高速であることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study distributed optimization methods based on the {\em local training
(LT)} paradigm: achieving communication efficiency by performing richer local
gradient-based training on the clients before parameter averaging. Looking back
at the progress of the field, we {\em identify 5 generations of LT methods}: 1)
heuristic, 2) homogeneous, 3) sublinear, 4) linear, and 5) accelerated. The
5${}^{\rm th}$ generation, initiated by the ProxSkip method of Mishchenko,
Malinovsky, Stich and Richt\'{a}rik (2022) and its analysis, is characterized
by the first theoretical confirmation that LT is a communication acceleration
mechanism. Inspired by this recent progress, we contribute to the 5${}^{\rm
th}$ generation of LT methods by showing that it is possible to enhance them
further using {\em variance reduction}. While all previous theoretical results
for LT methods ignore the cost of local work altogether, and are framed purely
in terms of the number of communication rounds, we show that our methods can be
substantially faster in terms of the {\em total training cost} than the
state-of-the-art method ProxSkip in theory and practice in the regime when
local computation is sufficiently expensive. We characterize this threshold
theoretically, and confirm our theoretical predictions with empirical results.
- Abstract(参考訳): 本研究では,パラメータ平均化前のクライアント上でよりリッチな局所勾配学習を行うことにより,コミュニケーション効率を向上する分散最適化手法について検討した。
場の進歩を振り返って、我々は5世代にわたるLTメソッドを特定します。
1)ヒューリスティック。
2)同質である。
3) サブリニア。
4) 線形, および
5) 加速した。
5${}^{\rm th}$ 生成は、Mishchenko, Malinovsky, Stich and Richt\'{a}rik (2022) の ProxSkip 法によって開始され、その解析は、LTが通信加速機構であるという最初の理論的確証によって特徴づけられる。
この最近の進歩に触発されて、我々は5${}^{\rm th}$ LT法の生成に寄与し、それらをさらに強化できることを示す。
従来のLT手法の理論的結果は局所的な作業のコストを完全に無視しており、通信ラウンド数の観点から純粋にフレーム化されているが、局所的な計算が十分高価である体制における理論と実践において、我々の手法は最先端のProxSkipよりも大幅に高速であることを示す。
この閾値を理論的に特徴付け、実験結果を用いて理論予測を確認する。
関連論文リスト
- Adaptive Federated Learning Over the Air [108.62635460744109]
オーバー・ザ・エア・モデル・トレーニングの枠組みの中で,適応勾配法,特にAdaGradとAdamの連合バージョンを提案する。
解析の結果,AdaGrad に基づくトレーニングアルゴリズムは $mathcalO(ln(T) / T 1 - frac1alpha の速度で定常点に収束することがわかった。
論文 参考訳(メタデータ) (2024-03-11T09:10:37Z) - Provable and Practical: Efficient Exploration in Reinforcement Learning via Langevin Monte Carlo [104.9535542833054]
我々は、強化学習のためのトンプソンサンプリングに基づくスケーラブルで効果的な探索戦略を提案する。
代わりに、Langevin Monte Carlo を用いて、Q 関数をその後部分布から直接サンプリングする。
提案手法は,Atari57スイートからのいくつかの挑戦的な探索課題において,最先端の深部RLアルゴリズムと比較して,より優れた,あるいは類似した結果が得られる。
論文 参考訳(メタデータ) (2023-05-29T17:11:28Z) - Offline Primal-Dual Reinforcement Learning for Linear MDPs [16.782625445546273]
オフライン強化学習(RL)は、他のポリシによって収集されたトランジションの固定データセットから、ほぼ最適なポリシを学ぶことを目的としている。
本稿では,RLの線形プログラミング定式化に基づく原始双対最適化手法を提案する。
論文 参考訳(メタデータ) (2023-05-22T11:45:23Z) - Scalable Optimal Margin Distribution Machine [50.281535710689795]
ODM(Optimal margin Distribution Machine)は、新しいマージン理論に根ざした新しい統計学習フレームワークである。
本稿では,従来のODMトレーニング手法に比べて10倍近い高速化を実現するスケーラブルなODMを提案する。
論文 参考訳(メタデータ) (2023-05-08T16:34:04Z) - Can $5^{\rm th}$ Generation Local Training Methods Support Client
Sampling? Yes! [0.0]
FedAvgアルゴリズムは、クライアントサンプリング(CS)、データサンプリング(DS)、ローカルトレーニング(LT)の3つのコンポーネントに基づいている。
本稿では,新しいアルゴリズムと理論的基礎に基づく新たなLT手法を提案する。
LTは任意に不均一なデータに対する通信促進を達成できることを示し,このことから,LT手法の5rm th$生成を飛躍的に開始する。
論文 参考訳(メタデータ) (2022-12-29T16:51:46Z) - Conjugated Discrete Distributions for Distributional Reinforcement
Learning [0.0]
最も成功した方法の1つは、非決定論的プロセスがある場合、最適なポリシーを得られないことを示します。
我々は、分散強化学習が、この状況を完全に改善するのに役立つと論じている。
論文 参考訳(メタデータ) (2021-12-14T14:14:49Z) - Leveraging Non-uniformity in First-order Non-convex Optimization [93.6817946818977]
目的関数の非一様洗練は、emphNon-uniform Smoothness(NS)とemphNon-uniform Lojasiewicz inequality(NL)につながる
新しい定義は、古典的な$Omega (1/t2)$下界よりも早く大域的最適性に収束する新しい幾何学的一階法を刺激する。
論文 参考訳(メタデータ) (2021-05-13T04:23:07Z) - A Distributed Training Algorithm of Generative Adversarial Networks with
Quantized Gradients [8.202072658184166]
本稿では,量子化勾配を用いた分散GAN学習アルゴリズムDQGANを提案する。
この新しい方法は、OMDアルゴリズムと呼ばれる特定の単一マシンアルゴリズムに基づいてGANを訓練し、一般的な$delta$-approximate圧縮器を満たす任意の勾配圧縮手法に適用できる。
理論的には、DQGANアルゴリズムの1次定常点への非漸近収束を確立し、提案アルゴリズムが線形高速化を実現することを示す。
論文 参考訳(メタデータ) (2020-10-26T06:06:43Z) - Approximation Algorithms for Sparse Principal Component Analysis [57.5357874512594]
主成分分析(PCA)は、機械学習と統計学において広く使われている次元削減手法である。
スパース主成分分析(Sparse principal Component Analysis)と呼ばれる,スパース主成分負荷を求める様々な手法が提案されている。
本研究では,SPCA問題に対するしきい値の精度,時間,近似アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-23T04:25:36Z) - Towards Understanding Label Smoothing [36.54164997035046]
ラベルスムーズな正規化(LSR)は、トレーニングアルゴリズムによるディープニューラルネットワークにおいて大きな成功を収めている。
適切なLSRが分散を減少させることで収束を加速することを示す。
本稿では,TSLA(Two-Stage LAbel smoothing algorithm)を提案する。
論文 参考訳(メタデータ) (2020-06-20T20:36:17Z) - TRP: Trained Rank Pruning for Efficient Deep Neural Networks [69.06699632822514]
低位近似とトレーニングを交互に行うTrated Rank Pruning (TRP)を提案する。
サブ段階降下により最適化された核正則化を利用して、TRPの低位化をさらに促進する。
TRPトレーニングネットワークは本質的に低ランク構造であり、無視可能な性能損失と近似される。
論文 参考訳(メタデータ) (2020-04-30T03:37:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。