論文の概要: Escaping Saddle Points with Bias-Variance Reduced Local Perturbed SGD
for Communication Efficient Nonconvex Distributed Learning
- arxiv url: http://arxiv.org/abs/2202.06083v1
- Date: Sat, 12 Feb 2022 15:12:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-15 17:40:51.455679
- Title: Escaping Saddle Points with Bias-Variance Reduced Local Perturbed SGD
for Communication Efficient Nonconvex Distributed Learning
- Title(参考訳): 非凸分散学習のための局所摂動SGDのバイアス分散化によるサドルポイントの回避
- Authors: Tomoya Murata and Taiji Suzuki
- Abstract要約: ローカル手法は通信時間を短縮する有望なアプローチの1つである。
局所的データセットが局所的損失の滑らかさよりも小さい場合,通信の複雑さは非局所的手法よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 58.79085525115987
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent centralized nonconvex distributed learning and federated learning,
local methods are one of the promising approaches to reduce communication time.
However, existing work has mainly focused on studying first-order optimality
guarantees. On the other side, second-order optimality guaranteed algorithms
have been extensively studied in the non-distributed optimization literature.
In this paper, we study a new local algorithm called Bias-Variance Reduced
Local Perturbed SGD (BVR-L-PSGD), that combines the existing bias-variance
reduced gradient estimator with parameter perturbation to find second-order
optimal points in centralized nonconvex distributed optimization. BVR-L-PSGD
enjoys second-order optimality with nearly the same communication complexity as
the best known one of BVR-L-SGD to find first-order optimality. Particularly,
the communication complexity is better than non-local methods when the local
datasets heterogeneity is smaller than the smoothness of the local loss. In an
extreme case, the communication complexity approaches to $\widetilde \Theta(1)$
when the local datasets heterogeneity goes to zero.
- Abstract(参考訳): 最近の集中型非凸分散学習と連合学習では、ローカルメソッドはコミュニケーション時間を短縮するための有望なアプローチの1つだ。
しかし、既存の研究は主に一階最適性保証の研究に重点を置いている。
一方、非分散最適化文献では、二階最適性保証アルゴリズムが広く研究されている。
本稿では,バイアス分散低減局所摂動sgd(bvr-l-psgd)と呼ばれる,既存のバイアス分散還元勾配推定器とパラメータ摂動を組み合わせて,集中型非凸分散最適化における2次最適点を求める新しい局所アルゴリズムについて検討する。
BVR-L-PSGDは、BVR-L-SGDの最もよく知られているものとほぼ同じ通信量で2階最適性を楽しむ。
特に、ローカルデータセットの不均一性がローカル損失の滑らかさよりも小さい場合、通信複雑性は非ローカルメソッドよりも優れている。
極端な場合、通信複雑性は局所的なデータセットの不均一性がゼロになるときに$\widetilde \Theta(1)$に近づく。
関連論文リスト
- The Limits and Potentials of Local SGD for Distributed Heterogeneous Learning with Intermittent Communication [37.210933391984014]
ローカルSGDは分散学習において一般的な最適化手法であり、実際には他のアルゴリズムよりも優れていることが多い。
我々は、既存の一階データ不均一性仮定の下で、局所的なSGDに対して新しい下界を提供する。
また、いくつかの問題クラスに対して、高速化されたミニバッチSGDの min-max 最適性を示す。
論文 参考訳(メタデータ) (2024-05-19T20:20:03Z) - Federated Minimax Optimization: Improved Convergence Analyses and
Algorithms [32.062312674333775]
我々は、最小限の最適化を考慮し、GANのようなモダンな機械学習アプリケーションの多くを普及させています。
我々は,既存の文献における収束通信の保証を改善する,新しい,より厳密な解析アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-03-09T16:21:31Z) - The Minimax Complexity of Distributed Optimization [0.0]
分散最適化に適用可能な古典的なオラクルフレームワークの拡張である「グラフオラクルモデル」を紹介します。
私は「間欠的コミュニケーション設定」の具体例に焦点をあてる
コンベックス設定におけるSGD(Local Descent)アルゴリズムの理論的特性を解析する。
論文 参考訳(メタデータ) (2021-09-01T15:18:33Z) - Local AdaGrad-Type Algorithm for Stochastic Convex-Concave Minimax
Problems [80.46370778277186]
大規模凸凹型ミニマックス問題は、ゲーム理論、堅牢なトレーニング、生成的敵ネットワークのトレーニングなど、多くの応用で発生する。
通信効率のよい分散外グレードアルゴリズムであるLocalAdaSientを開発した。
サーバモデル。
等質な環境と異質な環境の両方において,その有効性を実証する。
論文 参考訳(メタデータ) (2021-06-18T09:42:05Z) - Local Stochastic Gradient Descent Ascent: Convergence Analysis and
Communication Efficiency [15.04034188283642]
Local SGDは分散学習における通信オーバーヘッドを克服するための有望なアプローチである。
局所sgdaは均質データと異質データの両方において分散ミニマックス問題を確実に最適化できることを示す。
論文 参考訳(メタデータ) (2021-02-25T20:15:18Z) - Bias-Variance Reduced Local SGD for Less Heterogeneous Federated
Learning [46.32232395989181]
通信と計算の複雑さの観点から,局所的な学習を効率的に行うことを目的としている。
分散学習における重要な学習シナリオの1つは、フェデレート学習シナリオである。
論文 参考訳(メタデータ) (2021-02-05T14:32:28Z) - FedPD: A Federated Learning Framework with Optimal Rates and Adaptivity
to Non-IID Data [59.50904660420082]
フェデレートラーニング(FL)は、分散データから学ぶための一般的なパラダイムになっています。
クラウドに移行することなく、さまざまなデバイスのデータを効果的に活用するために、Federated Averaging(FedAvg)などのアルゴリズムでは、"Computation then aggregate"(CTA)モデルを採用している。
論文 参考訳(メタデータ) (2020-05-22T23:07:42Z) - Second-Order Guarantees in Centralized, Federated and Decentralized
Nonconvex Optimization [64.26238893241322]
単純なアルゴリズムは、多くの文脈において優れた経験的結果をもたらすことが示されている。
いくつかの研究は、非最適化問題を研究するための厳密な分析的正当化を追求している。
これらの分析における重要な洞察は、摂動が局所的な降下アルゴリズムを許容する上で重要な役割を担っていることである。
論文 参考訳(メタデータ) (2020-03-31T16:54:22Z) - A Unified Theory of Decentralized SGD with Changing Topology and Local
Updates [70.9701218475002]
分散通信方式の統一収束解析を導入する。
いくつかの応用に対して普遍収束率を導出する。
私たちの証明は弱い仮定に依存している。
論文 参考訳(メタデータ) (2020-03-23T17:49:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。