論文の概要: A Convergence Theory for Federated Average: Beyond Smoothness
- arxiv url: http://arxiv.org/abs/2211.01588v1
- Date: Thu, 3 Nov 2022 04:50:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-04 12:32:58.491565
- Title: A Convergence Theory for Federated Average: Beyond Smoothness
- Title(参考訳): フェデレーション平均の収束理論:滑らか性を超えて
- Authors: Xiaoxiao Li, Zhao Song, Runzhou Tao, Guangyi Zhang
- Abstract要約: フェデレートラーニングにより、大量のエッジコンピューティングデバイスが、データ共有を併用せずにモデルを学習できるようになる。
この設定における主要なアルゴリズムとして、ローカルデバイス上でGradient Descent(SGD)を並列に実行するFederated Average FedAvgが広く使用されている。
本稿では,フェデレートラーニングに関する理論的収束研究について述べる。
- 参考スコア(独自算出の注目度): 28.074273047592065
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Federated learning enables a large amount of edge computing devices to learn
a model without data sharing jointly. As a leading algorithm in this setting,
Federated Average FedAvg, which runs Stochastic Gradient Descent (SGD) in
parallel on local devices and averages the sequences only once in a while, have
been widely used due to their simplicity and low communication cost. However,
despite recent research efforts, it lacks theoretical analysis under
assumptions beyond smoothness. In this paper, we analyze the convergence of
FedAvg. Different from the existing work, we relax the assumption of strong
smoothness. More specifically, we assume the semi-smoothness and semi-Lipschitz
properties for the loss function, which have an additional first-order term in
assumption definitions. In addition, we also assume bound on the gradient,
which is weaker than the commonly used bounded gradient assumption in the
convergence analysis scheme. As a solution, this paper provides a theoretical
convergence study on Federated Learning.
- Abstract(参考訳): フェデレートラーニングにより、大量のエッジコンピューティングデバイスが、データ共有を併用せずにモデルを学習できるようになる。
この設定における主要なアルゴリズムとして、局所デバイス上でSGD(Stochastic Gradient Descent)を並列に実行し、一度だけシーケンスを平均化するFederated Average FedAvgが、その単純さと通信コストの低さから広く使用されている。
しかし、近年の研究努力にもかかわらず、滑らか性以上の仮定に基づく理論的分析が欠如している。
本稿では,FedAvgの収束を解析する。
既存の作業と異なり、強い滑らかさの仮定を緩和します。
より具体的には、損失函数の半スムース性と半リプシッツ性(英語版)を仮定し、これは仮定定義において追加の一階項を持つ。
さらに、収束解析スキームにおいて一般的に用いられる有界勾配仮定よりも弱い勾配に有界を仮定する。
本稿では,フェデレーション学習に関する理論的収束研究について述べる。
関連論文リスト
- A Unified Analysis for Finite Weight Averaging [50.75116992029417]
Gradient Descent(SGD)の平均イテレーションは、SWA(Weight Averaging)、EMA(Exponential moving Average)、LAWA(Latest Weight Averaging)といったディープラーニングモデルのトレーニングにおいて、経験的な成功を収めている。
本稿では、LAWAを有限重み平均化(FWA)として一般化し、最適化と一般化の観点からSGDと比較して、それらの利点を説明する。
論文 参考訳(メタデータ) (2024-11-20T10:08:22Z) - Taming Nonconvex Stochastic Mirror Descent with General Bregman
Divergence [25.717501580080846]
本稿では、現代の非最適化設定における勾配フォワードミラー(SMD)の収束を再考する。
トレーニングのために,線形ネットワーク問題に対する確率収束アルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-02-27T17:56:49Z) - Curvature-Independent Last-Iterate Convergence for Games on Riemannian
Manifolds [77.4346324549323]
本研究では, 多様体の曲率に依存しないステップサイズが, 曲率非依存かつ直線的最終点収束率を達成することを示す。
我々の知る限りでは、曲率非依存率や/または最終点収束の可能性はこれまでに検討されていない。
論文 参考訳(メタデータ) (2023-06-29T01:20:44Z) - Convergence of Adam Under Relaxed Assumptions [72.24779199744954]
我々は、アダムがより現実的な条件下で、$O(epsilon-4)$勾配複雑性で$epsilon$-定常点に収束することを示している。
また、Adamの分散還元版を$O(epsilon-3)$の加速勾配複雑性で提案する。
論文 参考訳(メタデータ) (2023-04-27T06:27:37Z) - A simplified convergence theory for Byzantine resilient stochastic
gradient descent [0.0]
分散学習では、中央サーバは、ローカルデータサンプルを保持するノードが提供する更新に従ってモデルをトレーニングする。
1つ以上の悪意のあるサーバが存在する場合、勾配降下(SGD)のようなトレーニングモデルの標準アルゴリズムは収束しない。
論文 参考訳(メタデータ) (2022-08-25T05:37:14Z) - On the Unreasonable Effectiveness of Federated Averaging with
Heterogeneous Data [39.600069116159695]
既存の理論では、フェデレーション学習におけるフェデレーション平均化(FedAvg)アルゴリズムの性能は、データの不均一性が低下すると予想している。
本稿では,従来の理論的予測と矛盾するFedAvgの有効性について述べる。
論文 参考訳(メタデータ) (2022-06-09T18:25:25Z) - Sharp Bounds for Federated Averaging (Local SGD) and Continuous
Perspective [49.17352150219212]
Federated AveragingFedAvg(ローカルSGD)は、Federated Learning(FL)で最も人気のあるアルゴリズムの1つである。
微分方程式(SDE)の観点から、この量を解析する方法を示す。
論文 参考訳(メタデータ) (2021-11-05T22:16:11Z) - Minibatch vs Local SGD with Shuffling: Tight Convergence Bounds and
Beyond [63.59034509960994]
シャッフルに基づく変種(ミニバッチと局所ランダムリシャッフル)について検討する。
ポリアック・ロジャシエヴィチ条件を満たす滑らかな函数に対して、これらのシャッフル型不変量(英語版)(shuffling-based variants)がそれらの置換式よりも早く収束することを示す収束境界を得る。
我々は, 同期シャッフル法と呼ばれるアルゴリズムの修正を提案し, ほぼ均一な条件下では, 下界よりも収束速度が速くなった。
論文 参考訳(メタデータ) (2021-10-20T02:25:25Z) - On Convergence of Training Loss Without Reaching Stationary Points [62.41370821014218]
ニューラルネットワークの重み変数は、損失関数の勾配が消える定常点に収束しないことを示す。
エルゴード理論の力学系に基づく新しい視点を提案する。
論文 参考訳(メタデータ) (2021-10-12T18:12:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。