論文の概要: FedPAGE: A Fast Local Stochastic Gradient Method for
Communication-Efficient Federated Learning
- arxiv url: http://arxiv.org/abs/2108.04755v1
- Date: Tue, 10 Aug 2021 15:41:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-11 14:10:22.369071
- Title: FedPAGE: A Fast Local Stochastic Gradient Method for
Communication-Efficient Federated Learning
- Title(参考訳): FedPAGE: コミュニケーション効率の良いフェデレーション学習のための高速局所確率勾配法
- Authors: Haoyu Zhao, Zhize Li, Peter Richt\'arik
- Abstract要約: Averaging(FedAvg、またはLocal-SGD)は、クライアントが複数のローカルSGDステップを実行して、アップデートをオーケストレーションサーバに通信する、古典的なフェデレーション学習である。
本稿では,新しいフェデレーション学習アルゴリズムであるFedAvgを提案する。
- 参考スコア(独自算出の注目度): 21.055643409860743
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Federated Averaging (FedAvg, also known as Local-SGD) (McMahan et al., 2017)
is a classical federated learning algorithm in which clients run multiple local
SGD steps before communicating their update to an orchestrating server. We
propose a new federated learning algorithm, FedPAGE, able to further reduce the
communication complexity by utilizing the recent optimal PAGE method (Li et
al., 2021) instead of plain SGD in FedAvg. We show that FedPAGE uses much fewer
communication rounds than previous local methods for both federated convex and
nonconvex optimization. Concretely, 1) in the convex setting, the number of
communication rounds of FedPAGE is $O(\frac{N^{3/4}}{S\epsilon})$, improving
the best-known result $O(\frac{N}{S\epsilon})$ of SCAFFOLD (Karimireddy et
al.,2020) by a factor of $N^{1/4}$, where $N$ is the total number of clients
(usually is very large in federated learning), $S$ is the sampled subset of
clients in each communication round, and $\epsilon$ is the target error; 2) in
the nonconvex setting, the number of communication rounds of FedPAGE is
$O(\frac{\sqrt{N}+S}{S\epsilon^2})$, improving the best-known result
$O(\frac{N^{2/3}}{S^{2/3}\epsilon^2})$ of SCAFFOLD (Karimireddy et al.,2020) by
a factor of $N^{1/6}S^{1/3}$, if the sampled clients $S\leq \sqrt{N}$. Note
that in both settings, the communication cost for each round is the same for
both FedPAGE and SCAFFOLD. As a result, FedPAGE achieves new state-of-the-art
results in terms of communication complexity for both federated convex and
nonconvex optimization.
- Abstract(参考訳): federated averaging (fedavg, local-sgd) (mcmahan et al., 2017) は、クライアントが複数のローカルsgdステップを実行して、更新をオーケストレーションサーバに伝達する、古典的なフェデレーション学習アルゴリズムである。
本研究では,fedavgにおける平易なsgdではなく,最近の最適ページ法(li et al., 2021)を用いることにより,通信の複雑さをさらに低減できる新しいフェデレーション学習アルゴリズムであるfeedpageを提案する。
我々はFedPAGEが、フェデレーション凸と非凸最適化の両方において、従来のローカル手法よりもはるかに少ない通信ラウンドを使用することを示す。
Concretely, 1) in the convex setting, the number of communication rounds of FedPAGE is $O(\frac{N^{3/4}}{S\epsilon})$, improving the best-known result $O(\frac{N}{S\epsilon})$ of SCAFFOLD (Karimireddy et al.,2020) by a factor of $N^{1/4}$, where $N$ is the total number of clients (usually is very large in federated learning), $S$ is the sampled subset of clients in each communication round, and $\epsilon$ is the target error; 2) in the nonconvex setting, the number of communication rounds of FedPAGE is $O(\frac{\sqrt{N}+S}{S\epsilon^2})$, improving the best-known result $O(\frac{N^{2/3}}{S^{2/3}\epsilon^2})$ of SCAFFOLD (Karimireddy et al.,2020) by a factor of $N^{1/6}S^{1/3}$, if the sampled clients $S\leq \sqrt{N}$.
どちらの設定でも、各ラウンドの通信コストはFedPAGEとSCAFFOLDの両方で同じです。
その結果、FedPAGEは、フェデレーション凸と非凸最適化の両方の通信複雑性の観点から、最先端の新たな結果を達成する。
関連論文リスト
- Federated Aggregation of Mallows Rankings: A Comparative Analysis of Borda and Lehmer Coding [27.138031759281745]
ボルダのスコアリングとレーマー符号を用いた最初の連邦ランクアグリゲーション法を提案する。
この結果は,Mallowsモデルの下での集中的および分散的設定におけるボルダ法の最初の厳密な解析である。
論文 参考訳(メタデータ) (2024-09-01T21:36:09Z) - Federated Linear Bandits with Finite Adversarial Actions [20.1041278044797]
我々は、M$のクライアントが中央サーバと通信し、線形文脈の帯域幅問題を解決するための連合線形帯域幅モデルについて検討する。
逆有限作用集合のユニークな問題に対処するため、FedSupLinUCBアルゴリズムを提案する。
我々は、FedSupLinUCBが$tildeO(sqrtd T)$の完全後悔を達成したことを証明している。
論文 参考訳(メタデータ) (2023-11-02T03:41:58Z) - Solving a Class of Non-Convex Minimax Optimization in Federated Learning [84.98927714326908]
ミニマックス問題は、機械学習のトレーニングから大規模学習まで、機械学習アプリケーション全体にわたって発生する。
本稿では,非ミニマックス問題 (emphi) に対するアルゴリズムのクラスを提案し,複雑性を$varepsilon-6)$に減らした。
我々は、FedSGDA-Mが$O(kappa2-3)$と$O(kappa2-3)$の最もよく知られた通信量を持つことを示す。
論文 参考訳(メタデータ) (2023-10-05T15:48:41Z) - An Efficient Stochastic Algorithm for Decentralized Nonconvex-Strongly-Concave Minimax Optimization [25.00475462213752]
Decentralized Recursive Dec. Method (DREAM)
具体的には、$mathcalO(minminappaappa3eps-3,kappa2N)$ one-order oracle (SFO)コールと$tildemathcalO(kappa2 epsilon-2)通信ラウンドが必要です。
我々の数値実験は,従来の手法の優越性を検証した。
論文 参考訳(メタデータ) (2022-12-05T16:09:39Z) - DASHA: Distributed Nonconvex Optimization with Communication
Compression, Optimal Oracle Complexity, and No Client Synchronization [77.34726150561087]
我々は,分散最適化問題に対する新しい手法であるDASHAを開発し,解析する。
MARINAとは異なり、新しいDASHAとDASHA-MVRは圧縮ベクターのみを送信し、ノードを同期しないため、学習をより実用的なものにしている。
論文 参考訳(メタデータ) (2022-02-02T20:10:40Z) - Federated Optimization of Smooth Loss Functions [35.944772011421264]
本研究では,連合学習フレームワークにおける経験的リスク最小化(ERM)について検討する。
本稿では,FedLRGDアルゴリズムを提案する。
提案手法は,不正確な勾配勾配勾配を用いてサーバのERM問題を解く。
論文 参考訳(メタデータ) (2022-01-06T07:40:51Z) - Faster Rates for Compressed Federated Learning with Client-Variance
Reduction [23.169998435268504]
我々はCOFIGとFRECONが$O(frac(1+omega)sqrtNSepsilon2)$通信ラウンドに収束していることを示す。
凸設定では、COFIGは$O(frac(1+omega)sqrtNSepsilon2)$通信ラウンドに収束する。
論文 参考訳(メタデータ) (2021-12-24T16:28:18Z) - Distributed Saddle-Point Problems Under Similarity [173.19083235638104]
与えられたサブ最適度$epsilon0$は、$Omegabigのマスター/ワーカーネットワークで達成されることを示す。
次に,ネットワークの下位の型(ログオーバまで)に適合するアルゴリズムを提案する。
頑健なロジスティック回帰問題に対して提案アルゴリズムの有効性を評価する。
論文 参考訳(メタデータ) (2021-07-22T14:25:16Z) - STEM: A Stochastic Two-Sided Momentum Algorithm Achieving Near-Optimal
Sample and Communication Complexities for Federated Learning [58.6792963686231]
フェデレートラーニング(FL)とは、複数のワーカノード(WN)がローカルデータを用いてジョイントモデルを構築するパラダイムを指す。
WNの最小更新方向、最初のミニバッチサイズ、ローカル更新頻度をどうやって選択するかは明らかになっていない。
局所的な更新頻度と局所的なミニサイズとの間にはトレードオフ曲線があることを示し、上記の複雑さを維持できることを示す。
論文 参考訳(メタデータ) (2021-06-19T06:13:45Z) - Private Stochastic Convex Optimization: Optimal Rates in $\ell_1$
Geometry [69.24618367447101]
対数要因まで $(varepsilon,delta)$-differently private の最適過剰人口損失は $sqrtlog(d)/n + sqrtd/varepsilon n.$ です。
損失関数がさらなる滑らかさの仮定を満たすとき、余剰損失は$sqrtlog(d)/n + (log(d)/varepsilon n)2/3で上界(対数因子まで)であることが示される。
論文 参考訳(メタデータ) (2021-03-02T06:53:44Z) - Global Convergence of Frank Wolfe on One Hidden Layer Networks [121.96696298666014]
隠れた1つのニューラルネットワークをトレーニングする際、Frank Wolfeアルゴリズムに対してグローバル収束境界を導出する。
ReLUアクティベーション関数を用い、サンプルデータセット上のトラクタブルプレコンディショニング仮定の下では、解をインクリメンタルに形成する線形最小化オラクルを第2次コーンプログラムとして明示的に解くことができる。
論文 参考訳(メタデータ) (2020-02-06T11:58:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。