論文の概要: More Communication Does Not Result in Smaller Generalization Error in
Federated Learning
- arxiv url: http://arxiv.org/abs/2304.12216v1
- Date: Mon, 24 Apr 2023 15:56:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-25 14:16:36.054989
- Title: More Communication Does Not Result in Smaller Generalization Error in
Federated Learning
- Title(参考訳): フェデレーション学習におけるより小さな一般化誤差によるコミュニケーションの効果
- Authors: Romain Chor, Milad Sefidgaran and Abdellatif Zaidi
- Abstract要約: フェデレーテッド・ラーニング・セッティングにおける統計的学習モデルの一般化誤差について検討する。
モデル集約の多重(mathbb N*$の$R)ラウンドについて検討し、最終的な集約モデルの一般化誤差に対する$R$の効果について検討する。
- 参考スコア(独自算出の注目度): 9.00236182523638
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the generalization error of statistical learning models in a
Federated Learning (FL) setting. Specifically, there are $K$ devices or
clients, each holding an independent own dataset of size $n$. Individual
models, learned locally via Stochastic Gradient Descent, are aggregated
(averaged) by a central server into a global model and then sent back to the
devices. We consider multiple (say $R \in \mathbb N^*$) rounds of model
aggregation and study the effect of $R$ on the generalization error of the
final aggregated model. We establish an upper bound on the generalization error
that accounts explicitly for the effect of $R$ (in addition to the number of
participating devices $K$ and dataset size $n$). It is observed that, for fixed
$(n, K)$, the bound increases with $R$, suggesting that the generalization of
such learning algorithms is negatively affected by more frequent communication
with the parameter server. Combined with the fact that the empirical risk,
however, generally decreases for larger values of $R$, this indicates that $R$
might be a parameter to optimize to reduce the population risk of FL
algorithms. The results of this paper, which extend straightforwardly to the
heterogeneous data setting, are also illustrated through numerical examples.
- Abstract(参考訳): フェデレートラーニング(FL)における統計的学習モデルの一般化誤差について検討する。
具体的には、デバイスまたはクライアントが$Kで、それぞれ独立して$n$のデータセットを持っている。
Stochastic Gradient Descentを通じてローカルに学習された個々のモデルは、中央サーバによって集約(平均化)され、グローバルモデルに変換され、デバイスに返される。
モデル集約の複数ラウンド(例えば、$r \in \mathbb n^*$)を検討し、最終集約モデルの一般化誤差に対する$r$の影響について検討する。
私たちは、r$の影響を明示的に考慮した一般化エラーの上限を設定します(参加デバイスの数は$k$、データセットサイズは$n$です)。
固定 $(n, k)$ の場合、バウンドは $r$ となり、そのような学習アルゴリズムの一般化はパラメータサーバーとのより頻繁な通信によって負の影響を受けることが示されている。
しかし、経験的リスクが一般に$R$のより大きな値に対して減少するという事実と組み合わせると、$R$はFLアルゴリズムの集団リスクを低減するためのパラメータである可能性がある。
また,不均一なデータ設定に直感的に拡張した本論文の結果を数値例で示す。
関連論文リスト
- Scaling Laws in Linear Regression: Compute, Parameters, and Data [86.48154162485712]
無限次元線形回帰セットアップにおけるスケーリング法則の理論について検討する。
テストエラーの再現可能な部分は$Theta(-(a-1) + N-(a-1)/a)$であることを示す。
我々の理論は経験的ニューラルスケーリング法則と一致し、数値シミュレーションによって検証される。
論文 参考訳(メタデータ) (2024-06-12T17:53:29Z) - Asymptotics of Random Feature Regression Beyond the Linear Scaling
Regime [22.666759017118796]
機械学習の最近の進歩は、トレーニングデータの近くにトレーニングされた過度にパラメータ化されたモデルを使用することによって達成されている。
モデル複雑性と一般化はパラメータ数$p$にどのように依存するか?
特に、RFRRは近似と一般化パワーの直感的なトレードオフを示す。
論文 参考訳(メタデータ) (2024-03-13T00:59:25Z) - From Fake to Real: Pretraining on Balanced Synthetic Images to Prevent Spurious Correlations in Image Recognition [64.59093444558549]
我々はFrom Fake to Realと呼ぶシンプルで簡単に実装できる2段階のトレーニングパイプラインを提案する。
実データと合成データを別々にトレーニングすることで、FFRは実データと合成データの統計的差異にモデルを公開しない。
実験の結果,FFRは3つのデータセットに対して,最先端のグループ精度を最大20%向上させることがわかった。
論文 参考訳(メタデータ) (2023-08-08T19:52:28Z) - Lessons from Generalization Error Analysis of Federated Learning: You May Communicate Less Often! [15.730667464815548]
一般化誤差の進化を、K$クライアントとパラメータサーバ間の通信ラウンド数$R$で調べる。
PAC-Bayes and rate-distortiontheoretic bounds on the generalization error that account on the effect of the numbers $R$。
FSVMの一般化限界は$R$で増加し、PSとのより頻繁な通信が一般化力を低下させることを示す。
論文 参考訳(メタデータ) (2023-06-09T12:53:24Z) - Bias Mimicking: A Simple Sampling Approach for Bias Mitigation [57.17709477668213]
本稿では,新しいクラス条件サンプリング手法であるBias Mimickingを紹介する。
Bias Mimickingは、4つのベンチマークで3%の精度でサンプリングの精度を向上する。
論文 参考訳(メタデータ) (2022-09-30T17:33:00Z) - Rate-Distortion Theoretic Bounds on Generalization Error for Distributed
Learning [9.00236182523638]
本稿では,統計的分散学習アルゴリズムの一般化誤差の新しい上限を確立するために,レート歪み理論のツールを用いる。
境界は各クライアントのアルゴリズムの圧縮性に依存し、他のクライアントのアルゴリズムは圧縮されない。
論文 参考訳(メタデータ) (2022-06-06T13:21:52Z) - $p$-Generalized Probit Regression and Scalable Maximum Likelihood
Estimation via Sketching and Coresets [74.37849422071206]
本稿では, 2次応答に対する一般化線形モデルである,$p$一般化プロビット回帰モデルについて検討する。
p$の一般化されたプロビット回帰に対する最大可能性推定器は、大容量データ上で$(1+varepsilon)$の係数まで効率的に近似できることを示す。
論文 参考訳(メタデータ) (2022-03-25T10:54:41Z) - Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。
ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。
本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T19:08:53Z) - Improving Robustness and Generality of NLP Models Using Disentangled
Representations [62.08794500431367]
スーパービジョンニューラルネットワークはまず入力$x$を単一の表現$z$にマップし、次に出力ラベル$y$にマッピングする。
本研究では,非交叉表現学習の観点から,NLPモデルの堅牢性と汎用性を改善する手法を提案する。
提案した基準でトレーニングしたモデルは、広範囲の教師付き学習タスクにおいて、より堅牢性とドメイン適応性を向上することを示す。
論文 参考訳(メタデータ) (2020-09-21T02:48:46Z) - Inner Ensemble Networks: Average Ensemble as an Effective Regularizer [20.33062212014075]
内部アンサンブルネットワーク(IEN)は、モデル複雑性を増大させることなく、ニューラルネットワーク自体内の分散を減少させる。
IENは、トレーニングフェーズ中にアンサンブルパラメータを使用して、ネットワークのばらつきを低減する。
論文 参考訳(メタデータ) (2020-06-15T11:56:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。