論文の概要: More Communication Does Not Result in Smaller Generalization Error in
Federated Learning
- arxiv url: http://arxiv.org/abs/2304.12216v2
- Date: Thu, 11 May 2023 17:13:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-12 17:31:08.318443
- Title: More Communication Does Not Result in Smaller Generalization Error in
Federated Learning
- Title(参考訳): フェデレーション学習におけるより小さな一般化誤差によるコミュニケーションの効果
- Authors: Romain Chor, Milad Sefidgaran and Abdellatif Zaidi
- Abstract要約: フェデレーテッド・ラーニング・セッティングにおける統計的学習モデルの一般化誤差について検討する。
モデル集約の多重(mathbb N*$の$R)ラウンドについて検討し、最終的な集約モデルの一般化誤差に対する$R$の効果について検討する。
- 参考スコア(独自算出の注目度): 9.00236182523638
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the generalization error of statistical learning models in a
Federated Learning (FL) setting. Specifically, there are $K$ devices or
clients, each holding an independent own dataset of size $n$. Individual
models, learned locally via Stochastic Gradient Descent, are aggregated
(averaged) by a central server into a global model and then sent back to the
devices. We consider multiple (say $R \in \mathbb N^*$) rounds of model
aggregation and study the effect of $R$ on the generalization error of the
final aggregated model. We establish an upper bound on the generalization error
that accounts explicitly for the effect of $R$ (in addition to the number of
participating devices $K$ and dataset size $n$). It is observed that, for fixed
$(n, K)$, the bound increases with $R$, suggesting that the generalization of
such learning algorithms is negatively affected by more frequent communication
with the parameter server. Combined with the fact that the empirical risk,
however, generally decreases for larger values of $R$, this indicates that $R$
might be a parameter to optimize to reduce the population risk of FL
algorithms. The results of this paper, which extend straightforwardly to the
heterogeneous data setting, are also illustrated through numerical examples.
- Abstract(参考訳): フェデレートラーニング(FL)における統計的学習モデルの一般化誤差について検討する。
具体的には、デバイスまたはクライアントが$Kで、それぞれ独立して$n$のデータセットを持っている。
Stochastic Gradient Descentを通じてローカルに学習された個々のモデルは、中央サーバによって集約(平均化)され、グローバルモデルに変換され、デバイスに返される。
モデル集約の複数ラウンド(例えば、$r \in \mathbb n^*$)を検討し、最終集約モデルの一般化誤差に対する$r$の影響について検討する。
私たちは、r$の影響を明示的に考慮した一般化エラーの上限を設定します(参加デバイスの数は$k$、データセットサイズは$n$です)。
固定 $(n, k)$ の場合、バウンドは $r$ となり、そのような学習アルゴリズムの一般化はパラメータサーバーとのより頻繁な通信によって負の影響を受けることが示されている。
しかし、経験的リスクが一般に$R$のより大きな値に対して減少するという事実と組み合わせると、$R$はFLアルゴリズムの集団リスクを低減するためのパラメータである可能性がある。
また,不均一なデータ設定に直感的に拡張した本論文の結果を数値例で示す。
関連論文リスト
- Asymptotics of Random Feature Regression Beyond the Linear Scaling
Regime [22.666759017118796]
機械学習の最近の進歩は、トレーニングデータの近くにトレーニングされた過度にパラメータ化されたモデルを使用することによって達成されている。
モデル複雑性と一般化はパラメータ数$p$にどのように依存するか?
特に、RFRRは近似と一般化パワーの直感的なトレードオフを示す。
論文 参考訳(メタデータ) (2024-03-13T00:59:25Z) - From Fake to Real: Pretraining on Balanced Synthetic Images to Prevent
Bias [72.59373734471333]
我々はFrom Fake to Real(FFR)と呼ぶ2段階のトレーニングパイプラインを提案する。
FFRはバランスの取れた合成データのモデルを事前訓練し、サブグループ間の堅牢な表現を学習する。
第2のステップでは、FFRはEMMまたは共通の損失に基づくバイアス緩和法を用いて、実データ上でモデルを微調整する。
論文 参考訳(メタデータ) (2023-08-08T19:52:28Z) - Meta-Learning Operators to Optimality from Multi-Task Non-IID Data [1.7587442088965224]
すべてのデータを使って共通の表現関数を学ぶことは、計算の労力と統計的一般化の両方に利益がある。
既存の異方性に依存しないメタラーニングは、表現更新に偏りを生じさせるため、ノイズ項のスケーリングは、ソースタスクの数に好ましくない。
我々は、Collins et al. (2021) で提案された交互化最小化退化スキームの適応 $texttDFW$ を導入し、最適な表現に線形収束を確立する。
論文 参考訳(メタデータ) (2023-08-08T17:56:20Z) - Effective Minkowski Dimension of Deep Nonparametric Regression: Function
Approximation and Statistical Theories [70.90012822736988]
ディープ非パラメトリック回帰に関する既存の理論は、入力データが低次元多様体上にある場合、ディープニューラルネットワークは本質的なデータ構造に適応できることを示した。
本稿では,$mathcalS$で表される$mathbbRd$のサブセットに入力データが集中するという緩和された仮定を導入する。
論文 参考訳(メタデータ) (2023-06-26T17:13:31Z) - Federated Learning You May Communicate Less Often! [8.009932864430903]
本稿では,クライアントとパラメータサーバ間の通信ラウンド数による一般化誤差の進化について検討する。
我々は, ラウンド数の影響を明示的に考慮した一般化誤差に対して, PAC-Bayes と rate-distortion 理論境界を確立する。
特に,FSVMの一般化誤差は$R$で増加し,パラメータサーバとのより頻繁な通信は,そのような学習アルゴリズムの一般化力を低下させることを示す。
論文 参考訳(メタデータ) (2023-06-09T12:53:24Z) - Bias Mimicking: A Simple Sampling Approach for Bias Mitigation [57.17709477668213]
本稿では,新しいクラス条件サンプリング手法であるBias Mimickingを紹介する。
Bias Mimickingは、4つのベンチマークで3%の精度でサンプリングの精度を向上する。
論文 参考訳(メタデータ) (2022-09-30T17:33:00Z) - Rate-Distortion Theoretic Bounds on Generalization Error for Distributed
Learning [9.00236182523638]
本稿では,統計的分散学習アルゴリズムの一般化誤差の新しい上限を確立するために,レート歪み理論のツールを用いる。
境界は各クライアントのアルゴリズムの圧縮性に依存し、他のクライアントのアルゴリズムは圧縮されない。
論文 参考訳(メタデータ) (2022-06-06T13:21:52Z) - $p$-Generalized Probit Regression and Scalable Maximum Likelihood
Estimation via Sketching and Coresets [74.37849422071206]
本稿では, 2次応答に対する一般化線形モデルである,$p$一般化プロビット回帰モデルについて検討する。
p$の一般化されたプロビット回帰に対する最大可能性推定器は、大容量データ上で$(1+varepsilon)$の係数まで効率的に近似できることを示す。
論文 参考訳(メタデータ) (2022-03-25T10:54:41Z) - Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。
ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。
本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T19:08:53Z) - Improving Robustness and Generality of NLP Models Using Disentangled
Representations [62.08794500431367]
スーパービジョンニューラルネットワークはまず入力$x$を単一の表現$z$にマップし、次に出力ラベル$y$にマッピングする。
本研究では,非交叉表現学習の観点から,NLPモデルの堅牢性と汎用性を改善する手法を提案する。
提案した基準でトレーニングしたモデルは、広範囲の教師付き学習タスクにおいて、より堅牢性とドメイン適応性を向上することを示す。
論文 参考訳(メタデータ) (2020-09-21T02:48:46Z) - Inner Ensemble Networks: Average Ensemble as an Effective Regularizer [20.33062212014075]
内部アンサンブルネットワーク(IEN)は、モデル複雑性を増大させることなく、ニューラルネットワーク自体内の分散を減少させる。
IENは、トレーニングフェーズ中にアンサンブルパラメータを使用して、ネットワークのばらつきを低減する。
論文 参考訳(メタデータ) (2020-06-15T11:56:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。