論文の概要: Heterogeneity Matters even More in Distributed Learning: Study from Generalization Perspective
- arxiv url: http://arxiv.org/abs/2503.01598v1
- Date: Mon, 03 Mar 2025 14:33:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:21:57.921478
- Title: Heterogeneity Matters even More in Distributed Learning: Study from Generalization Perspective
- Title(参考訳): 分散学習における不均一性はさらに重要である:一般化の視点から
- Authors: Masoud Kavian, Milad Sefidgaran, Abdellatif Zaidi, Romain Chor,
- Abstract要約: (K)クライアントは、潜在的に異なるデータ分布に応じて、それぞれ(n)のトレーニングサンプルを独立して生成する。
集約されたモデルの一般化誤差に及ぼすクライアントのデータ分布の相違の影響について検討する。
クライアント間のデータの均一性の度合いが高くなるにつれて、バウンダリが小さくなることが示されている。
- 参考スコア(独自算出の注目度): 14.480713752871523
- License:
- Abstract: In this paper, we investigate the effect of data heterogeneity across clients on the performance of distributed learning systems, i.e., one-round Federated Learning, as measured by the associated generalization error. Specifically, \(K\) clients have each \(n\) training samples generated independently according to a possibly different data distribution and their individually chosen models are aggregated by a central server. We study the effect of the discrepancy between the clients' data distributions on the generalization error of the aggregated model. First, we establish in-expectation and tail upper bounds on the generalization error in terms of the distributions. In part, the bounds extend the popular Conditional Mutual Information (CMI) bound which was developed for the centralized learning setting, i.e., \(K=1\), to the distributed learning setting with arbitrary number of clients $K \geq 1$. Then, we use a connection with information theoretic rate-distortion theory to derive possibly tighter \textit{lossy} versions of these bounds. Next, we apply our lossy bounds to study the effect of data heterogeneity across clients on the generalization error for distributed classification problem in which each client uses Support Vector Machines (D-SVM). In this case, we establish explicit generalization error bounds which depend explicitly on the data heterogeneity degree. It is shown that the bound gets smaller as the degree of data heterogeneity across clients gets higher, thereby suggesting that D-SVM generalizes better when the dissimilarity between the clients' training samples is bigger. This finding, which goes beyond D-SVM, is validated experimentally through a number of experiments.
- Abstract(参考訳): 本稿では,クライアント間のデータ不均一性が分散学習システム,すなわち1ラウンドのフェデレーション学習の性能に与える影響を,関連する一般化誤差によって測定した。
具体的には、(K\)クライアントは、潜在的に異なるデータ分布に基づいて独立して生成された各 \(n\) トレーニングサンプルを持ち、それぞれの選択したモデルは中央サーバによって集約される。
集約モデルの一般化誤差に及ぼすクライアントのデータ分布の相違の影響について検討する。
まず、分布の点から一般化誤差について、探索内上限とテール上限を確立する。
境界は、集中学習のために開発された一般的な条件相互情報(CMI)境界を、任意の数のクライアントを持つ分散学習環境に拡張する。
次に、情報理論の速度歪曲理論との接続を用いて、これらの境界のより厳密な \textit{lossy} バージョンを導出する。
次に、各クライアントがSupport Vector Machines (D-SVM) を使用する分散分類問題に対する一般化誤差に対するクライアント間のデータ不均一性の影響について検討する。
この場合、データ不均一度度に明示的に依存する明示的な一般化誤差境界を確立する。
クライアント間のデータ不均一性の度合いが大きくなるにつれて境界が小さくなることが示され、クライアントのトレーニングサンプル間の相違が大きくなると、D-SVMがより一般化されることが示唆された。
D-SVMを超えるこの発見は、多くの実験を通じて実験的に検証されている。
関連論文リスト
- FedLF: Adaptive Logit Adjustment and Feature Optimization in Federated Long-Tailed Learning [5.23984567704876]
フェデレーション学習は、分散機械学習におけるプライバシの保護という課題にパラダイムを提供する。
伝統的なアプローチは、グローバルな長期データにおけるクラスワイドバイアスの現象に対処できない。
新しい手法であるFedLFは、適応ロジット調整、連続クラス中心最適化、特徴デコリレーションという、局所的なトレーニングフェーズに3つの修正を導入している。
論文 参考訳(メタデータ) (2024-09-18T16:25:29Z) - Federated Learning for distribution skewed data using sample weights [3.6039117546761155]
本研究は,クライアント間のスキューデータ分散におけるフェデレート学習性能の向上に焦点を当てた。
主な考え方は、サンプル重量を用いてクライアントの分布をグローバルな分布に近づけることである。
提案手法は,フェデレーション学習の精度を向上するだけでなく,通信コストを大幅に削減する。
論文 参考訳(メタデータ) (2024-01-05T00:46:11Z) - FedGen: Generalizable Federated Learning for Sequential Data [8.784435748969806]
多くの実世界の分散環境では、バイアスとデータサンプリングの問題により、急激な相関が存在する。
我々はFedGenという汎用的なフェデレーション学習フレームワークを提案し、クライアントが素早い特徴と不変な特徴を識別および識別できるようにする。
FedGenは、より優れた一般化を実現し、現在のフェデレーション学習手法の精度を24%以上上回るモデルが得られることを示す。
論文 参考訳(メタデータ) (2022-11-03T15:48:14Z) - Towards Understanding and Mitigating Dimensional Collapse in Heterogeneous Federated Learning [112.69497636932955]
フェデレートラーニングは、プライバシを考慮したデータ共有を必要とせずに、さまざまなクライアントでモデルをトレーニングすることを目的としている。
本研究では,データの不均一性がグローバル集約モデルの表現に与える影響について検討する。
フェデレーション学習における次元的崩壊を効果的に緩和する新しい手法である sc FedDecorr を提案する。
論文 参考訳(メタデータ) (2022-10-01T09:04:17Z) - Rethinking Data Heterogeneity in Federated Learning: Introducing a New
Notion and Standard Benchmarks [65.34113135080105]
我々は、現在のセットアップにおけるデータ不均一性の問題が必ずしも問題であるだけでなく、FL参加者にとって有益であることを示す。
私たちの観察は直感的である。
私たちのコードはhttps://github.com/MMorafah/FL-SC-NIIDで利用可能です。
論文 参考訳(メタデータ) (2022-09-30T17:15:19Z) - Rate-Distortion Theoretic Bounds on Generalization Error for Distributed
Learning [9.00236182523638]
本稿では,統計的分散学習アルゴリズムの一般化誤差の新しい上限を確立するために,レート歪み理論のツールを用いる。
境界は各クライアントのアルゴリズムの圧縮性に依存し、他のクライアントのアルゴリズムは圧縮されない。
論文 参考訳(メタデータ) (2022-06-06T13:21:52Z) - DRFLM: Distributionally Robust Federated Learning with Inter-client
Noise via Local Mixup [58.894901088797376]
連合学習は、生データをリークすることなく、複数の組織のデータを使用してグローバルモデルをトレーニングするための有望なアプローチとして登場した。
上記の2つの課題を同時に解決するための一般的な枠組みを提案する。
我々は、ロバストネス解析、収束解析、一般化能力を含む包括的理論的解析を提供する。
論文 参考訳(メタデータ) (2022-04-16T08:08:29Z) - Examining and Combating Spurious Features under Distribution Shift [94.31956965507085]
我々は、最小限の統計量という情報理論の概念を用いて、ロバストで刺激的な表現を定義し、分析する。
入力分布のバイアスしか持たない場合でも、モデルはトレーニングデータから急激な特徴を拾い上げることができることを証明しています。
分析から着想を得た結果,グループDROは,グループ同士の相関関係を直接考慮しない場合に失敗する可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-14T05:39:09Z) - Linear Regression with Distributed Learning: A Generalization Error
Perspective [0.0]
大規模線形回帰のための分散学習の性能を検討する。
我々は、一般化エラー、すなわち、見当たらないデータのパフォーマンスに焦点を当てる。
その結果、分散ソリューションの一般化誤差は、集中ソリューションの一般化誤差よりも大幅に高いことが示された。
論文 参考訳(メタデータ) (2021-01-22T08:43:28Z) - Decorrelated Clustering with Data Selection Bias [55.91842043124102]
本稿では,データ選択バイアスを伴うクラスタリングのためのデコリレーション正規化K-Meansアルゴリズム(DCKM)を提案する。
DCKMアルゴリズムは,選択バイアスによって生じる予期せぬ特徴相関を除去する必要があることを示す。
論文 参考訳(メタデータ) (2020-06-29T08:55:50Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。