論文の概要: Federated Learning on Non-IID Data Silos: An Experimental Study
- arxiv url: http://arxiv.org/abs/2102.02079v1
- Date: Wed, 3 Feb 2021 14:29:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-04 17:07:45.086122
- Title: Federated Learning on Non-IID Data Silos: An Experimental Study
- Title(参考訳): 非IIDデータサイロのフェデレーション学習:実験的研究
- Authors: Qinbin Li, Yiqun Diao, Quan Chen, Bingsheng He
- Abstract要約: トレーニングデータは断片化され、複数のデータサイロの分散データベースを形成している。
本稿では,典型的な非IIDデータケースをカバーする包括的データ分割手法を提案する。
非IIDはFLアルゴリズムの精度を学習する上で大きな課題をもたらしており、既存のFLアルゴリズムが他のどの場合よりも優れているものはない。
- 参考スコア(独自算出の注目度): 34.28108345251376
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine learning services have been emerging in many data-intensive
applications, and their effectiveness highly relies on large-volume
high-quality training data. However, due to the increasing privacy concerns and
data regulations, training data have been increasingly fragmented, forming
distributed databases of multiple data silos (e.g., within different
organizations and countries). To develop effective machine learning services,
there is a must to exploit data from such distributed databases without
exchanging the raw data. Recently, federated learning (FL) has been a solution
with growing interests, which enables multiple parties to collaboratively train
a machine learning model without exchanging their local data. A key and common
challenge on distributed databases is the heterogeneity of the data
distribution (i.e., non-IID) among the parties. There have been many FL
algorithms to address the learning effectiveness under non-IID data settings.
However, there lacks an experimental study on systematically understanding
their advantages and disadvantages, as previous studies have very rigid data
partitioning strategies among parties, which are hardly representative and
thorough. In this paper, to help researchers better understand and study the
non-IID data setting in federated learning, we propose comprehensive data
partitioning strategies to cover the typical non-IID data cases. Moreover, we
conduct extensive experiments to evaluate state-of-the-art FL algorithms. We
find that non-IID does bring significant challenges in learning accuracy of FL
algorithms, and none of the existing state-of-the-art FL algorithms outperforms
others in all cases. Our experiments provide insights for future studies of
addressing the challenges in data silos.
- Abstract(参考訳): 機械学習サービスは多くのデータ集約型アプリケーションで登場しており、その効果は大量の高品質のトレーニングデータに大きく依存しています。
しかし、プライバシーの懸念やデータ規制の高まりにより、トレーニングデータは断片化され、複数のデータサイロ(例えば、異なる組織や国内で)の分散データベースを形成している。
効率的な機械学習サービスを開発するには、生データを交換することなく、このような分散データベースのデータを利用する必要がある。
近年、フェデレーテッド・ラーニング(FL)は関心が高まり、複数のパーティがローカルデータを交換することなく機械学習モデルを協調的にトレーニングできるソリューションとなっている。
分散データベースにおける重要かつ共通の課題は、当事者間のデータ分散(すなわち非IID)の不均一性である。
非IIDデータ設定下での学習効率に対処するFLアルゴリズムは数多く存在する。
しかし,従来の研究では,代表的かつ徹底的ではないパーティ間でのデータ分割戦略が非常に厳格なため,そのメリットとデメリットを体系的に理解する実験的な研究が欠落している。
本論文では,フェデレーション学習における非IIDデータ設定の理解と研究を支援するために,非IIDデータケースをカバーする包括的なデータ分割戦略を提案する。
さらに,最先端flアルゴリズムを評価するための広範囲な実験を行った。
非IIDはFLアルゴリズムの精度を学習する上で大きな課題をもたらしており、既存のFLアルゴリズムが他のどの場合よりも優れているものはない。
我々の実験は、データサイロの課題に対処するための将来の研究のための洞察を提供する。
関連論文リスト
- Non-IID data in Federated Learning: A Systematic Review with Taxonomy, Metrics, Methods, Frameworks and Future Directions [2.9434966603161072]
この体系的なレビューは、非IIDデータ、パーティションプロトコル、メトリクスの詳細な分類を提供することによってギャップを埋めることを目的としている。
非IIDデータに対処するための一般的なソリューションと、異種データを用いたフェデレートラーニングで使用される標準化されたフレームワークについて述べる。
論文 参考訳(メタデータ) (2024-11-19T09:53:28Z) - A review on different techniques used to combat the non-IID and
heterogeneous nature of data in FL [0.0]
Federated Learning(FL)は、複数のエッジデバイス間で協調的なモデルトレーニングを可能にする機械学習アプローチである。
FLの重要性は、医療や金融などの業界で特に顕著であり、データのプライバシが最重要視されている。
この報告は、非IIDおよび異種データから生じる問題を掘り下げ、これらの課題に対処するために設計された現在のアルゴリズムを探求する。
論文 参考訳(メタデータ) (2024-01-01T16:34:00Z) - FedSym: Unleashing the Power of Entropy for Benchmarking the Algorithms
for Federated Learning [1.4656078321003647]
Federated Learning(FL)は、独立した学習者がデータをプライベートに処理する分散機械学習アプローチである。
現在普及しているデータ分割技術について検討し、その主な欠点を可視化する。
エントロピーと対称性を利用して「最も困難」かつ制御可能なデータ分布を構築する手法を提案する。
論文 参考訳(メタデータ) (2023-10-11T18:39:08Z) - Rethinking Data Heterogeneity in Federated Learning: Introducing a New
Notion and Standard Benchmarks [65.34113135080105]
我々は、現在のセットアップにおけるデータ不均一性の問題が必ずしも問題であるだけでなく、FL参加者にとって有益であることを示す。
私たちの観察は直感的である。
私たちのコードはhttps://github.com/MMorafah/FL-SC-NIIDで利用可能です。
論文 参考訳(メタデータ) (2022-09-30T17:15:19Z) - Federated XGBoost on Sample-Wise Non-IID Data [8.49189353769386]
決定木ベースのモデル、特にXGBoostは、非IIDデータを扱うことができる。
本稿では,Federated XGBoostが非IID分布に与える影響について検討する。
論文 参考訳(メタデータ) (2022-09-03T06:14:20Z) - A Survey of Learning on Small Data: Generalization, Optimization, and
Challenge [101.27154181792567]
ビッグデータの一般化能力を近似した小さなデータについて学ぶことは、AIの究極の目的の1つである。
この調査はPACフレームワークの下でのアクティブサンプリング理論に従い、小さなデータにおける学習の一般化誤差とラベルの複雑さを分析した。
効率的な小さなデータ表現の恩恵を受けるかもしれない複数のデータアプリケーションについて調査する。
論文 参考訳(メタデータ) (2022-07-29T02:34:19Z) - Towards Federated Long-Tailed Learning [76.50892783088702]
データプライバシとクラス不均衡は、多くの機械学習タスクの例外ではなく、標準である。
最近の試みでは、広範にわたるプライベートデータから学習する問題に対処する一方で、長い尾を持つデータから学ぶことが試みられている。
本稿では,プライバシ保護フェデレーション学習(FL)フレームワークのコンテキスト下での長期的データ分散(LT)学習に焦点を当てた。
論文 参考訳(メタデータ) (2022-06-30T02:34:22Z) - FEDIC: Federated Learning on Non-IID and Long-Tailed Data via Calibrated
Distillation [54.2658887073461]
非IIDデータの処理は、フェデレーション学習における最も難しい問題の1つである。
本稿では, フェデレート学習における非IIDデータとロングテールデータの結合問題について検討し, フェデレート・アンサンブル蒸留と不均衡(FEDIC)という対応ソリューションを提案する。
FEDICはモデルアンサンブルを使用して、非IIDデータでトレーニングされたモデルの多様性を活用する。
論文 参考訳(メタデータ) (2022-04-30T06:17:36Z) - Local Learning Matters: Rethinking Data Heterogeneity in Federated
Learning [61.488646649045215]
フェデレートラーニング(FL)は、クライアントのネットワーク(エッジデバイス)でプライバシ保護、分散ラーニングを行うための有望な戦略である。
論文 参考訳(メタデータ) (2021-11-28T19:03:39Z) - Federated Learning on Non-IID Data: A Survey [11.431837357827396]
フェデレーション学習(Federated Learning)は、プライバシ保護のための分散機械学習フレームワークである。
連合学習で訓練されたモデルは、通常、標準集中学習モードで訓練されたモデルよりもパフォーマンスが劣る。
論文 参考訳(メタデータ) (2021-06-12T19:45:35Z) - Quasi-Global Momentum: Accelerating Decentralized Deep Learning on
Heterogeneous Data [77.88594632644347]
ディープラーニングモデルの分散トレーニングは、ネットワーク上でデータプライバシとデバイス上での学習を可能にする重要な要素である。
現実的な学習シナリオでは、異なるクライアントのローカルデータセットに異質性が存在することが最適化の課題となる。
本稿では,この分散学習の難しさを軽減するために,運動量に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2021-02-09T11:27:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。