論文の概要: Federated XGBoost on Sample-Wise Non-IID Data
- arxiv url: http://arxiv.org/abs/2209.01340v1
- Date: Sat, 3 Sep 2022 06:14:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-07 12:37:54.172501
- Title: Federated XGBoost on Sample-Wise Non-IID Data
- Title(参考訳): サンプルワイズ非IIDデータに基づくFederated XGBoost
- Authors: Katelinh Jones, Yuya Jeremy Ong, Yi Zhou, Nathalie Baracaldo
- Abstract要約: 決定木ベースのモデル、特にXGBoostは、非IIDデータを扱うことができる。
本稿では,Federated XGBoostが非IID分布に与える影響について検討する。
- 参考スコア(独自算出の注目度): 8.49189353769386
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Federated Learning (FL) is a paradigm for jointly training machine learning
algorithms in a decentralized manner which allows for parties to communicate
with an aggregator to create and train a model, without exposing the underlying
raw data distribution of the local parties involved in the training process.
Most research in FL has been focused on Neural Network-based approaches,
however Tree-Based methods, such as XGBoost, have been underexplored in
Federated Learning due to the challenges in overcoming the iterative and
additive characteristics of the algorithm. Decision tree-based models, in
particular XGBoost, can handle non-IID data, which is significant for
algorithms used in Federated Learning frameworks since the underlying
characteristics of the data are decentralized and have risks of being non-IID
by nature. In this paper, we focus on investigating the effects of how
Federated XGBoost is impacted by non-IID distributions by performing
experiments on various sample size-based data skew scenarios and how these
models perform under various non-IID scenarios. We conduct a set of extensive
experiments across multiple different datasets and different data skew
partitions. Our experimental results demonstrate that despite the various
partition ratios, the performance of the models stayed consistent and performed
close to or equally well against models that were trained in a centralized
manner.
- Abstract(参考訳): フェデレーション学習(federated learning, fl)は、マシンラーニングアルゴリズムを分散的にトレーニングするためのパラダイムであり、トレーニングプロセスに関わるローカルなパーティの生データ分布を露呈することなく、アグリゲータとコミュニケーションしてモデルを作成し、トレーニングすることができる。
flのほとんどの研究はニューラルネットワークに基づくアプローチに焦点が当てられているが、xgboostのような木ベースの手法は、アルゴリズムの反復的および付加的特性を克服することの難しさから、連合学習において過小評価されている。
決定木ベースのモデル、特にxgboostは、非iidデータを処理することができる。これは、データの基本特性が分散化されており、自然に非iidになるリスクがあるため、連合学習フレームワークで使用されるアルゴリズムにとって重要である。
本稿では,Federated XGBoostが非IID分布に与える影響について,サンプルサイズに基づく様々なデータスキューシナリオで実験を行い,これらのモデルが非IIDシナリオでどのように機能するかを検討する。
我々は、複数の異なるデータセットと異なるデータスキューパーティションにまたがる広範囲な実験を行う。
実験の結果, 分割比が異なるにもかかわらず, モデルの性能は一定であり, 集中的に訓練されたモデルに対してほぼ等しく良好であった。
関連論文リスト
- A review on different techniques used to combat the non-IID and
heterogeneous nature of data in FL [0.0]
Federated Learning(FL)は、複数のエッジデバイス間で協調的なモデルトレーニングを可能にする機械学習アプローチである。
FLの重要性は、医療や金融などの業界で特に顕著であり、データのプライバシが最重要視されている。
この報告は、非IIDおよび異種データから生じる問題を掘り下げ、これらの課題に対処するために設計された現在のアルゴリズムを探求する。
論文 参考訳(メタデータ) (2024-01-01T16:34:00Z) - Efficient Cluster Selection for Personalized Federated Learning: A
Multi-Armed Bandit Approach [2.5477011559292175]
フェデレートラーニング(FL)は、データプライバシを優先する、マシンラーニングモデルのための分散トレーニングアプローチを提供する。
本稿では,マルチアームバンディット(MAB)アプローチに触発された動的アッパー信頼境界(dUCB)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-29T16:46:50Z) - FedSym: Unleashing the Power of Entropy for Benchmarking the Algorithms
for Federated Learning [1.4656078321003647]
Federated Learning(FL)は、独立した学習者がデータをプライベートに処理する分散機械学習アプローチである。
現在普及しているデータ分割技術について検討し、その主な欠点を可視化する。
エントロピーと対称性を利用して「最も困難」かつ制御可能なデータ分布を構築する手法を提案する。
論文 参考訳(メタデータ) (2023-10-11T18:39:08Z) - Tackling Diverse Minorities in Imbalanced Classification [80.78227787608714]
不均衡データセットは、様々な現実世界のアプリケーションで一般的に見られ、分類器の訓練において重要な課題が提示されている。
マイノリティクラスとマイノリティクラスの両方のデータサンプルを混合することにより、反復的に合成サンプルを生成することを提案する。
提案するフレームワークの有効性を,7つの公開ベンチマークデータセットを用いて広範な実験により実証する。
論文 参考訳(メタデータ) (2023-08-28T18:48:34Z) - Consistency Regularization for Generalizable Source-free Domain
Adaptation [62.654883736925456]
ソースフリードメイン適応(source-free domain adapt, SFDA)は、ソースデータセットにアクセスすることなく、十分にトレーニングされたソースモデルを未学習のターゲットドメインに適応することを目的としている。
既存のSFDAメソッドは、ターゲットのトレーニングセット上で適用されたモデルを評価し、目に見えないが同一の分散テストセットからデータを無視する。
より一般化可能なSFDA法を開発するための整合正則化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-03T07:45:53Z) - Data-SUITE: Data-centric identification of in-distribution incongruous
examples [81.21462458089142]
Data-SUITEは、ID(In-distriion)データの不連続領域を特定するためのデータ中心のフレームワークである。
我々は,Data-SUITEの性能保証とカバレッジ保証を実証的に検証する。
論文 参考訳(メタデータ) (2022-02-17T18:58:31Z) - Deep Stable Learning for Out-Of-Distribution Generalization [27.437046504902938]
深層ニューラルネットワークに基づくアプローチは、同様の分布を持つデータとトレーニングデータをテストする際に顕著なパフォーマンスを達成した。
トレーニングとテストデータ間の分散シフトの影響を排除することは、パフォーマンス向上の深層モデルの構築に不可欠です。
トレーニングサンプルの学習重みによる特徴間の依存関係を除去し,この問題に対処することを提案する。
論文 参考訳(メタデータ) (2021-04-16T03:54:21Z) - Cross-Gradient Aggregation for Decentralized Learning from Non-IID data [34.23789472226752]
分散学習により、コラボレーションエージェントのグループは、中央パラメータサーバーを必要とせずに、分散データセットを使用してモデルを学ぶことができる。
本稿では,新たな分散学習アルゴリズムであるクロスグラディエント・アグリゲーション(CGA)を提案する。
既存の最先端の分散学習アルゴリズムよりも優れたCGA学習性能を示す。
論文 参考訳(メタデータ) (2021-03-02T21:58:12Z) - Quasi-Global Momentum: Accelerating Decentralized Deep Learning on
Heterogeneous Data [77.88594632644347]
ディープラーニングモデルの分散トレーニングは、ネットワーク上でデータプライバシとデバイス上での学習を可能にする重要な要素である。
現実的な学習シナリオでは、異なるクライアントのローカルデータセットに異質性が存在することが最適化の課題となる。
本稿では,この分散学習の難しさを軽減するために,運動量に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2021-02-09T11:27:14Z) - Federated Learning under Importance Sampling [49.17137296715029]
本研究は, サンプリングエージェントと非均一に誘導されるデータに対する重要サンプリングと工夫の効果について検討する。
代替のないサンプリングを含むスキームでは,結果のアーキテクチャの性能は,各エージェントのデータ変動性に関連する2つの要因によって制御される。
論文 参考訳(メタデータ) (2020-12-14T10:08:55Z) - Learning while Respecting Privacy and Robustness to Distributional
Uncertainties and Adversarial Data [66.78671826743884]
分散ロバストな最適化フレームワークはパラメトリックモデルのトレーニングのために検討されている。
目的は、逆操作された入力データに対して頑健なトレーニングモデルを提供することである。
提案されたアルゴリズムは、オーバーヘッドがほとんどない堅牢性を提供する。
論文 参考訳(メタデータ) (2020-07-07T18:25:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。