論文の概要: Overcoming Noisy and Irrelevant Data in Federated Learning
- arxiv url: http://arxiv.org/abs/2001.08300v2
- Date: Tue, 23 Jun 2020 02:12:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-07 18:22:24.937988
- Title: Overcoming Noisy and Irrelevant Data in Federated Learning
- Title(参考訳): 連合学習における雑音・無関係データの克服
- Authors: Tiffany Tuor, Shiqiang Wang, Bong Jun Ko, Changchang Liu, Kin K. Leung
- Abstract要約: フェデレーション学習は、クライアントデバイスが収集したローカルデータから、機械学習モデルを分散的にトレーニングする効果的な方法である。
そこで我々は,小さなベンチマークデータセットに基づいてトレーニングされたベンチマークモデルを用いて,関連するデータを分散的に選択する手法を提案する。
提案手法の有効性は,多数のクライアントを持つシミュレーションシステムにおいて,複数の実世界の画像データセット上で評価される。
- 参考スコア(独自算出の注目度): 13.963024590508038
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many image and vision applications require a large amount of data for model
training. Collecting all such data at a central location can be challenging due
to data privacy and communication bandwidth restrictions. Federated learning is
an effective way of training a machine learning model in a distributed manner
from local data collected by client devices, which does not require exchanging
the raw data among clients. A challenge is that among the large variety of data
collected at each client, it is likely that only a subset is relevant for a
learning task while the rest of data has a negative impact on model training.
Therefore, before starting the learning process, it is important to select the
subset of data that is relevant to the given federated learning task. In this
paper, we propose a method for distributedly selecting relevant data, where we
use a benchmark model trained on a small benchmark dataset that is
task-specific, to evaluate the relevance of individual data samples at each
client and select the data with sufficiently high relevance. Then, each client
only uses the selected subset of its data in the federated learning process.
The effectiveness of our proposed approach is evaluated on multiple real-world
image datasets in a simulated system with a large number of clients, showing up
to $25\%$ improvement in model accuracy compared to training with all data.
- Abstract(参考訳): 多くの画像および視覚アプリケーションは、モデルトレーニングに大量のデータを必要とする。
データプライバシと通信帯域幅の制限のため、すべてのデータを中央の場所で収集することは難しい。
フェデレーション学習は、クライアントデバイスが収集したローカルデータから分散的に機械学習モデルをトレーニングする効果的な方法であり、クライアント間で生データを交換する必要はない。
課題は、各クライアントで収集された多種多様なデータのうち、学習タスクにはサブセットのみが関係しており、残りのデータはモデルトレーニングに負の影響を与える可能性が高いことである。
したがって、学習プロセスを開始する前に、与えられたフェデレーション学習タスクに関連するデータのサブセットを選択することが重要である。
本稿では,タスク固有の小さなベンチマークデータセット上でトレーニングされたベンチマークモデルを用いて,各クライアントにおける個々のデータサンプルの妥当性を評価し,高い妥当性を持つデータを選択する手法を提案する。
次に、各クライアントは、フェデレーション学習プロセスで選択されたデータのサブセットのみを使用する。
提案手法の有効性は,多数のクライアントを持つシミュレーションシステムにおいて,実世界の複数の画像データセット上で評価され,全データでのトレーニングと比較して,モデル精度が最大$25\%向上した。
関連論文リスト
- Dual-Criterion Model Aggregation in Federated Learning: Balancing Data Quantity and Quality [0.0]
フェデレートラーニング(FL)は、プライバシ保護のための協調学習の鍵となる方法の1つとなっている。
集約アルゴリズムは、システムの有効性と安全性を確保する上で最も重要なコンポーネントの1つとして認識される。
本研究では,クライアントノードからのデータ量と品質を含む新しい二項重み付けアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-11-12T14:09:16Z) - A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。
データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。
より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:00:58Z) - FedSampling: A Better Sampling Strategy for Federated Learning [81.85411484302952]
フェデレートラーニング(FL)は、プライバシを保存する方法で分散化されたデータからモデルを学習するための重要なテクニックである。
既存のFLメソッドは通常、各ラウンドでローカルモデル学習のために一様にクライアントをサンプリングする。
フェデレート学習のための新しいデータ一様サンプリング戦略(FedSampling)を提案する。
論文 参考訳(メタデータ) (2023-06-25T13:38:51Z) - Exploring Data Redundancy in Real-world Image Classification through
Data Selection [20.389636181891515]
ディープラーニングモデルはトレーニングに大量のデータを必要とすることが多く、結果としてコストが増大する。
実世界の画像データの冗長性を調べるために,シナプスインテリジェンスと勾配ノルムに基づく2つのデータ評価指標を提案する。
オンラインおよびオフラインのデータ選択アルゴリズムは、検査されたデータ値に基づいてクラスタリングとグループ化によって提案される。
論文 参考訳(メタデータ) (2023-06-25T03:31:05Z) - Data Selection for Efficient Model Update in Federated Learning [0.07614628596146598]
本稿では,グローバルモデルのトレーニングに必要なローカルデータの量を削減することを提案する。
本手法では, 局所データの特徴により敏感な部分と, 一般特徴抽出のための下位部分と, 上位部分とにモデルを分割する。
実験の結果,クライアントデータの特徴をグローバルモデルに転送できる地域データは1%未満であることがわかった。
論文 参考訳(メタデータ) (2021-11-05T14:07:06Z) - Federated Multi-Target Domain Adaptation [99.93375364579484]
フェデレートされた学習手法により、プライバシを保護しながら、分散ユーザデータ上で機械学習モデルをトレーニングすることが可能になります。
分散クライアントデータがラベル付けされず、集中型ラベル付きデータセットがサーバ上で利用可能となる、より実用的なシナリオを考えます。
本稿では,新しい課題に対処する効果的なDualAdapt法を提案する。
論文 参考訳(メタデータ) (2021-08-17T17:53:05Z) - Decentralized federated learning of deep neural networks on non-iid data [0.6335848702857039]
分散環境でパーソナライズされたディープラーニングモデルを学ぶことの難しさに対処する。
本稿では,PENS(Performance-Based Neighbor Selection)という手法を提案する。
PENSは強力なベースラインに比べて高い精度を達成することができる。
論文 参考訳(メタデータ) (2021-07-18T19:05:44Z) - Exploiting Shared Representations for Personalized Federated Learning [54.65133770989836]
本稿では,クライアント間の共有データ表現と,クライアント毎のユニークなローカルヘッダを学習するための,新しいフェデレーション学習フレームワークとアルゴリズムを提案する。
提案アルゴリズムは, クライアント間の分散計算能力を利用して, 表現の更新毎に低次元の局所パラメータに対して, 多数の局所更新を行う。
この結果は、データ分布間の共有低次元表現を学習することを目的とした、幅広い種類の問題に対するフェデレーション学習以上の関心を持っている。
論文 参考訳(メタデータ) (2021-02-14T05:36:25Z) - Neural Data Server: A Large-Scale Search Engine for Transfer Learning
Data [78.74367441804183]
我々は,ターゲットドメインに最も有用な転送学習データを見つけるための大規模検索エンジンであるNeural Data Server (NDS)を紹介した。
NDSは、いくつかの人気のある画像データセットをインデックスするデータサーバで構成され、クライアントにデータを推奨することを目的としている。
我々は,NDSが様々な伝達学習シナリオにおいて有効であることを示し,複数のターゲットデータセットに対して最先端の性能を示す。
論文 参考訳(メタデータ) (2020-01-09T01:21:30Z) - DeGAN : Data-Enriching GAN for Retrieving Representative Samples from a
Trained Classifier [58.979104709647295]
我々は、トレーニングされたネットワークの将来の学習タスクのために、利用可能なデータの豊富さと関連するデータの欠如の間のギャップを埋める。
利用可能なデータは、元のトレーニングデータセットまたは関連するドメインデータセットの不均衡なサブセットである可能性があるため、代表サンプルを検索するために使用します。
関連ドメインからのデータを活用して最先端のパフォーマンスを実現することを実証する。
論文 参考訳(メタデータ) (2019-12-27T02:05:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。