論文の概要: Scalable Data Point Valuation in Decentralized Learning
- arxiv url: http://arxiv.org/abs/2305.01657v1
- Date: Mon, 1 May 2023 22:15:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-04 17:18:11.648057
- Title: Scalable Data Point Valuation in Decentralized Learning
- Title(参考訳): 分散学習におけるスケーラブルなデータポイント評価
- Authors: Konstantin D. Pandl, Chun-Yin Huang, Ivan Beschastnikh, Xiaoxiao Li,
Scott Thiebes, Ali Sunyaev
- Abstract要約: 我々は分散データ評価のためのDDValと呼ばれる手法を開発した。
DDVal は k-nearest 近傍近似法による深い特徴の共有とShapley 値の近似に基づいている。
DDValはデータポイントが少ないクライアントが多いデータ分散シナリオにおいて特に効率的であることを示す。
- 参考スコア(独自算出の注目度): 14.920108247015463
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Existing research on data valuation in federated and swarm learning focuses
on valuing client contributions and works best when data across clients is
independent and identically distributed (IID). In practice, data is rarely
distributed IID. We develop an approach called DDVal for decentralized data
valuation, capable of valuing individual data points in federated and swarm
learning. DDVal is based on sharing deep features and approximating Shapley
values through a k-nearest neighbor approximation method. This allows for novel
applications, for example, to simultaneously reward institutions and
individuals for providing data to a decentralized machine learning task. The
valuation of data points through DDVal allows to also draw hierarchical
conclusions on the contribution of institutions, and we empirically show that
the accuracy of DDVal in estimating institutional contributions is higher than
existing Shapley value approximation methods for federated learning.
Specifically, it reaches a cosine similarity in approximating Shapley values of
99.969 % in both, IID and non-IID data distributions across institutions,
compared with 99.301 % and 97.250 % for the best state of the art methods.
DDVal scales with the number of data points instead of the number of clients,
and has a loglinear complexity. This scales more favorably than existing
approaches with an exponential complexity. We show that DDVal is especially
efficient in data distribution scenarios with many clients that have few data
points - for example, more than 16 clients with 8,000 data points each. By
integrating DDVal into a decentralized system, we show that it is not only
suitable for centralized federated learning, but also decentralized swarm
learning, which aligns well with the research on emerging internet technologies
such as web3 to reward users for providing data to algorithms.
- Abstract(参考訳): フェデレーションとスワムラーニングにおけるデータバリュエーションに関する既存の研究は、クライアント間のデータの独立性と同一分散(IID)において、クライアントのコントリビューションを評価することに焦点を当てている。
実際には、データはまれに分散IDである。
我々は、分散データ評価のためのDDValと呼ばれるアプローチを開発し、フェデレートおよびスワムラーニングにおける個々のデータポイントを評価する。
DDVal は k-nearest 近傍近似法による深い特徴の共有とShapley 値の近似に基づいている。
これにより、例えば、分散機械学習タスクにデータを提供する機関と個人を同時に報酬する新しいアプリケーションが可能になる。
DDValによるデータポイントの評価は,機関の貢献に関する階層的な結論を引き出すことが可能であり,既存のShapley値近似法よりもDDValの精度が高いことを実証的に示す。
具体的には、シャプリー値99.969 %、iid および非iidデータ分布を両機関で近似してコサイン類似度に達し、最高状態のアート法では99.301 %、97.250 %である。
DDValはクライアントの数ではなくデータポイントの数でスケールし、ログリニアな複雑さを持つ。
これは、指数的な複雑さを持つ既存のアプローチよりも好意的にスケールする。
ddvalは、データポイントがほとんどない多くのクライアント、例えば、8,000のデータポイントを持つ16以上のクライアントを持つ、データ分散シナリオにおいて特に効率的である。
DDValを分散システムに統合することにより、集中型フェデレーション学習だけでなく、Web3などの新興インターネット技術の研究と整合して、ユーザにアルゴリズムへのデータ提供に報いる分散スワム学習にも適していることを示す。
関連論文リスト
- Personalized Decentralized Federated Learning with Knowledge
Distillation [5.469841541565307]
フェデレート学習機能のパーソナライゼーションは、データや振る舞いのばらつきが高いクライアントのコーディネータとして機能する。
一般に、分散ネットワークにおいて、他のユーザーのモデルについて限られた知識の下で類似性を定量化することは困難である。
本研究では,局所モデル間の統計的距離を識別するために,知識蒸留技術を活用したパーソナライズされた完全分散FLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-23T16:41:07Z) - Scalable Collaborative Learning via Representation Sharing [53.047460465980144]
フェデレートラーニング(FL)とスプリットラーニング(SL)は、データを(デバイス上で)プライベートにしながら協調学習を可能にする2つのフレームワークである。
FLでは、各データ保持者がモデルをローカルにトレーニングし、集約のために中央サーバにリリースする。
SLでは、クライアントは個々のカット層アクティベーション(スマッシュされたデータ)をサーバにリリースし、そのレスポンス(推論とバックの伝搬の両方)を待つ必要があります。
本研究では, クライアントがオンライン知識蒸留を通じて, 対照的な損失を生かして協調する, プライバシ保護機械学習の新しいアプローチを提案する。
論文 参考訳(メタデータ) (2022-11-20T10:49:22Z) - Federated Learning via Decentralized Dataset Distillation in
Resource-Constrained Edge Environments [11.46918838480981]
連合学習では、すべてのネットワーク化されたクライアントがモデルトレーニングに協力的に貢献する。
モデルのサイズが大きくなると、トレーニングされた部分モデルを共有することさえも、深刻な通信ボトルネックにつながることが多い。
我々は,データセット蒸留インスタンスを統合することで,ワンショット通信のみを必要とするフェデレート学習フレームワークであるFedD3を紹介した。
論文 参考訳(メタデータ) (2022-08-24T05:36:22Z) - FedILC: Weighted Geometric Mean and Invariant Gradient Covariance for
Federated Learning on Non-IID Data [69.0785021613868]
フェデレートラーニング(Federated Learning)とは、ローカルに計算されたパラメータの更新を、空間的に分散されたクライアントサイロからトレーニングデータに集約することで、共有サーバモデルによる学習を可能にする分散機械学習アプローチである。
本研究では, 勾配の共分散とヘッセンの幾何学的平均を利用して, シロ間およびシロ内成分の両方を捕捉するフェデレート不変学習一貫性(FedILC)アプローチを提案する。
これは医療、コンピュータビジョン、IoT(Internet of Things)といった様々な分野に関係している。
論文 参考訳(メタデータ) (2022-05-19T03:32:03Z) - Decentralized federated learning of deep neural networks on non-iid data [0.6335848702857039]
分散環境でパーソナライズされたディープラーニングモデルを学ぶことの難しさに対処する。
本稿では,PENS(Performance-Based Neighbor Selection)という手法を提案する。
PENSは強力なベースラインに比べて高い精度を達成することができる。
論文 参考訳(メタデータ) (2021-07-18T19:05:44Z) - Weight Divergence Driven Divide-and-Conquer Approach for Optimal
Federated Learning from non-IID Data [0.0]
Federated Learningは、トレーニングデータを集中化することなく、分散デバイスに格納されたデータのトレーニングを可能にする。
本稿では,一般的なFedAvgアグリゲーションアルゴリズムの活用を可能にする,新しいDivide-and-Conquerトレーニング手法を提案する。
論文 参考訳(メタデータ) (2021-06-28T09:34:20Z) - Exploiting Shared Representations for Personalized Federated Learning [54.65133770989836]
本稿では,クライアント間の共有データ表現と,クライアント毎のユニークなローカルヘッダを学習するための,新しいフェデレーション学習フレームワークとアルゴリズムを提案する。
提案アルゴリズムは, クライアント間の分散計算能力を利用して, 表現の更新毎に低次元の局所パラメータに対して, 多数の局所更新を行う。
この結果は、データ分布間の共有低次元表現を学習することを目的とした、幅広い種類の問題に対するフェデレーション学習以上の関心を持っている。
論文 参考訳(メタデータ) (2021-02-14T05:36:25Z) - Quasi-Global Momentum: Accelerating Decentralized Deep Learning on
Heterogeneous Data [77.88594632644347]
ディープラーニングモデルの分散トレーニングは、ネットワーク上でデータプライバシとデバイス上での学習を可能にする重要な要素である。
現実的な学習シナリオでは、異なるクライアントのローカルデータセットに異質性が存在することが最適化の課題となる。
本稿では,この分散学習の難しさを軽減するために,運動量に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2021-02-09T11:27:14Z) - A decentralized aggregation mechanism for training deep learning models
using smart contract system for bank loan prediction [0.1933681537640272]
スマートコントラクトシステムを用いてディープラーニングアーキテクチャのトレーニングを行う場合,分散データ設定のメリットを享受するソリューションを提案する。
ブロックチェーン上でのローカルANNモデルから得られた中間表現を集約する機構を提案する。
得られたパフォーマンスは、個々のノードよりも優れているが、集中型データ設定と同等である。
論文 参考訳(メタデータ) (2020-11-22T10:47:45Z) - A Principled Approach to Data Valuation for Federated Learning [73.19984041333599]
フェデレートラーニング(FL)は、分散データソース上で機械学習(ML)モデルをトレーニングする一般的なテクニックである。
Shapley value (SV) はデータ値の概念として多くのデシラタを満たすユニークなペイオフスキームを定義する。
本稿では,FL に対応する SV の変種を提案する。
論文 参考訳(メタデータ) (2020-09-14T04:37:54Z) - Multi-Center Federated Learning [62.57229809407692]
本稿では,フェデレート学習のための新しい多中心集約機構を提案する。
非IIDユーザデータから複数のグローバルモデルを学び、同時にユーザとセンタ間の最適なマッチングを導出する。
ベンチマークデータセットによる実験結果から,本手法はいくつかの一般的なフェデレーション学習法より優れていることが示された。
論文 参考訳(メタデータ) (2020-05-03T09:14:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。