論文の概要: Personalized Federated Learning via Active Sampling
- arxiv url: http://arxiv.org/abs/2409.02064v1
- Date: Tue, 3 Sep 2024 17:12:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 00:21:46.592482
- Title: Personalized Federated Learning via Active Sampling
- Title(参考訳): アクティブサンプリングによる個人化フェデレーション学習
- Authors: Alexander Jung, Yasmin SarcheshmehPour, Amirhossein Mohammadi,
- Abstract要約: 本稿では,類似した(あるいは関連する)データジェネレータを逐次同定する手法を提案する。
本手法は,局所的なデータセットを用いて勾配ステップの効果を評価することにより,データ生成の関連性を評価する。
データ生成器が提供する局所的データセットを用いて仮説を更新するために、勾配ステップの適切な一般化により、この手法を非パラメトリックモデルに拡張する。
- 参考スコア(独自算出の注目度): 50.456464838807115
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Consider a collection of data generators which could represent, e.g., humans equipped with a smart-phone or wearables. We want to train a personalized (or tailored) model for each data generator even if they provide only small local datasets. The available local datasets might fail to provide sufficient statistical power to train high-dimensional models (such as deep neural networks) effectively. One possible solution is to identify similar data generators and pool their local datasets to obtain a sufficiently large training set. This paper proposes a novel method for sequentially identifying similar (or relevant) data generators. Our method is similar in spirit to active sampling methods but does not require exchange of raw data. Indeed, our method evaluates the relevance of a data generator by evaluating the effect of a gradient step using its local dataset. This evaluation can be performed in a privacy-friendly fashion without sharing raw data. We extend this method to non-parametric models by a suitable generalization of the gradient step to update a hypothesis using the local dataset provided by a data generator.
- Abstract(参考訳): 例えば、スマートフォンやウェアラブルを備えた人間を表現できるデータジェネレータの集合を考える。
私たちは、小さなローカルデータセットのみを提供する場合でも、各データジェネレータに対してパーソナライズされた(あるいは調整された)モデルをトレーニングしたいと考えています。
利用可能なローカルデータセットは、高次元モデル(ディープニューラルネットワークなど)を効果的にトレーニングするのに十分な統計的パワーを提供できない可能性がある。
可能な解決策のひとつは、類似したデータジェネレータを特定して、ローカルデータセットをプールして、十分な大規模なトレーニングセットを取得することだ。
本稿では,類似した(あるいは関連する)データジェネレータを逐次同定する手法を提案する。
本手法は, アクティブサンプリング法とよく似ているが, 生データの交換は不要である。
実際,本手法は局所的なデータセットを用いて勾配ステップの効果を評価することにより,データジェネレータの関連性を評価する。
この評価は、生データを共有せずに、プライバシーに優しい方法で行うことができる。
データ生成器が提供する局所的データセットを用いて仮説を更新するために、勾配ステップの適切な一般化により、この手法を非パラメトリックモデルに拡張する。
関連論文リスト
- Generative Dataset Distillation: Balancing Global Structure and Local Details [49.20086587208214]
グローバルな構造と局所的な詳細のバランスを考慮に入れた新しいデータセット蒸留法を提案する。
本手法では, 条件付き生成逆数ネットワークを用いて蒸留したデータセットを生成する。
論文 参考訳(メタデータ) (2024-04-26T23:46:10Z) - Few-Shot Object Detection via Synthetic Features with Optimal Transport [28.072187044345107]
我々は,新しいクラスのための合成データを生成するために,ジェネレータを訓練する新しい手法を提案する。
私たちの包括的な目標は、ベースデータセットのデータバリエーションをキャプチャするジェネレータをトレーニングすることにあります。
次に、学習したジェネレータを用いて合成データを生成することにより、キャプチャしたバリエーションを新しいクラスに変換する。
論文 参考訳(メタデータ) (2023-08-29T03:54:26Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - Exploring Data Redundancy in Real-world Image Classification through
Data Selection [20.389636181891515]
ディープラーニングモデルはトレーニングに大量のデータを必要とすることが多く、結果としてコストが増大する。
実世界の画像データの冗長性を調べるために,シナプスインテリジェンスと勾配ノルムに基づく2つのデータ評価指標を提案する。
オンラインおよびオフラインのデータ選択アルゴリズムは、検査されたデータ値に基づいてクラスタリングとグループ化によって提案される。
論文 参考訳(メタデータ) (2023-06-25T03:31:05Z) - Learning from aggregated data with a maximum entropy model [73.63512438583375]
我々は,観測されていない特徴分布を最大エントロピー仮説で近似することにより,ロジスティック回帰と類似した新しいモデルが,集約データからのみ学習されることを示す。
我々は、この方法で学習したモデルが、完全な非凝集データでトレーニングされたロジスティックモデルに匹敵するパフォーマンスを達成することができるという、いくつかの公開データセットに関する実証的な証拠を提示する。
論文 参考訳(メタデータ) (2022-10-05T09:17:27Z) - Achieving Representative Data via Convex Hull Feasibility Sampling
Algorithms [35.29582673348303]
トレーニングデータのバイアスをサンプリングすることは、機械学習システムにおけるアルゴリズムバイアスの主要な原因である。
得られたデータから代表的データセットを収集できるかどうかを高信頼で判断するために,適応的なサンプリング手法を提案する。
論文 参考訳(メタデータ) (2022-04-13T23:14:05Z) - Uniform-in-Phase-Space Data Selection with Iterative Normalizing Flows [0.0]
データの位相空間を均一に分散するようにデータポイントを選択する戦略が提案されている。
データセットの小さなサブセットのみを使用して確率マップを構築する場合、レアデータポイントの確率を正確に推定するために反復法が用いられる。
提案フレームワークは、豊富なデータが利用可能であれば、データ効率のよい機械学習を可能にするための実行可能な経路として実証されている。
論文 参考訳(メタデータ) (2021-12-28T20:06:28Z) - A Single Example Can Improve Zero-Shot Data Generation [7.237231992155901]
意図分類のサブタスクは、実験と評価のために広範囲で柔軟なデータセットを必要とする。
本稿では,データセットの収集にテキスト生成手法を提案する。
タスク指向発話を生成するための2つのアプローチについて検討する。
論文 参考訳(メタデータ) (2021-08-16T09:43:26Z) - Combining Feature and Instance Attribution to Detect Artifacts [62.63504976810927]
トレーニングデータアーティファクトの識別を容易にする手法を提案する。
提案手法は,トレーニングデータのアーティファクトの発見に有効であることを示す。
我々は,これらの手法が実際にNLP研究者にとって有用かどうかを評価するために,小規模なユーザスタディを実施している。
論文 参考訳(メタデータ) (2021-07-01T09:26:13Z) - BREEDS: Benchmarks for Subpopulation Shift [98.90314444545204]
本研究では,人口変動に対するモデルのロバスト性を評価する手法を開発した。
既存のデータセットの基盤となるクラス構造を利用して、トレーニングとテストの分散を構成するデータサブポピュレーションを制御する。
この手法をImageNetデータセットに適用し、様々な粒度のサブポピュレーションシフトベンチマークスイートを作成する。
論文 参考訳(メタデータ) (2020-08-11T17:04:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。