論文の概要: Collaborative Learning From Distributed Data With Differentially Private
Synthetic Twin Data
- arxiv url: http://arxiv.org/abs/2308.04755v1
- Date: Wed, 9 Aug 2023 07:47:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-10 14:54:47.236154
- Title: Collaborative Learning From Distributed Data With Differentially Private
Synthetic Twin Data
- Title(参考訳): 微分プライベートな合成双対データを用いた分散データからの協調学習
- Authors: Lukas Prediger, Joonas J\"alk\"o, Antti Honkela, Samuel Kaski
- Abstract要約: 本稿では、各当事者がデータの差分プライベートな合成双対を共有する枠組みを提案する。
本研究は,英国バイオバンクの現実世界の健康データに基づいて,このような人工双生児データの組み合わせによる協調学習の実現可能性について検討する。
- 参考スコア(独自算出の注目度): 15.033125153840308
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Consider a setting where multiple parties holding sensitive data aim to
collaboratively learn population level statistics, but pooling the sensitive
data sets is not possible. We propose a framework in which each party shares a
differentially private synthetic twin of their data. We study the feasibility
of combining such synthetic twin data sets for collaborative learning on
real-world health data from the UK Biobank. We discover that parties engaging
in the collaborative learning via shared synthetic data obtain more accurate
estimates of target statistics compared to using only their local data. This
finding extends to the difficult case of small heterogeneous data sets.
Furthermore, the more parties participate, the larger and more consistent the
improvements become. Finally, we find that data sharing can especially help
parties whose data contain underrepresented groups to perform better-adjusted
analysis for said groups. Based on our results we conclude that sharing of
synthetic twins is a viable method for enabling learning from sensitive data
without violating privacy constraints even if individual data sets are small or
do not represent the overall population well. The setting of distributed
sensitive data is often a bottleneck in biomedical research, which our study
shows can be alleviated with privacy-preserving collaborative learning methods.
- Abstract(参考訳): センシティブなデータを保持する複数の当事者が協力して人口統計を学習しようとする状況を考えるが、センシティブなデータセットをプールすることは不可能である。
本稿では、各当事者がデータの差分プライベートな合成双対を共有する枠組みを提案する。
本研究は,英国バイオバンクによる実世界の健康データを用いた協調学習のための合成双生児データセットの合成可能性について検討する。
共有合成データによる協調学習に携わる参加者は、局所データのみを用いた場合に比べて、目標統計の正確な推定値が得られる。
この発見は、小さな異種データセットの難しい場合にまで及ぶ。
さらに、参加者が増えるほど、改善はより大きく、より一貫したものになる。
最後に、データ共有は、データが表示されていないグループを含むパーティが、そのグループに対してより適切な分析を行うのに特に役立ちます。
以上の結果から, 人工双生児の共有は, 個々のデータセットが小さかったり, 集団全体をうまく表現していない場合でも, プライバシー制約に違反することなく, センシティブなデータから学習できる有効な方法であると結論付けた。
バイオメディカル研究のボトルネックとして,分散センシティブデータの設定は,プライバシ保存型協調学習手法によって緩和できることが本研究で示されている。
関連論文リスト
- Efficient Data Collection for Robotic Manipulation via Compositional Generalization [70.76782930312746]
本研究では, 環境要因をデータから構成し, 未確認の要因の組み合わせに遭遇した場合に成功できることを示す。
コンポジションを利用したドメイン内データ収集手法を提案する。
ビデオはhttp://iliad.stanford.edu/robot-data-comp/で公開しています。
論文 参考訳(メタデータ) (2024-03-08T07:15:38Z) - PILLAR: How to make semi-private learning more effective [12.292092677396347]
Semi-Supervised Semi-Private (SP)学習では、学習者は公開されていないラベル付きデータとプライベートラベル付きデータの両方にアクセスすることができる。
そこで本研究では,実世界のデータセット上で効率よく動作可能な,プライベートラベル付きサンプルの複雑さを著しく低減する計算効率のよいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-06T18:45:05Z) - GenSyn: A Multi-stage Framework for Generating Synthetic Microdata using
Macro Data Sources [21.32471030724983]
人口を特徴付ける個人レベルのデータ(マイクロデータ)は多くの現実世界の問題を研究するのに不可欠である。
本研究では,高分解能データの抽出方法として合成データ生成について検討する。
論文 参考訳(メタデータ) (2022-12-08T01:22:12Z) - Private Set Generation with Discriminative Information [63.851085173614]
異なるプライベートなデータ生成は、データプライバシの課題に対する有望な解決策である。
既存のプライベートな生成モデルは、合成サンプルの有用性に苦慮している。
我々は,最先端アプローチのサンプルユーティリティを大幅に改善する,シンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2022-11-07T10:02:55Z) - Rethinking Data Heterogeneity in Federated Learning: Introducing a New
Notion and Standard Benchmarks [65.34113135080105]
我々は、現在のセットアップにおけるデータ不均一性の問題が必ずしも問題であるだけでなく、FL参加者にとって有益であることを示す。
私たちの観察は直感的である。
私たちのコードはhttps://github.com/MMorafah/FL-SC-NIIDで利用可能です。
論文 参考訳(メタデータ) (2022-09-30T17:15:19Z) - Differentially Private Multi-Party Data Release for Linear Regression [40.66319371232736]
Differentially Private (DP) データリリースは、データ対象のプライバシを損なうことなくデータを広める、有望なテクニックである。
本稿では、異なる利害関係者が同じデータ対象グループに属する不整合な属性セットを所有するマルチパーティ設定に焦点を当てる。
提案手法は,データセットサイズが増大する最適(プライベートでない)解に収束することを示す。
論文 参考訳(メタデータ) (2022-06-16T08:32:17Z) - Towards Group Robustness in the presence of Partial Group Labels [61.33713547766866]
入力サンプルとターゲットラベルの間に 急激な相関関係がある ニューラルネットワークの予測を誤った方向に導く
本稿では,制約セットから最悪のグループ割り当てを最適化するアルゴリズムを提案する。
グループ間で総合的な集計精度を維持しつつ,少数集団のパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2022-01-10T22:04:48Z) - IFedAvg: Interpretable Data-Interoperability for Federated Learning [39.388223565330385]
本研究では,表型データに対するフェデレーション学習において,クライアントデータの不整合によって引き起こされる低相互運用性の定義と対処を行う。
提案手法であるiFedAvgは、協調学習プロセスのパーソナライズされたきめ細かな理解を可能にするために、局所的な要素ワイドアフィン層を追加するフェデレーション平均化に基づいている。
我々は、2014~2016年の西アフリカエボラ流行から得られた、いくつかの公開ベンチマークと実世界のデータセットを用いて、iFedAvgを評価し、世界でも最大規模のデータセットを共同で作成した。
論文 参考訳(メタデータ) (2021-07-14T09:54:00Z) - FLOP: Federated Learning on Medical Datasets using Partial Networks [84.54663831520853]
新型コロナウイルスの感染拡大で医療資源が不足している。
新型コロナウイルスの診断を緩和するために、さまざまなデータ駆動型ディープラーニングモデルが開発されている。
患者のプライバシー上の懸念から、データそのものはまだ乏しい。
我々は、textbfPartial Networks (FLOP) を用いた、シンプルで効果的な textbfFederated textbfL textbfon Medical データセットを提案する。
論文 参考訳(メタデータ) (2021-02-10T01:56:58Z) - Measuring Utility and Privacy of Synthetic Genomic Data [3.635321290763711]
人工ゲノムデータを生成するための5つの最先端モデルの実用性とプライバシ保護を最初に評価する。
全体として、ボード全体でうまく機能する合成ゲノムデータを生成するための単一のアプローチは存在しない。
論文 参考訳(メタデータ) (2021-02-05T17:41:01Z) - Multi-modal AsynDGAN: Learn From Distributed Medical Image Data without
Sharing Private Information [55.866673486753115]
プライバシーとセキュリティを守るために拡張可能で弾力性のある学習フレームワークを提案します。
提案するフレームワークは分散Asynchronized Discriminator Generative Adrial Networks (AsynDGAN) である。
論文 参考訳(メタデータ) (2020-12-15T20:41:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。