論文の概要: DPD-fVAE: Synthetic Data Generation Using Federated Variational
Autoencoders With Differentially-Private Decoder
- arxiv url: http://arxiv.org/abs/2211.11591v1
- Date: Mon, 21 Nov 2022 15:45:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 19:31:18.063002
- Title: DPD-fVAE: Synthetic Data Generation Using Federated Variational
Autoencoders With Differentially-Private Decoder
- Title(参考訳): DPD-fVAE:差分復号器付きフェデレーション変分オートエンコーダを用いた合成データ生成
- Authors: Bjarne Pfitzner and Bert Arnrich
- Abstract要約: そこで我々は,新たなラベル付きデータセットを合成するためのPD-fVAEを提案する。
FLとデコーダコンポーネントのみを同期させることで、エポック毎のプライバシーコストを削減できます。
MNIST, Fashion-MNIST, CelebAの評価では, DPD-fVAEの利点を示し, 競争性能を報告する。
- 参考スコア(独自算出の注目度): 0.76146285961466
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Federated learning (FL) is getting increased attention for processing
sensitive, distributed datasets common to domains such as healthcare. Instead
of directly training classification models on these datasets, recent works have
considered training data generators capable of synthesising a new dataset which
is not protected by any privacy restrictions. Thus, the synthetic data can be
made available to anyone, which enables further evaluation of machine learning
architectures and research questions off-site. As an additional layer of
privacy-preservation, differential privacy can be introduced into the training
process. We propose DPD-fVAE, a federated Variational Autoencoder with
Differentially-Private Decoder, to synthesise a new, labelled dataset for
subsequent machine learning tasks. By synchronising only the decoder component
with FL, we can reduce the privacy cost per epoch and thus enable better data
generators. In our evaluation on MNIST, Fashion-MNIST and CelebA, we show the
benefits of DPD-fVAE and report competitive performance to related work in
terms of Fr\'echet Inception Distance and accuracy of classifiers trained on
the synthesised dataset.
- Abstract(参考訳): 集中学習(federated learning, fl)は、医療などのドメインに共通する、機密性の高い分散データセットを処理することに注目が集まっている。
これらのデータセットの分類モデルを直接訓練する代わりに、最近の研究は、プライバシー制限に保護されない新しいデータセットを合成できるデータジェネレータを訓練することを検討している。
このようにして、合成データを誰でも利用できるようになり、機械学習アーキテクチャのさらなる評価と、現場外のリサーチ質問が可能になる。
さらなるプライバシー保護のレイヤとして、トレーニングプロセスに差分プライバシーを導入することができる。
dpd-fvaeは差分プライベートデコーダを持つ共役変分オートエンコーダであり、後続の機械学習タスクのための新しいラベル付きデータセットを合成する。
FLとデコーダコンポーネントのみを同期させることで、エポックあたりのプライバシコストを削減し、より良いデータジェネレータを可能にします。
我々は、MNIST、Fashion-MNIST、CelebAの評価において、DPD-fVAEの利点を示し、Fr'echet Inception Distanceおよび合成データセットに基づいて訓練された分類器の精度の観点から、関連する作業に対する競合性能を報告する。
関連論文リスト
- SynEHRgy: Synthesizing Mixed-Type Structured Electronic Health Records using Decoder-Only Transformers [3.9018723423306003]
構造化EHRデータに適した新しいトークン化戦略を提案する。
我々は、生成したデータの忠実度、実用性、プライバシを最先端のモデルと比較する。
論文 参考訳(メタデータ) (2024-11-20T16:11:20Z) - FewFedPIT: Towards Privacy-preserving and Few-shot Federated Instruction Tuning [54.26614091429253]
フェデレーション・インストラクション・チューニング(FedIT)は、複数のデータ所有者間で協調的なトレーニングを統合することで、有望なソリューションである。
FedITは、インストラクショナルデータの不足や、トレーニングデータ抽出攻撃への露出リスクなどの制限に直面している。
本稿では,FewFedPITを提案する。このFewFedPITは,フェデレートされた数ショット学習のプライバシー保護とモデル性能を同時に向上する。
論文 参考訳(メタデータ) (2024-03-10T08:41:22Z) - Federated Learning Empowered by Generative Content [55.576885852501775]
フェデレートラーニング(FL)は、プライバシ保護方法でモデルのトレーニングに分散プライベートデータを活用可能にする。
本稿では,FedGCと呼ばれる新しいFLフレームワークを提案する。
我々は、さまざまなベースライン、データセット、シナリオ、モダリティをカバーする、FedGCに関する体系的な実証的研究を行う。
論文 参考訳(メタデータ) (2023-12-10T07:38:56Z) - Assessment of Differentially Private Synthetic Data for Utility and
Fairness in End-to-End Machine Learning Pipelines for Tabular Data [3.555830838738963]
差分プライベート(DP)合成データセットは、個々のデータプロバイダのプライバシを保持しながらデータを共有するためのソリューションである。
機械学習モデルの訓練と評価に最も効果的な合成データ生成手法を同定する。
論文 参考訳(メタデータ) (2023-10-30T03:37:16Z) - Harnessing large-language models to generate private synthetic text [18.863579044812703]
DP-SGDのような異なるプライベートトレーニングアルゴリズムは、トレーニングされたモデルがプライベート情報を公開しないことを保証することで、センシティブなトレーニングデータを保護する。
本稿では、原データに対して差分的にプライベートな合成データを生成し、その合成データに基づいてモデルを非プライベートに訓練する代替手法について検討する。
プライベートな合成データを作るのは プライベートなモデルを訓練するより はるかに難しい
論文 参考訳(メタデータ) (2023-06-02T16:59:36Z) - TSGM: A Flexible Framework for Generative Modeling of Synthetic Time Series [61.436361263605114]
時系列データは、研究者と産業組織間のデータの共有を妨げるため、しばしば不足または非常に敏感である。
本稿では,合成時系列の生成モデリングのためのオープンソースフレームワークである時系列生成モデリング(TSGM)を紹介する。
論文 参考訳(メタデータ) (2023-05-19T10:11:21Z) - PEOPL: Characterizing Privately Encoded Open Datasets with Public Labels [59.66777287810985]
プライバシとユーティリティのための情報理論スコアを導入し、不誠実なユーザの平均パフォーマンスを定量化する。
次に、ランダムなディープニューラルネットワークの使用を動機付ける符号化スキームのファミリーを構築する際のプリミティブを理論的に特徴づける。
論文 参考訳(メタデータ) (2023-03-31T18:03:53Z) - Privacy-Preserving Machine Learning for Collaborative Data Sharing via
Auto-encoder Latent Space Embeddings [57.45332961252628]
データ共有プロセスにおけるプライバシ保護機械学習は、極めて重要なタスクである。
本稿では、オートエンコーダによる表現学習を用いて、プライバシーを保護した組込みデータを生成する革新的なフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-10T17:36:58Z) - FedSyn: Synthetic Data Generation using Federated Learning [0.0]
現在の機械学習のプラクティスは、既存のデータセットから合成データを生成するために利用することができる。
データプライバシは、一部の機関が満足できないかもしれないことを懸念している。
本稿では,合成データを生成する新しい手法であるFedSynを提案する。
論文 参考訳(メタデータ) (2022-03-11T14:05:37Z) - Unsupervised Domain Adaptive Learning via Synthetic Data for Person
Re-identification [101.1886788396803]
人物再識別(re-ID)は、ビデオ監視に広く応用されているため、ますます注目を集めている。
残念なことに、主流のディープラーニング手法では、モデルをトレーニングするために大量のラベル付きデータが必要です。
本稿では,コンピュータゲーム内で合成されたre-IDサンプルを自動的に生成するデータコレクタを開発し,同時にアノテートするデータラベラを構築した。
論文 参考訳(メタデータ) (2021-09-12T15:51:41Z) - Differentially Private Synthetic Medical Data Generation using
Convolutional GANs [7.2372051099165065]
R'enyiの差分プライバシーを用いた合成データ生成のための差分プライベートフレームワークを開発する。
提案手法は, 畳み込み自己エンコーダと畳み込み生成対向ネットワークを利用して, 生成した合成データの重要な特性をある程度保存する。
私たちのモデルは、同じプライバシー予算の下で既存の最新モデルを上回ることを実証します。
論文 参考訳(メタデータ) (2020-12-22T01:03:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。