論文の概要: Differentially Private Synthetic Data: Applied Evaluations and
Enhancements
- arxiv url: http://arxiv.org/abs/2011.05537v1
- Date: Wed, 11 Nov 2020 04:03:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-26 23:42:16.984832
- Title: Differentially Private Synthetic Data: Applied Evaluations and
Enhancements
- Title(参考訳): 微分的にプライベートな合成データ:応用評価と強化
- Authors: Lucas Rosenblatt, Xiaoyan Liu, Samira Pouyanfar, Eduardo de Leon, Anuj
Desai, Joshua Allen
- Abstract要約: 異なるプライベートデータ合成は、個人の詳細を露出から保護する。
データ合成のための4つの差分私的生成対向ネットワークの評価を行った。
合成データを生成するためのアンサンブルに基づくモデリング手法であるQUAILを提案する。
- 参考スコア(独自算出の注目度): 4.749807065324706
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine learning practitioners frequently seek to leverage the most
informative available data, without violating the data owner's privacy, when
building predictive models. Differentially private data synthesis protects
personal details from exposure, and allows for the training of differentially
private machine learning models on privately generated datasets. But how can we
effectively assess the efficacy of differentially private synthetic data? In
this paper, we survey four differentially private generative adversarial
networks for data synthesis. We evaluate each of them at scale on five standard
tabular datasets, and in two applied industry scenarios. We benchmark with
novel metrics from recent literature and other standard machine learning tools.
Our results suggest some synthesizers are more applicable for different privacy
budgets, and we further demonstrate complicating domain-based tradeoffs in
selecting an approach. We offer experimental learning on applied machine
learning scenarios with private internal data to researchers and practioners
alike. In addition, we propose QUAIL, an ensemble-based modeling approach to
generating synthetic data. We examine QUAIL's tradeoffs, and note circumstances
in which it outperforms baseline differentially private supervised learning
models under the same budget constraint.
- Abstract(参考訳): 機械学習の実践者は、予測モデルを構築する際に、データ所有者のプライバシを侵害することなく、最も情報性の高いデータを活用することを求める。
プライベートなデータ合成は、個人の詳細を露出から保護し、プライベートに生成されたデータセット上で差分にプライベートな機械学習モデルのトレーニングを可能にする。
しかし, 差動合成データの有効性を効果的に評価するにはどうすればよいか?
本稿では,データ合成のための4つの差分私的生成対向ネットワークについて検討する。
それぞれを5つの標準表データセットと2つの応用業界シナリオで大規模に評価する。
我々は、最近の文献や他の標準機械学習ツールの新しいメトリクスでベンチマークする。
以上の結果から,いくつかのシンセサイザは異なるプライバシ予算に適用可能であり,さらに,アプローチ選択におけるドメインベースのトレードオフを複雑化することを示す。
研究者や専門家にもプライベートな内部データを用いた応用機械学習シナリオの実験的な学習を提供する。
さらに,合成データ生成のためのアンサンブルに基づくモデリング手法であるquailを提案する。
quailのトレードオフを検証し、同じ予算制約の下で、ベースラインの差分的教師付き学習モデルよりも優れる状況に留意する。
関連論文リスト
- Tabular Data Synthesis with Differential Privacy: A Survey [24.500349285858597]
データ共有はコラボレーティブなイノベーションの前提条件であり、さまざまなデータセットを活用して深い洞察を得ることを可能にします。
データ合成は、実際のデータの統計特性を保存する人工データセットを生成することで、この問題に対処する。
プライバシーに配慮したデータ共有に対する、有望なアプローチとして、異なるプライベートなデータ合成が登場している。
論文 参考訳(メタデータ) (2024-11-04T06:32:48Z) - FewFedPIT: Towards Privacy-preserving and Few-shot Federated Instruction Tuning [54.26614091429253]
フェデレーション・インストラクション・チューニング(FedIT)は、複数のデータ所有者間で協調的なトレーニングを統合することで、有望なソリューションである。
FedITは、インストラクショナルデータの不足や、トレーニングデータ抽出攻撃への露出リスクなどの制限に直面している。
本稿では,FewFedPITを提案する。このFewFedPITは,フェデレートされた数ショット学習のプライバシー保護とモデル性能を同時に向上する。
論文 参考訳(メタデータ) (2024-03-10T08:41:22Z) - Assessment of Differentially Private Synthetic Data for Utility and
Fairness in End-to-End Machine Learning Pipelines for Tabular Data [3.555830838738963]
差分プライベート(DP)合成データセットは、個々のデータプロバイダのプライバシを保持しながらデータを共有するためのソリューションである。
機械学習モデルの訓練と評価に最も効果的な合成データ生成手法を同定する。
論文 参考訳(メタデータ) (2023-10-30T03:37:16Z) - PrivacyMind: Large Language Models Can Be Contextual Privacy Protection Learners [81.571305826793]
コンテキストプライバシ保護言語モデル(PrivacyMind)を紹介する。
我々の研究はモデル設計に関する理論的分析を提供し、様々な手法をベンチマークする。
特に、肯定的な例と否定的な例の両方による命令チューニングは、有望な方法である。
論文 参考訳(メタデータ) (2023-10-03T22:37:01Z) - Approximate, Adapt, Anonymize (3A): a Framework for Privacy Preserving
Training Data Release for Machine Learning [3.29354893777827]
データリリースフレームワークである3A(Approximate, Adapt, Anonymize)を導入し、機械学習のデータユーティリティを最大化する。
本稿では,実データセットと民生データセットでトレーニングしたモデルの性能指標の相違が最小限に抑えられることを示す実験的な証拠を示す。
論文 参考訳(メタデータ) (2023-07-04T18:37:11Z) - Privacy-Preserving Machine Learning for Collaborative Data Sharing via
Auto-encoder Latent Space Embeddings [57.45332961252628]
データ共有プロセスにおけるプライバシ保護機械学習は、極めて重要なタスクである。
本稿では、オートエンコーダによる表現学習を用いて、プライバシーを保護した組込みデータを生成する革新的なフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-10T17:36:58Z) - Private Set Generation with Discriminative Information [63.851085173614]
異なるプライベートなデータ生成は、データプライバシの課題に対する有望な解決策である。
既存のプライベートな生成モデルは、合成サンプルの有用性に苦慮している。
我々は,最先端アプローチのサンプルユーティリティを大幅に改善する,シンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2022-11-07T10:02:55Z) - Investigating Bias with a Synthetic Data Generator: Empirical Evidence
and Philosophical Interpretation [66.64736150040093]
機械学習の応用は、私たちの社会でますます広まりつつある。
リスクは、データに埋め込まれたバイアスを体系的に広めることである。
本稿では,特定の種類のバイアスとその組み合わせで合成データを生成するフレームワークを導入することにより,バイアスを分析することを提案する。
論文 参考訳(メタデータ) (2022-09-13T11:18:50Z) - Personalization Improves Privacy-Accuracy Tradeoffs in Federated
Optimization [57.98426940386627]
局所的な学習とプライベートな集中学習の協調は、総合的に有用であり、精度とプライバシのトレードオフを改善していることを示す。
合成および実世界のデータセットに関する実験により理論的結果について述べる。
論文 参考訳(メタデータ) (2022-02-10T20:44:44Z) - An Analysis of the Deployment of Models Trained on Private Tabular
Synthetic Data: Unexpected Surprises [4.129847064263057]
異なるプライベート(DP)合成データセットは、機械学習モデルをトレーニングするための強力なアプローチである。
差分プライベートな合成データ生成が分類に与える影響について検討する。
論文 参考訳(メタデータ) (2021-06-15T21:00:57Z) - Differentially Private Synthetic Medical Data Generation using
Convolutional GANs [7.2372051099165065]
R'enyiの差分プライバシーを用いた合成データ生成のための差分プライベートフレームワークを開発する。
提案手法は, 畳み込み自己エンコーダと畳み込み生成対向ネットワークを利用して, 生成した合成データの重要な特性をある程度保存する。
私たちのモデルは、同じプライバシー予算の下で既存の最新モデルを上回ることを実証します。
論文 参考訳(メタデータ) (2020-12-22T01:03:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。