論文の概要: Epistemic Parity: Reproducibility as an Evaluation Metric for
Differential Privacy
- arxiv url: http://arxiv.org/abs/2208.12700v1
- Date: Fri, 26 Aug 2022 14:57:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-19 10:48:31.196580
- Title: Epistemic Parity: Reproducibility as an Evaluation Metric for
Differential Privacy
- Title(参考訳): epistemic parity:差分プライバシー評価指標としての再現性
- Authors: Lucas Rosenblatt, Anastasia Holovenko, Taras Rumezhak, Andrii Stadnik,
Bernease Herman, Julia Stoyanovich, Bill Howe
- Abstract要約: 本研究では, 科学的研究における差分プライベート合成データの有用性を評価するための代替評価手法を提案する。
提案手法は,公開データセットを用いたピアレビュー論文の実証的な結論の再現から成り立っている。
次に、最先端のメカニズムを用いて、微分プライベートな合成データセットを生成し、論文に記載されている結論が保持されているかどうかを評価する。
- 参考スコア(独自算出の注目度): 11.087247394495382
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Differential privacy mechanisms are increasingly used to enable public
release of sensitive datasets, relying on strong theoretical guarantees for
privacy coupled with empirical evidence of utility. Utility is typically
measured as the error on representative proxy tasks, such as descriptive
statistics, multivariate correlations, or classification accuracy. In this
paper, we propose an alternative evaluation methodology for measuring the
utility of differentially private synthetic data in scientific research, a
measure we term "epistemic parity." Our methodology consists of reproducing
empirical conclusions of peer-reviewed papers that use publicly available
datasets, and comparing these conclusions to those based on differentially
private versions of the datasets.
We instantiate our methodology over a benchmark of recent peer-reviewed
papers that analyze public datasets in the ICPSR social science repository. We
reproduce visualizations (qualitative results) and statistical measures
(quantitative results) from each paper. We then generate differentially private
synthetic datasets using state-of-the-art mechanisms and assess whether the
conclusions stated in the paper hold. We find that, across reasonable epsilon
values, epistemic parity only partially holds for each synthesizer we
evaluated. Therefore, we advocate for both improving existing synthesizers and
creating new data release mechanisms that offer strong guarantees for epistemic
parity while achieving risk-aware, best effort protection from privacy attacks.
- Abstract(参考訳): 異なるプライバシメカニズムは、経験的なユーティリティの証拠と合わせて、プライバシーに関する強力な理論的保証に依存する、センシティブなデータセットの公開を可能にするために、ますます使用されている。
ユーティリティは通常、記述統計、多変量相関、分類精度などの代表的プロキシタスクのエラーとして測定される。
本稿では,科学的研究における差分プライベートな合成データの有用性を評価するための代替評価手法を提案する。
提案手法は、公開データセットを用いたピアレビュー論文の実証的結論を再現し、これらの結論をデータセットの微分プライベートバージョンに基づく結果と比較する。
我々はICPSR社会科学レポジトリの公開データセットを解析する最近のピアレビュー論文のベンチマークで方法論をインスタンス化する。
各紙から可視化(定性的結果)と統計的尺度(定性的結果)を再現する。
次に,最先端の機構を用いて差動的にプライベートな合成データセットを生成し,論文に記載された結論が保持されているかどうかを評価する。
妥当なエプシロン値において、エピステミックパリティは、評価した各シンセサイザーに対して部分的にしか持たないことがわかった。
そこで我々は,既存のシンセサイザーの改良と,プライバシ攻撃によるリスク対応,最善の努力の保護を実現すると同時に,認識的同一性に対する強力な保証を提供する新たなデータリリースメカニズムの作成を提唱する。
関連論文リスト
- A Multi-Faceted Evaluation Framework for Assessing Synthetic Data Generated by Large Language Models [3.672850225066168]
生成AIと大規模言語モデル(LLM)は、合成データを生成するための新たな道を開いた。
潜在的なメリットにもかかわらず、プライバシー漏洩に関する懸念が浮上している。
我々は,合成表データの忠実さ,有用性,およびプライバシー保護を評価するために設計されたオープンソースの評価フレームワークであるSynEvalを紹介する。
論文 参考訳(メタデータ) (2024-04-20T08:08:28Z) - Towards Biologically Plausible and Private Gene Expression Data
Generation [47.72947816788821]
差分プライバシー(DP)で訓練された生成モデルは、下流アプリケーションのための合成データの作成において、ますます顕著になりつつある。
しかし、既存の文献は主に基本的なベンチマークデータセットに焦点を当てており、基本的なメトリクスと比較的単純なデータ分布にのみ有望な結果を報告する傾向にある。
本研究では,DP生成モデルが自然応用シナリオにおいてどのように機能するかを系統的に分析し,実世界の遺伝子発現データに焦点をあてる。
論文 参考訳(メタデータ) (2024-02-07T14:39:11Z) - Benchmarking Private Population Data Release Mechanisms: Synthetic Data vs. TopDown [50.40020716418472]
本研究では、TopDownアルゴリズムとプライベート合成データ生成を比較し、クエリの複雑さによる精度への影響を判定する。
この結果から,TopDownアルゴリズムは,分散クエリに対して,評価したどの合成データ手法よりもはるかに優れたプライバシー-忠実トレードオフを実現することがわかった。
論文 参考訳(メタデータ) (2024-01-31T17:38:34Z) - Statistical properties and privacy guarantees of an original
distance-based fully synthetic data generation method [0.0]
この研究は、多段階のフレームワークを用いて、公開リリース可能な合成データを生成する技術的実現可能性を示す。
新たな多段階合成データ生成フレームワークを用いて生成したデータの質を評価することで,Open-CESPイニシアチブの技術的,概念的健全性を実証した。
論文 参考訳(メタデータ) (2023-10-10T12:29:57Z) - SoK: Privacy-Preserving Data Synthesis [72.92263073534899]
本稿では,プライバシ保護データ合成(PPDS)に注目し,その分野の総合的な概要,分析,議論を行う。
PPDSでは,統計的手法と深層学習(DL)に基づく手法の2つの顕著な研究を統一するマスターレシピを作成した。
論文 参考訳(メタデータ) (2023-07-05T08:29:31Z) - Perturbation-Assisted Sample Synthesis: A Novel Approach for Uncertainty
Quantification [3.175239447683357]
本稿では、摂動支援サンプル合成(PASS)法により生成された合成データを利用した新しい摂動支援推論(PAI)フレームワークを提案する。
このフレームワークは、複雑なデータシナリオ、特に非構造化データの不確実性定量化に焦点を当てている。
我々は、画像合成、感情語分析、マルチモーダル推論、予測区間の構築など、様々な分野に適用することで、複雑なデータ駆動タスクにおける不確実性定量化を推し進める上で、PAIの有効性を実証する。
論文 参考訳(メタデータ) (2023-05-30T01:01:36Z) - Revisiting the Evaluation of Image Synthesis with GANs [55.72247435112475]
本研究では, 合成性能の評価に関する実証的研究を行い, 生成モデルの代表としてGAN(Generative Adversarial Network)を用いた。
特に、表現空間におけるデータポイントの表現方法、選択したサンプルを用いた公平距離の計算方法、各集合から使用可能なインスタンス数など、さまざまな要素の詳細な分析を行う。
論文 参考訳(メタデータ) (2023-04-04T17:54:32Z) - Investigating Bias with a Synthetic Data Generator: Empirical Evidence
and Philosophical Interpretation [66.64736150040093]
機械学習の応用は、私たちの社会でますます広まりつつある。
リスクは、データに埋め込まれたバイアスを体系的に広めることである。
本稿では,特定の種類のバイアスとその組み合わせで合成データを生成するフレームワークを導入することにより,バイアスを分析することを提案する。
論文 参考訳(メタデータ) (2022-09-13T11:18:50Z) - CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。
このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。
提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文 参考訳(メタデータ) (2022-03-03T05:58:49Z) - Bias Mitigated Learning from Differentially Private Synthetic Data: A
Cautionary Tale [13.881022208028751]
バイアスは、合成データ分布が実データ分布の不整合推定であるため、すべての解析に影響を与える可能性がある。
民営化確率比を用いた複数のバイアス緩和戦略を提案する。
バイアス緩和は、合成データの一般的な応用に、シンプルで効果的なプライバシー準拠の強化をもたらすことを示す。
論文 参考訳(メタデータ) (2021-08-24T19:56:44Z) - An Analysis of the Deployment of Models Trained on Private Tabular
Synthetic Data: Unexpected Surprises [4.129847064263057]
異なるプライベート(DP)合成データセットは、機械学習モデルをトレーニングするための強力なアプローチである。
差分プライベートな合成データ生成が分類に与える影響について検討する。
論文 参考訳(メタデータ) (2021-06-15T21:00:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。