論文の概要: Epistemic Parity: Reproducibility as an Evaluation Metric for
Differential Privacy
- arxiv url: http://arxiv.org/abs/2208.12700v3
- Date: Wed, 31 May 2023 23:42:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-03 01:42:19.741075
- Title: Epistemic Parity: Reproducibility as an Evaluation Metric for
Differential Privacy
- Title(参考訳): epistemic parity:差分プライバシー評価指標としての再現性
- Authors: Lucas Rosenblatt, Bernease Herman, Anastasia Holovenko, Wonkwon Lee,
Joshua Loftus, Elizabeth McKinnie, Taras Rumezhak, Andrii Stadnik, Bill Howe,
Julia Stoyanovich
- Abstract要約: 本稿では,プロキシタスクの表現性に関する仮定を回避した合成データの評価手法を提案する。
著者が合成データを使用した場合、公表された結論が変わる可能性を測定する。
我々は、より強力なユーティリティ保証を支持し、プライバシー保護を提供する新しい種類のメカニズムを提唱する。
- 参考スコア(独自算出の注目度): 9.755020926517291
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Differential privacy (DP) data synthesizers support public release of
sensitive information, offering theoretical guarantees for privacy but limited
evidence of utility in practical settings. Utility is typically measured as the
error on representative proxy tasks, such as descriptive statistics, accuracy
of trained classifiers, or performance over a query workload. The ability for
these results to generalize to practitioners' experience has been questioned in
a number of settings, including the U.S. Census. In this paper, we propose an
evaluation methodology for synthetic data that avoids assumptions about the
representativeness of proxy tasks, instead measuring the likelihood that
published conclusions would change had the authors used synthetic data, a
condition we call epistemic parity. Our methodology consists of reproducing
empirical conclusions of peer-reviewed papers on real, publicly available data,
then re-running these experiments a second time on DP synthetic data, and
comparing the results.
We instantiate our methodology over a benchmark of recent peer-reviewed
papers that analyze public datasets in the ICPSR repository. We model
quantitative claims computationally to automate the experimental workflow, and
model qualitative claims by reproducing visualizations and comparing the
results manually. We then generate DP synthetic datasets using multiple
state-of-the-art mechanisms, and estimate the likelihood that these conclusions
will hold. We find that state-of-the-art DP synthesizers are able to achieve
high epistemic parity for several papers in our benchmark. However, some
papers, and particularly some specific findings, are difficult to reproduce for
any of the synthesizers. We advocate for a new class of mechanisms that favor
stronger utility guarantees and offer privacy protection with a focus on
application-specific threat models and risk-assessment.
- Abstract(参考訳): ディファレンシャルプライバシ(dp)データシンセサイザーは機密情報のパブリックリリースをサポートし、プライバシの理論的保証を提供するが、実用的な設定では有用性の限定的な証拠を提供する。
ユーティリティは通常、記述統計、トレーニングされた分類器の精度、クエリのワークロードに対するパフォーマンスなど、代表的なプロキシタスクのエラーとして測定される。
これらの結果が実践者の経験に一般化する能力は、アメリカ合衆国国勢調査など多くの場面で疑問視されてきた。
本稿では,代用課題の代表性に関する仮定を回避し,著者が合成データを使用した場合の結論が変更される可能性,すなわち疫学的パーティ( epistemic parity)と呼ぶ条件を評価できる合成データの評価手法を提案する。
提案手法は,実データおよび公開データを用いたピアレビュー論文の実証的結論を再現し,dp合成データを用いて2回目の実験を行い,結果の比較を行った。
我々はICPSRリポジトリ内の公開データセットを解析する最近のピアレビュー論文のベンチマークで方法論をインスタンス化する。
定量的クレームを計算的にモデル化し,実験ワークフローを自動化し,可視化を再現し,結果を手作業で比較することで質的クレームをモデル化する。
次に,複数の最先端のメカニズムを用いてdp合成データセットを生成し,これらの結論が成立する確率を推定する。
その結果,最先端のdpシンセサイザーは,いくつかの論文で高い認識性を実現することができた。
しかし、いくつかの論文、特に特定の発見は、いずれのシンセサイザーでも再現が困難である。
我々は、より強力なユーティリティ保証を支持し、アプリケーション固有の脅威モデルとリスク評価に焦点を当てたプライバシ保護を提供する新しいタイプのメカニズムを提唱する。
関連論文リスト
- Revisiting BPR: A Replicability Study of a Common Recommender System Baseline [78.00363373925758]
我々は,BPRモデルの特徴を考察し,その性能への影響を示し,オープンソースのBPR実装について検討する。
分析の結果,これらの実装とオリジナルのBPR論文の矛盾が明らかとなり,特定の実装に対して最大50%の性能低下がみられた。
BPRモデルは、トップnのレコメンデーションタスクにおける最先端メソッドに近いパフォーマンスレベルを達成でき、特定のデータセット上でもパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2024-09-21T18:39:53Z) - A Multi-Faceted Evaluation Framework for Assessing Synthetic Data Generated by Large Language Models [3.672850225066168]
生成AIと大規模言語モデル(LLM)は、合成データを生成するための新たな道を開いた。
潜在的なメリットにもかかわらず、プライバシー漏洩に関する懸念が浮上している。
我々は,合成表データの忠実さ,有用性,およびプライバシー保護を評価するために設計されたオープンソースの評価フレームワークであるSynEvalを紹介する。
論文 参考訳(メタデータ) (2024-04-20T08:08:28Z) - Towards Biologically Plausible and Private Gene Expression Data
Generation [47.72947816788821]
差分プライバシー(DP)で訓練された生成モデルは、下流アプリケーションのための合成データの作成において、ますます顕著になりつつある。
しかし、既存の文献は主に基本的なベンチマークデータセットに焦点を当てており、基本的なメトリクスと比較的単純なデータ分布にのみ有望な結果を報告する傾向にある。
本研究では,DP生成モデルが自然応用シナリオにおいてどのように機能するかを系統的に分析し,実世界の遺伝子発現データに焦点をあてる。
論文 参考訳(メタデータ) (2024-02-07T14:39:11Z) - Statistical properties and privacy guarantees of an original
distance-based fully synthetic data generation method [0.0]
この研究は、多段階のフレームワークを用いて、公開リリース可能な合成データを生成する技術的実現可能性を示す。
新たな多段階合成データ生成フレームワークを用いて生成したデータの質を評価することで,Open-CESPイニシアチブの技術的,概念的健全性を実証した。
論文 参考訳(メタデータ) (2023-10-10T12:29:57Z) - SoK: Privacy-Preserving Data Synthesis [72.92263073534899]
本稿では,プライバシ保護データ合成(PPDS)に注目し,その分野の総合的な概要,分析,議論を行う。
PPDSでは,統計的手法と深層学習(DL)に基づく手法の2つの顕著な研究を統一するマスターレシピを作成した。
論文 参考訳(メタデータ) (2023-07-05T08:29:31Z) - Perturbation-Assisted Sample Synthesis: A Novel Approach for Uncertainty
Quantification [3.175239447683357]
本稿では、摂動支援サンプル合成(PASS)法により生成された合成データを利用した新しい摂動支援推論(PAI)フレームワークを提案する。
このフレームワークは、複雑なデータシナリオ、特に非構造化データの不確実性定量化に焦点を当てている。
我々は、画像合成、感情語分析、マルチモーダル推論、予測区間の構築など、様々な分野に適用することで、複雑なデータ駆動タスクにおける不確実性定量化を推し進める上で、PAIの有効性を実証する。
論文 参考訳(メタデータ) (2023-05-30T01:01:36Z) - Revisiting the Evaluation of Image Synthesis with GANs [55.72247435112475]
本研究では, 合成性能の評価に関する実証的研究を行い, 生成モデルの代表としてGAN(Generative Adversarial Network)を用いた。
特に、表現空間におけるデータポイントの表現方法、選択したサンプルを用いた公平距離の計算方法、各集合から使用可能なインスタンス数など、さまざまな要素の詳細な分析を行う。
論文 参考訳(メタデータ) (2023-04-04T17:54:32Z) - Investigating Bias with a Synthetic Data Generator: Empirical Evidence
and Philosophical Interpretation [66.64736150040093]
機械学習の応用は、私たちの社会でますます広まりつつある。
リスクは、データに埋め込まれたバイアスを体系的に広めることである。
本稿では,特定の種類のバイアスとその組み合わせで合成データを生成するフレームワークを導入することにより,バイアスを分析することを提案する。
論文 参考訳(メタデータ) (2022-09-13T11:18:50Z) - CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。
このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。
提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文 参考訳(メタデータ) (2022-03-03T05:58:49Z) - Bias Mitigated Learning from Differentially Private Synthetic Data: A
Cautionary Tale [13.881022208028751]
バイアスは、合成データ分布が実データ分布の不整合推定であるため、すべての解析に影響を与える可能性がある。
民営化確率比を用いた複数のバイアス緩和戦略を提案する。
バイアス緩和は、合成データの一般的な応用に、シンプルで効果的なプライバシー準拠の強化をもたらすことを示す。
論文 参考訳(メタデータ) (2021-08-24T19:56:44Z) - An Analysis of the Deployment of Models Trained on Private Tabular
Synthetic Data: Unexpected Surprises [4.129847064263057]
異なるプライベート(DP)合成データセットは、機械学習モデルをトレーニングするための強力なアプローチである。
差分プライベートな合成データ生成が分類に与える影響について検討する。
論文 参考訳(メタデータ) (2021-06-15T21:00:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。