論文の概要: The DCR Delusion: Measuring the Privacy Risk of Synthetic Data
- arxiv url: http://arxiv.org/abs/2505.01524v1
- Date: Fri, 02 May 2025 18:21:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.1604
- Title: The DCR Delusion: Measuring the Privacy Risk of Synthetic Data
- Title(参考訳): DCRの妄想: 合成データのプライバシーリスクの測定
- Authors: Zexi Yao, Nataša Krčo, Georgi Ganev, Yves-Alexandre de Montjoye,
- Abstract要約: 会員推論攻撃(MIA)は、合成データセットのプライバシーを実証的に評価するための金の標準として広く考えられている。
これらの指標は、トレーニングデータと生成された合成データとの類似度を測定することで、プライバシを推定する。
本研究では,DCRや他の距離ベースメトリクスは計算コストが低いが,プライバシリークの特定に失敗していることを示す。
- 参考スコア(独自算出の注目度): 8.673204690445955
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Synthetic data has become an increasingly popular way to share data without revealing sensitive information. Though Membership Inference Attacks (MIAs) are widely considered the gold standard for empirically assessing the privacy of a synthetic dataset, practitioners and researchers often rely on simpler proxy metrics such as Distance to Closest Record (DCR). These metrics estimate privacy by measuring the similarity between the training data and generated synthetic data. This similarity is also compared against that between the training data and a disjoint holdout set of real records to construct a binary privacy test. If the synthetic data is not more similar to the training data than the holdout set is, it passes the test and is considered private. In this work we show that, while computationally inexpensive, DCR and other distance-based metrics fail to identify privacy leakage. Across multiple datasets and both classical models such as Baynet and CTGAN and more recent diffusion models, we show that datasets deemed private by proxy metrics are highly vulnerable to MIAs. We similarly find both the binary privacy test and the continuous measure based on these metrics to be uninformative of actual membership inference risk. We further show that these failures are consistent across different metric hyperparameter settings and record selection methods. Finally, we argue DCR and other distance-based metrics to be flawed by design and show a example of a simple leakage they miss in practice. With this work, we hope to motivate practitioners to move away from proxy metrics to MIAs as the rigorous, comprehensive standard of evaluating privacy of synthetic data, in particular to make claims of datasets being legally anonymous.
- Abstract(参考訳): 合成データは、機密情報を公開せずにデータを共有できる方法として、ますます人気が高まっている。
メンバーシップ推論攻撃(MIA)は、合成データセットのプライバシを実証的に評価するための金の標準として広く考えられているが、実践者や研究者は、DCR(Distance to Closest Record)のような単純なプロキシメトリクスに依存していることが多い。
これらの指標は、トレーニングデータと生成された合成データとの類似度を測定することで、プライバシを推定する。
この類似性は、トレーニングデータと、バイナリプライバシテストを構築するために実際のレコードの分離されたホールドアウトセットとの類似性も比較される。
合成データがホールドアウトセットよりもトレーニングデータに似ていない場合、テストに合格し、プライベートと見なされる。
本研究では,DCRや他の距離ベースメトリクスは計算コストが低いが,プライバシリークの特定に失敗していることを示す。
複数のデータセットとBaynetやCTGANといった古典的モデル、そして最近の拡散モデルの両方において、プロキシメトリクスによってプライベートと見なされるデータセットは、MIAに対して非常に脆弱であることを示す。
同様に、これらの指標に基づくバイナリプライバシテストと継続的な測定の両方が、実際のメンバシップ推論リスクを非表示にしている。
さらに、これらの障害は、異なるメトリックハイパーパラメータ設定とレコード選択方法で一致していることを示す。
最後に、DCRや他の距離ベースのメトリクスは設計によって欠陥があると主張し、実際に見逃している単純なリークの例を示す。
この取り組みにより、専門家がプロキシメトリクスからMIAへ移行し、特に法的に匿名であるという主張をするために、合成データのプライバシを評価する厳格で包括的な標準として、モチベーションを高めたいと思っています。
関連論文リスト
- Geometry-Aware Instrumental Variable Regression [56.16884466478886]
本稿では,データ導出情報によるデータ多様体の幾何を考慮した移動型IV推定器を提案する。
本手法のプラグイン・アンド・プレイ実装は,標準設定で関連する推定器と同等に動作する。
論文 参考訳(メタデータ) (2024-05-19T17:49:33Z) - The Inadequacy of Similarity-based Privacy Metrics: Privacy Attacks against "Truly Anonymous" Synthetic Datasets [12.730435519914415]
実世界の合成データデプロイメントで使用されるプライバシメトリクスを調べ、その信頼性をいくつかの点で実証する。
ReconSynは、メトリクスによってプライベートと見なされるが、個々のレコードに固有の情報をリークする複数の合成データセットを生成するリコンストラクション攻撃である。
ReconSynは列車データから78-100%のアウトレーヤを復元し、ブラックボックスアクセスのみを1つの適合した生成モデルとプライバシメトリクスに含める。
論文 参考訳(メタデータ) (2023-12-08T15:42:28Z) - Achilles' Heels: Vulnerable Record Identification in Synthetic Data
Publishing [9.061271587514215]
合成データパブリッシングのための原則付き脆弱なレコード識別手法を提案する。
データセットやジェネレータ間で,従来のアドホック手法よりも優れていることを示す。
合成データジェネレータを差分的にプライベートにすると、脆弱性のあるレコードを正確に識別できることが示される。
論文 参考訳(メタデータ) (2023-06-17T09:42:46Z) - Auditing and Generating Synthetic Data with Controllable Trust Trade-offs [54.262044436203965]
合成データセットとAIモデルを包括的に評価する総合監査フレームワークを導入する。
バイアスや差別の防止、ソースデータへの忠実性の確保、実用性、堅牢性、プライバシ保護などに焦点を当てている。
多様なユースケースにまたがる様々な生成モデルを監査することにより,フレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-21T09:03:18Z) - Membership Inference Attacks against Synthetic Data through Overfitting
Detection [84.02632160692995]
我々は、攻撃者が基礎となるデータ分布についてある程度の知識を持っていると仮定する現実的なMIA設定について論じる。
生成モデルの局所的なオーバーフィッティングをターゲットとして,メンバシップを推論することを目的とした密度ベースMIAモデルであるDOMIASを提案する。
論文 参考訳(メタデータ) (2023-02-24T11:27:39Z) - No Free Lunch in "Privacy for Free: How does Dataset Condensation Help
Privacy" [75.98836424725437]
データプライバシを保護するために設計された新しい手法は、慎重に精査する必要がある。
プライバシ保護の失敗は検出し難いが,プライバシ保護法を実装したシステムが攻撃された場合,破滅的な結果につながる可能性がある。
論文 参考訳(メタデータ) (2022-09-29T17:50:23Z) - Representative & Fair Synthetic Data [68.8204255655161]
公平性制約を自己監督学習プロセスに組み込むためのフレームワークを提示する。
私たちはuci成人国勢調査データセットの代表者および公正版を作成します。
我々は、代表的かつ公正な合成データを将来有望なビルディングブロックとみなし、歴史的世界ではなく、私たちが生きようとしている世界についてアルゴリズムを教える。
論文 参考訳(メタデータ) (2021-04-07T09:19:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。