論文の概要: Achilles' Heels: Vulnerable Record Identification in Synthetic Data
Publishing
- arxiv url: http://arxiv.org/abs/2306.10308v2
- Date: Thu, 21 Sep 2023 09:17:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-22 19:16:37.923452
- Title: Achilles' Heels: Vulnerable Record Identification in Synthetic Data
Publishing
- Title(参考訳): Achilles' Heels: 合成データ公開におけるレコード識別の脆弱性
- Authors: Matthieu Meeus, Florent Gu\'epin, Ana-Maria Cretu and Yves-Alexandre
de Montjoye
- Abstract要約: 合成データパブリッシングのための原則付き脆弱なレコード識別手法を提案する。
データセットやジェネレータ間で,従来のアドホック手法よりも優れていることを示す。
合成データジェネレータを差分的にプライベートにすると、脆弱性のあるレコードを正確に識別できることが示される。
- 参考スコア(独自算出の注目度): 9.061271587514215
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Synthetic data is seen as the most promising solution to share
individual-level data while preserving privacy. Shadow modeling-based
Membership Inference Attacks (MIAs) have become the standard approach to
evaluate the privacy risk of synthetic data. While very effective, they require
a large number of datasets to be created and models trained to evaluate the
risk posed by a single record. The privacy risk of a dataset is thus currently
evaluated by running MIAs on a handful of records selected using ad-hoc
methods. We here propose what is, to the best of our knowledge, the first
principled vulnerable record identification technique for synthetic data
publishing, leveraging the distance to a record's closest neighbors. We show
our method to strongly outperform previous ad-hoc methods across datasets and
generators. We also show evidence of our method to be robust to the choice of
MIA and to specific choice of parameters. Finally, we show it to accurately
identify vulnerable records when synthetic data generators are made
differentially private. The choice of vulnerable records is as important as
more accurate MIAs when evaluating the privacy of synthetic data releases,
including from a legal perspective. We here propose a simple yet highly
effective method to do so. We hope our method will enable practitioners to
better estimate the risk posed by synthetic data publishing and researchers to
fairly compare ever improving MIAs on synthetic data.
- Abstract(参考訳): 合成データは、プライバシを維持しながら個人レベルのデータを共有するための最も有望なソリューションと見なされている。
シャドーモデリングに基づくメンバーシップ推論攻撃(MIAs)は、合成データのプライバシーリスクを評価する標準的なアプローチとなっている。
非常に効果的だが、作成するには大量のデータセットと、単一のレコードによって生じるリスクを評価するためにトレーニングされたモデルが必要である。
したがって、データセットのプライバシーリスクは現在、アドホックメソッドを使用して選択された少数のレコード上でMIAを実行することで評価される。
ここでは、我々の知る限り、合成データパブリッシングのための第一原理的脆弱なレコード識別技術を提案し、記録に最も近い隣人への距離を活用している。
提案手法は,従来のアドホックメソッドを,データセットとジェネレータにまたがって強く上回ることを示す。
また,本手法がmiaの選択やパラメータの選択に堅牢であることを示す。
最後に,合成データ生成器を差分プライベートにする場合,脆弱なレコードを正確に識別することを示す。
脆弱なレコードの選択は、法的視点を含む合成データリリースのプライバシーを評価する際に、より正確なMIAと同じくらい重要である。
そこで本稿では,単純かつ高効率な手法を提案する。
提案手法により, 合成データ公開によるリスクを, 研究者がより正確に評価し, より優れたMIAを合成データ上で比較できることを期待する。
関連論文リスト
- Defining 'Good': Evaluation Framework for Synthetic Smart Meter Data [14.779917834583577]
スマートメーターデータセットのプライバシーリスクを評価するには,標準プライバシ攻撃手法が不十分であることを示す。
本稿では,トレーニングデータを不確実なアウトレーラで注入し,それらのアウトレーラに直接プライバシ攻撃を発生させる手法を提案する。
論文 参考訳(メタデータ) (2024-07-16T14:41:27Z) - Mitigating the Privacy Issues in Retrieval-Augmented Generation (RAG) via Pure Synthetic Data [51.41288763521186]
Retrieval-augmented Generation (RAG)は、外部知識ソースから取得した関連情報を統合することにより、言語モデルの出力を強化する。
RAGシステムは、プライベートデータを取得する際に深刻なプライバシーリスクに直面する可能性がある。
検索データに対するプライバシー保護の代替として,合成データを用いる方法を提案する。
論文 参考訳(メタデータ) (2024-06-20T22:53:09Z) - Benchmarking Private Population Data Release Mechanisms: Synthetic Data vs. TopDown [50.40020716418472]
本研究では、TopDownアルゴリズムとプライベート合成データ生成を比較し、クエリの複雑さによる精度への影響を判定する。
この結果から,TopDownアルゴリズムは,分散クエリに対して,評価したどの合成データ手法よりもはるかに優れたプライバシー-忠実トレードオフを実現することがわかった。
論文 参考訳(メタデータ) (2024-01-31T17:38:34Z) - On the Inadequacy of Similarity-based Privacy Metrics: Reconstruction
Attacks against "Truly Anonymous Synthetic Data'' [15.0393231456773]
私たちはこの分野の有力企業が提供するプライバシー指標をレビューし、実証的な評価を通じて、プライバシーを推論する上でいくつかの重大な欠陥を指摘しました。
我々は,低密度の列車記録(または降車率)の少なくとも78%をブラックボックスで回復し,単一の生成モデルとプライバシメトリクスにのみアクセスする再構成攻撃ReconSynを提案する。
論文 参考訳(メタデータ) (2023-12-08T15:42:28Z) - Partition-based differentially private synthetic data generation [0.5095097384893414]
プライバシ予算が限られていても、エラーを低減し、合成データの品質を向上させる分割ベースのアプローチを提案する。
提案手法を用いて生成した合成データは、品質と有用性の向上を示し、プライベートな合成データ共有に好適な選択である。
論文 参考訳(メタデータ) (2023-10-10T07:23:37Z) - SoK: Privacy-Preserving Data Synthesis [72.92263073534899]
本稿では,プライバシ保護データ合成(PPDS)に注目し,その分野の総合的な概要,分析,議論を行う。
PPDSでは,統計的手法と深層学習(DL)に基づく手法の2つの顕著な研究を統一するマスターレシピを作成した。
論文 参考訳(メタデータ) (2023-07-05T08:29:31Z) - Approximate, Adapt, Anonymize (3A): a Framework for Privacy Preserving
Training Data Release for Machine Learning [3.29354893777827]
データリリースフレームワークである3A(Approximate, Adapt, Anonymize)を導入し、機械学習のデータユーティリティを最大化する。
本稿では,実データセットと民生データセットでトレーニングしたモデルの性能指標の相違が最小限に抑えられることを示す実験的な証拠を示す。
論文 参考訳(メタデータ) (2023-07-04T18:37:11Z) - Membership Inference Attacks against Synthetic Data through Overfitting
Detection [84.02632160692995]
我々は、攻撃者が基礎となるデータ分布についてある程度の知識を持っていると仮定する現実的なMIA設定について論じる。
生成モデルの局所的なオーバーフィッティングをターゲットとして,メンバシップを推論することを目的とした密度ベースMIAモデルであるDOMIASを提案する。
論文 参考訳(メタデータ) (2023-02-24T11:27:39Z) - Private Set Generation with Discriminative Information [63.851085173614]
異なるプライベートなデータ生成は、データプライバシの課題に対する有望な解決策である。
既存のプライベートな生成モデルは、合成サンプルの有用性に苦慮している。
我々は,最先端アプローチのサンプルユーティリティを大幅に改善する,シンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2022-11-07T10:02:55Z) - No Free Lunch in "Privacy for Free: How does Dataset Condensation Help
Privacy" [75.98836424725437]
データプライバシを保護するために設計された新しい手法は、慎重に精査する必要がある。
プライバシ保護の失敗は検出し難いが,プライバシ保護法を実装したシステムが攻撃された場合,破滅的な結果につながる可能性がある。
論文 参考訳(メタデータ) (2022-09-29T17:50:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。