論文の概要: On the Inadequacy of Similarity-based Privacy Metrics: Reconstruction
Attacks against "Truly Anonymous Synthetic Data''
- arxiv url: http://arxiv.org/abs/2312.05114v1
- Date: Fri, 8 Dec 2023 15:42:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-11 14:49:15.158284
- Title: On the Inadequacy of Similarity-based Privacy Metrics: Reconstruction
Attacks against "Truly Anonymous Synthetic Data''
- Title(参考訳): 類似性に基づくプライバシー基準の不適切性について:「真に匿名な合成データ」に対する復元攻撃
- Authors: Georgi Ganev and Emiliano De Cristofaro
- Abstract要約: 私たちはこの分野の有力企業が提供するプライバシー指標をレビューし、実証的な評価を通じて、プライバシーを推論する上でいくつかの重大な欠陥を指摘しました。
我々は,低密度の列車記録(または降車率)の少なくとも78%をブラックボックスで回復し,単一の生成モデルとプライバシメトリクスにのみアクセスする再構成攻撃ReconSynを提案する。
- 参考スコア(独自算出の注目度): 15.0393231456773
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training generative models to produce synthetic data is meant to provide a
privacy-friendly approach to data release. However, we get robust guarantees
only when models are trained to satisfy Differential Privacy (DP). Alas, this
is not the standard in industry as many companies use ad-hoc strategies to
empirically evaluate privacy based on the statistical similarity between
synthetic and real data. In this paper, we review the privacy metrics offered
by leading companies in this space and shed light on a few critical flaws in
reasoning about privacy entirely via empirical evaluations. We analyze the
undesirable properties of the most popular metrics and filters and demonstrate
their unreliability and inconsistency through counter-examples. We then present
a reconstruction attack, ReconSyn, which successfully recovers (i.e., leaks all
attributes of) at least 78% of the low-density train records (or outliers) with
only black-box access to a single fitted generative model and the privacy
metrics. Finally, we show that applying DP only to the model or using
low-utility generators does not mitigate ReconSyn as the privacy leakage
predominantly comes from the metrics. Overall, our work serves as a warning to
practitioners not to deviate from established privacy-preserving mechanisms.
- Abstract(参考訳): 合成データを生成するための生成モデルのトレーニングは、データリリースに対するプライバシフレンドリなアプローチを提供することを目的としている。
しかし、モデルが微分プライバシー(DP)を満たすように訓練された場合にのみ、堅牢な保証が得られます。
残念なことに、多くの企業が、合成データと実際のデータの統計的類似性に基づいて、プライバシーを実証的に評価するためにアドホック戦略を使用しているため、これは業界標準ではない。
本稿では,この分野の主要企業が提供するプライバシー指標をレビューし,経験的評価を通じて,プライバシーに関する推論におけるいくつかの重大な欠陥を明らかにした。
我々は,最も人気のあるメトリクスとフィルタの望ましくない特性を分析し,その信頼性と非一貫性を反例を通じて示す。
次に、リコンストラクションアタックであるReconSynを紹介し、低密度の列車記録(または外れ値)の少なくとも78%を、単一の適合した生成モデルとプライバシメトリクスへのブラックボックスアクセスで回復することに成功した。
最後に,プライバシリークが主にメトリクスによるものであるため,モデルのみに適用したり,低利用のジェネレータを使用したりしてもreconsynを緩和しないことを示す。
全体として、当社の作業は、確立したプライバシー保護メカニズムから逸脱しないように、実践者に警告します。
関連論文リスト
- Defining 'Good': Evaluation Framework for Synthetic Smart Meter Data [14.779917834583577]
スマートメーターデータセットのプライバシーリスクを評価するには,標準プライバシ攻撃手法が不十分であることを示す。
本稿では,トレーニングデータを不確実なアウトレーラで注入し,それらのアウトレーラに直接プライバシ攻撃を発生させる手法を提案する。
論文 参考訳(メタデータ) (2024-07-16T14:41:27Z) - Achilles' Heels: Vulnerable Record Identification in Synthetic Data
Publishing [9.061271587514215]
合成データパブリッシングのための原則付き脆弱なレコード識別手法を提案する。
データセットやジェネレータ間で,従来のアドホック手法よりも優れていることを示す。
合成データジェネレータを差分的にプライベートにすると、脆弱性のあるレコードを正確に識別できることが示される。
論文 参考訳(メタデータ) (2023-06-17T09:42:46Z) - Auditing and Generating Synthetic Data with Controllable Trust Trade-offs [54.262044436203965]
合成データセットとAIモデルを包括的に評価する総合監査フレームワークを導入する。
バイアスや差別の防止、ソースデータへの忠実性の確保、実用性、堅牢性、プライバシ保護などに焦点を当てている。
多様なユースケースにまたがる様々な生成モデルを監査することにより,フレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-21T09:03:18Z) - Membership Inference Attacks against Synthetic Data through Overfitting
Detection [84.02632160692995]
我々は、攻撃者が基礎となるデータ分布についてある程度の知識を持っていると仮定する現実的なMIA設定について論じる。
生成モデルの局所的なオーバーフィッティングをターゲットとして,メンバシップを推論することを目的とした密度ベースMIAモデルであるDOMIASを提案する。
論文 参考訳(メタデータ) (2023-02-24T11:27:39Z) - Synthetic Text Generation with Differential Privacy: A Simple and
Practical Recipe [32.63295550058343]
テキスト領域におけるシンプルで実用的なレシピは、強力なプライバシー保護を備えた有用な合成テキストを生成するのに有効であることを示す。
提案手法は,非私的テキストと実用性で競合する合成テキストを生成する。
論文 参考訳(メタデータ) (2022-10-25T21:21:17Z) - No Free Lunch in "Privacy for Free: How does Dataset Condensation Help
Privacy" [75.98836424725437]
データプライバシを保護するために設計された新しい手法は、慎重に精査する必要がある。
プライバシ保護の失敗は検出し難いが,プライバシ保護法を実装したシステムが攻撃された場合,破滅的な結果につながる可能性がある。
論文 参考訳(メタデータ) (2022-09-29T17:50:23Z) - Smooth Anonymity for Sparse Graphs [69.1048938123063]
しかし、スパースデータセットを共有するという点では、差分プライバシーがプライバシのゴールドスタンダードとして浮上している。
本研究では、スムーズな$k$匿名性(スムーズな$k$匿名性)と、スムーズな$k$匿名性(スムーズな$k$匿名性)を提供する単純な大規模アルゴリズムを設計する。
論文 参考訳(メタデータ) (2022-07-13T17:09:25Z) - Just Fine-tune Twice: Selective Differential Privacy for Large Language
Models [69.66654761324702]
本稿では,大規模なトランスフォーマーベース言語モデルのためのSDPを実現するための,シンプルで効果的なジャストファイントゥンツースプライバシ機構を提案する。
実験により, カナリア挿入攻撃に対して頑健でありながら, 高い性能が得られた。
論文 参考訳(メタデータ) (2022-04-15T22:36:55Z) - Defending against Reconstruction Attacks with R\'enyi Differential
Privacy [72.1188520352079]
レコンストラクション攻撃により、敵は訓練されたモデルのみにアクセスすることで、トレーニングセットのデータサンプルを再生することができる。
差別化プライバシはこのような攻撃に対する既知の解決策であるが、比較的大きなプライバシ予算で使用されることが多い。
また、同機構により、従来の文献よりも優れた復元攻撃に対するプライバシー保証を導出できることを示す。
論文 参考訳(メタデータ) (2022-02-15T18:09:30Z) - PEARL: Data Synthesis via Private Embeddings and Adversarial
Reconstruction Learning [1.8692254863855962]
本稿では, 深層生成モデルを用いたデータ・フレームワークを, 差分的にプライベートな方法で提案する。
当社のフレームワークでは、センシティブなデータは、厳格なプライバシ保証をワンショットで行うことで衛生化されています。
提案手法は理論的に性能が保証され,複数のデータセットに対する経験的評価により,提案手法が適切なプライバシーレベルで他の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2021-06-08T18:00:01Z) - Causally Constrained Data Synthesis for Private Data Release [36.80484740314504]
原データの特定の統計特性を反映した合成データを使用することで、原データのプライバシーが保護される。
以前の作業では、正式なプライバシ保証を提供するために、差分プライベートなデータリリースメカニズムを使用していました。
トレーニングプロセスに因果情報を導入し、上記のトレードオフを好意的に修正することを提案する。
論文 参考訳(メタデータ) (2021-05-27T13:46:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。