論文の概要: A Linear Reconstruction Approach for Attribute Inference Attacks against
Synthetic Data
- arxiv url: http://arxiv.org/abs/2301.10053v1
- Date: Tue, 24 Jan 2023 14:56:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-25 13:26:20.196739
- Title: A Linear Reconstruction Approach for Attribute Inference Attacks against
Synthetic Data
- Title(参考訳): 合成データに対する属性推論攻撃に対する線形再構成手法
- Authors: Meenatchi Sundaram Muthu Selva Annamalai, Andrea Gadotti and Luc
Rocher
- Abstract要約: 各種合成データ生成アルゴリズムにおいて,プライバシ保護と統計ユーティリティ保護のトレードオフを評価する。
属性推論攻撃は、ランダムに選択されたレコードでも非常に効果的であることを示す。
全体として、我々の研究結果は、合成データは他の匿名化技術と同様に、プライバシーとユーティリティのトレードオフの対象であることが証明されている。
- 参考スコア(独自算出の注目度): 0.9023847175654603
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Personal data collected at scale from surveys or digital devices offers
important insights for statistical analysis and scientific research. Safely
sharing such data while protecting privacy is however challenging.
Anonymization allows data to be shared while minimizing privacy risks, but
traditional anonymization techniques have been repeatedly shown to provide
limited protection against re-identification attacks in practice. Among modern
anonymization techniques, synthetic data generation (SDG) has emerged as a
potential solution to find a good tradeoff between privacy and statistical
utility. Synthetic data is typically generated using algorithms that learn the
statistical distribution of the original records, to then generate "artificial"
records that are structurally and statistically similar to the original ones.
Yet, the fact that synthetic records are "artificial" does not, per se,
guarantee that privacy is protected. In this work, we systematically evaluate
the tradeoffs between protecting privacy and preserving statistical utility for
a wide range of synthetic data generation algorithms. Modeling privacy as
protection against attribute inference attacks (AIAs), we extend and adapt
linear reconstruction attacks, which have not been previously studied in the
context of synthetic data. While prior work suggests that AIAs may be effective
only on few outlier records, we show they can be very effective even on
randomly selected records. We evaluate attacks on synthetic datasets ranging
from 10^3 to 10^6 records, showing that even for the same generative model, the
attack effectiveness can drastically increase when a larger number of synthetic
records is generated. Overall, our findings prove that synthetic data is
subject to privacy-utility tradeoffs just like other anonymization techniques:
when good utility is preserved, attribute inference can be a risk for many data
subjects.
- Abstract(参考訳): 調査やデジタルデバイスから大規模に収集された個人データは、統計分析や科学研究に重要な洞察を提供する。
しかし、プライバシーを守りながらデータを安全に共有することは難しい。
匿名化はプライバシーリスクを最小限にしながらデータを共有可能にするが、従来の匿名化技術は、実際には再識別攻撃に対する限定的な保護を提供するように繰り返し示されてきた。
現代の匿名化技術の中で、プライバシーと統計的ユーティリティの良好なトレードオフを見つけるための潜在的な解決策として、合成データ生成(SDG)が出現している。
合成データは通常、元のレコードの統計分布を学習するアルゴリズムを使用して生成され、元のレコードと構造的におよび統計的に類似した「人工的」レコードを生成する。
しかし、合成記録が「人工的」であるという事実は、プライバシーが保護されていることを保証しない。
本研究では,多種多様な合成データ生成アルゴリズムにおいて,プライバシ保護と統計ユーティリティ保護のトレードオフを体系的に評価する。
属性推論攻撃 (AIA) に対する保護としてプライバシをモデル化し, 従来研究されていない線形再構成攻撃を拡張し適応する。
先行研究では、AIAは少数の外れ値にのみ有効である可能性が示唆されているが、ランダムに選択されたレコードでも非常に有効であることが示されている。
また, 10^3 から 10^6 までの合成データセットに対する攻撃を評価し, 同じ生成モデルであっても, より多くの合成レコードが生成されると, 攻撃効果が劇的に増大することを示した。
全体として、我々の研究結果は、合成データは他の匿名化手法と同様にプライバシーとユーティリティのトレードオフの対象となることを証明している。
関連論文リスト
- Pseudo-Probability Unlearning: Towards Efficient and Privacy-Preserving Machine Unlearning [59.29849532966454]
本稿では,PseudoProbability Unlearning (PPU)を提案する。
提案手法は,最先端の手法に比べて20%以上の誤りを忘れる改善を実現している。
論文 参考訳(メタデータ) (2024-11-04T21:27:06Z) - The Inadequacy of Similarity-based Privacy Metrics: Privacy Attacks against "Truly Anonymous" Synthetic Datasets [12.730435519914415]
実世界の合成データデプロイメントで使用されるプライバシメトリクスを調べ、その信頼性をいくつかの点で実証する。
ReconSynは、メトリクスによってプライベートと見なされるが、個々のレコードに固有の情報をリークする複数の合成データセットを生成するリコンストラクション攻撃である。
ReconSynは列車データから78-100%のアウトレーヤを復元し、ブラックボックスアクセスのみを1つの適合した生成モデルとプライバシメトリクスに含める。
論文 参考訳(メタデータ) (2023-12-08T15:42:28Z) - Approximate, Adapt, Anonymize (3A): a Framework for Privacy Preserving
Training Data Release for Machine Learning [3.29354893777827]
データリリースフレームワークである3A(Approximate, Adapt, Anonymize)を導入し、機械学習のデータユーティリティを最大化する。
本稿では,実データセットと民生データセットでトレーニングしたモデルの性能指標の相違が最小限に抑えられることを示す実験的な証拠を示す。
論文 参考訳(メタデータ) (2023-07-04T18:37:11Z) - Achilles' Heels: Vulnerable Record Identification in Synthetic Data
Publishing [9.061271587514215]
合成データパブリッシングのための原則付き脆弱なレコード識別手法を提案する。
データセットやジェネレータ間で,従来のアドホック手法よりも優れていることを示す。
合成データジェネレータを差分的にプライベートにすると、脆弱性のあるレコードを正確に識別できることが示される。
論文 参考訳(メタデータ) (2023-06-17T09:42:46Z) - Membership Inference Attacks against Synthetic Data through Overfitting
Detection [84.02632160692995]
我々は、攻撃者が基礎となるデータ分布についてある程度の知識を持っていると仮定する現実的なMIA設定について論じる。
生成モデルの局所的なオーバーフィッティングをターゲットとして,メンバシップを推論することを目的とした密度ベースMIAモデルであるDOMIASを提案する。
論文 参考訳(メタデータ) (2023-02-24T11:27:39Z) - No Free Lunch in "Privacy for Free: How does Dataset Condensation Help
Privacy" [75.98836424725437]
データプライバシを保護するために設計された新しい手法は、慎重に精査する必要がある。
プライバシ保護の失敗は検出し難いが,プライバシ保護法を実装したシステムが攻撃された場合,破滅的な結果につながる可能性がある。
論文 参考訳(メタデータ) (2022-09-29T17:50:23Z) - Model Inversion Attacks against Graph Neural Networks [65.35955643325038]
グラフニューラルネットワーク(GNN)に対するモデル反転攻撃について検討する。
本稿では,プライベートトレーニンググラフデータを推測するためにGraphMIを提案する。
実験の結果,このような防御効果は十分ではないことが示され,プライバシー攻撃に対するより高度な防御が求められている。
論文 参考訳(メタデータ) (2022-09-16T09:13:43Z) - Autoregressive Perturbations for Data Poisoning [54.205200221427994]
ソーシャルメディアからのデータスクレイピングは、不正なデータの使用に関する懸念が高まっている。
データ中毒攻撃は、スクラップ対策として提案されている。
より広範なデータセットにアクセスせずに有毒なデータを生成できる自動回帰(AR)中毒を導入する。
論文 参考訳(メタデータ) (2022-06-08T06:24:51Z) - Curse or Redemption? How Data Heterogeneity Affects the Robustness of
Federated Learning [51.15273664903583]
データの不均一性は、フェデレートラーニングにおける重要な特徴の1つとして認識されているが、しばしば敵対的攻撃に対する堅牢性のレンズで見過ごされる。
本稿では, 複合学習におけるバックドア攻撃の影響を, 総合的な実験を通じて評価し, 理解することを目的とした。
論文 参考訳(メタデータ) (2021-02-01T06:06:21Z) - privGAN: Protecting GANs from membership inference attacks at low cost [5.735035463793008]
Generative Adversarial Networks (GAN)は、合成画像のリリースを、オリジナルのデータセットを公開せずにデータを共有するための実行可能なアプローチにした。
近年の研究では、GANモデルとその合成データを用いて、相手によるトレーニングセットメンバーシップを推測できることが示されている。
ここでは、ジェネレータが識別器を騙すだけでなく、メンバーシップ推論攻撃を防御するために訓練される新しいGANアーキテクチャ(privGAN)を開発する。
論文 参考訳(メタデータ) (2019-12-31T20:47:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。