論文の概要: Membership Inference Attacks against Synthetic Data through Overfitting
Detection
- arxiv url: http://arxiv.org/abs/2302.12580v1
- Date: Fri, 24 Feb 2023 11:27:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-27 13:45:33.067112
- Title: Membership Inference Attacks against Synthetic Data through Overfitting
Detection
- Title(参考訳): オーバーフィッティング検出による合成データに対する会員推測攻撃
- Authors: Boris van Breugel, Hao Sun, Zhaozhi Qian, Mihaela van der Schaar
- Abstract要約: 我々は、攻撃者が基礎となるデータ分布についてある程度の知識を持っていると仮定する現実的なMIA設定について論じる。
生成モデルの局所的なオーバーフィッティングをターゲットとして,メンバシップを推論することを目的とした密度ベースMIAモデルであるDOMIASを提案する。
- 参考スコア(独自算出の注目度): 84.02632160692995
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data is the foundation of most science. Unfortunately, sharing data can be
obstructed by the risk of violating data privacy, impeding research in fields
like healthcare. Synthetic data is a potential solution. It aims to generate
data that has the same distribution as the original data, but that does not
disclose information about individuals. Membership Inference Attacks (MIAs) are
a common privacy attack, in which the attacker attempts to determine whether a
particular real sample was used for training of the model. Previous works that
propose MIAs against generative models either display low performance -- giving
the false impression that data is highly private -- or need to assume access to
internal generative model parameters -- a relatively low-risk scenario, as the
data publisher often only releases synthetic data, not the model. In this work
we argue for a realistic MIA setting that assumes the attacker has some
knowledge of the underlying data distribution. We propose DOMIAS, a
density-based MIA model that aims to infer membership by targeting local
overfitting of the generative model. Experimentally we show that DOMIAS is
significantly more successful at MIA than previous work, especially at
attacking uncommon samples. The latter is disconcerting since these samples may
correspond to underrepresented groups. We also demonstrate how DOMIAS' MIA
performance score provides an interpretable metric for privacy, giving data
publishers a new tool for achieving the desired privacy-utility trade-off in
their synthetic data.
- Abstract(参考訳): データはほとんどの科学の基礎である。
残念ながら、データの共有はデータのプライバシーを侵害するリスクによって妨げられ、医療などの分野の研究を妨げる。
合成データは潜在的な解決策である。
オリジナルのデータと同じ分布を持つデータを生成することを目的としているが、個人に関する情報は公開していない。
メンバーシップ推論攻撃(mias)は、特定の実サンプルがモデルのトレーニングに使用されたかどうかを攻撃者が判断しようとする、共通のプライバシー攻撃である。
データパブリッシャは、モデルではなく、しばしば合成データのみをリリースするため、データ生成モデルに対するMIAの提案には、パフォーマンスの低い -- データが非常にプライベートであるという誤った印象を与える -- あるいは、内部生成モデルパラメータへのアクセスを仮定する必要がある -- 比較的リスクの低いシナリオである。
本研究では、攻撃者が基礎となるデータ分布についてある程度の知識を持っていると仮定する現実的なMIA設定について論じる。
そこで我々は,分布モデルの局所的過剰フィットを目標として,メンバーシップを推定する密度ベースのmiaモデルであるdomiasを提案する。
実験的に, DOMIASは, 従来よりもMIAにおいて, 特に異常サンプルに対する攻撃において, 顕著に成功を収めていることを示す。
後者は、これらのサンプルが表現不足の群に対応する可能性があるため、不満である。
また,domiasのmiaパフォーマンススコアが,プライバシに関する解釈可能な指標を提供し,データパブリッシャが望むプライバシ利用のトレードオフを達成するための新たなツールを提供することを実証した。
関連論文リスト
- The Inadequacy of Similarity-based Privacy Metrics: Privacy Attacks against "Truly Anonymous" Synthetic Datasets [12.730435519914415]
実世界の合成データデプロイメントで使用されるプライバシメトリクスを調べ、その信頼性をいくつかの点で実証する。
ReconSynは、メトリクスによってプライベートと見なされるが、個々のレコードに固有の情報をリークする複数の合成データセットを生成するリコンストラクション攻撃である。
ReconSynは列車データから78-100%のアウトレーヤを復元し、ブラックボックスアクセスのみを1つの適合した生成モデルとプライバシメトリクスに含める。
論文 参考訳(メタデータ) (2023-12-08T15:42:28Z) - Preserving Privacy in GANs Against Membership Inference Attack [30.668589815716775]
GAN(Generative Adversarial Networks)は、合成データの生成に広く利用されている。
最近の研究では、GANがトレーニングデータサンプルに関する情報を漏洩する可能性があることが示されている。
これにより、GANはメンバーシップ推論アタック(MIA)に脆弱になる
論文 参考訳(メタデータ) (2023-11-06T15:04:48Z) - Assessing Privacy Risks in Language Models: A Case Study on
Summarization Tasks [65.21536453075275]
我々は要約作業に焦点をあて、会員推測(MI)攻撃について調査する。
テキストの類似性や文書修正に対するモデルの抵抗をMI信号として活用する。
我々は、MI攻撃から保護するための要約モデルの訓練と、プライバシとユーティリティの本質的にのトレードオフについて議論する。
論文 参考訳(メタデータ) (2023-10-20T05:44:39Z) - Beyond Labeling Oracles: What does it mean to steal ML models? [52.63413852460003]
モデル抽出攻撃は、クエリアクセスのみで訓練されたモデルを盗むように設計されている。
モデル抽出攻撃の成功に影響を及ぼす要因について検討する。
我々は,ME攻撃の敵の目標を再定義するようコミュニティに促した。
論文 参考訳(メタデータ) (2023-10-03T11:10:21Z) - Achilles' Heels: Vulnerable Record Identification in Synthetic Data
Publishing [9.061271587514215]
合成データパブリッシングのための原則付き脆弱なレコード識別手法を提案する。
データセットやジェネレータ間で,従来のアドホック手法よりも優れていることを示す。
合成データジェネレータを差分的にプライベートにすると、脆弱性のあるレコードを正確に識別できることが示される。
論文 参考訳(メタデータ) (2023-06-17T09:42:46Z) - An Empirical Study on the Membership Inference Attack against Tabular
Data Synthesis Models [12.878704876264317]
タブラルデータ合成モデルは、データユーティリティとプライバシのトレードオフが可能なため、人気がある。
近年の研究では、画像データの生成モデルは、メンバーシップ推論攻撃の影響を受けやすいことが示されている。
DP-SGD と DP-GAN の2つの偏微分プライベートなディープラーニング学習アルゴリズムが,攻撃からモデルを守ることができるかを評価する実験を行った。
論文 参考訳(メタデータ) (2022-08-17T07:09:08Z) - Representative & Fair Synthetic Data [68.8204255655161]
公平性制約を自己監督学習プロセスに組み込むためのフレームワークを提示する。
私たちはuci成人国勢調査データセットの代表者および公正版を作成します。
我々は、代表的かつ公正な合成データを将来有望なビルディングブロックとみなし、歴史的世界ではなく、私たちが生きようとしている世界についてアルゴリズムを教える。
論文 参考訳(メタデータ) (2021-04-07T09:19:46Z) - Knowledge-Enriched Distributional Model Inversion Attacks [49.43828150561947]
モデルインバージョン(MI)攻撃は、モデルパラメータからトレーニングデータを再構成することを目的としている。
本稿では,パブリックデータからプライベートモデルに対する攻撃を行うのに役立つ知識を抽出する,新しい反転型GANを提案する。
実験の結果,これらの手法を組み合わせることで,最先端MI攻撃の成功率を150%向上させることができることがわかった。
論文 参考訳(メタデータ) (2020-10-08T16:20:48Z) - How Does Data Augmentation Affect Privacy in Machine Learning? [94.52721115660626]
拡張データの情報を活用するために,新たなMI攻撃を提案する。
モデルが拡張データで訓練された場合、最適な会員推定値を確立する。
論文 参考訳(メタデータ) (2020-07-21T02:21:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。