論文の概要: Privacy Vulnerabilities in Marginals-based Synthetic Data
- arxiv url: http://arxiv.org/abs/2410.05506v1
- Date: Mon, 7 Oct 2024 21:24:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 18:18:04.999863
- Title: Privacy Vulnerabilities in Marginals-based Synthetic Data
- Title(参考訳): マージナルスに基づく合成データのプライバシー脆弱性
- Authors: Steven Golob, Sikha Pentyala, Anuar Maratkhan, Martine De Cock,
- Abstract要約: 最強の合成データ生成アルゴリズムは, テクスチャマージの確率を保っていることを示す。
そこで本研究では,MAMA-MIAという新たなメンバシップ推論攻撃を提案し,これを3つのセミナルDPアルゴリズムに対して評価する。
当社のアプローチは、最初のSNAKE(SaNitization Algorithm under attacK... $varepsilon$)コンペに勝ちました。
- 参考スコア(独自算出の注目度): 5.399800035598186
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When acting as a privacy-enhancing technology, synthetic data generation (SDG) aims to maintain a resemblance to the real data while excluding personally-identifiable information. Many SDG algorithms provide robust differential privacy (DP) guarantees to this end. However, we show that the strongest class of SDG algorithms--those that preserve \textit{marginal probabilities}, or similar statistics, from the underlying data--leak information about individuals that can be recovered more efficiently than previously understood. We demonstrate this by presenting a novel membership inference attack, MAMA-MIA, and evaluate it against three seminal DP SDG algorithms: MST, PrivBayes, and Private-GSD. MAMA-MIA leverages knowledge of which SDG algorithm was used, allowing it to learn information about the hidden data more accurately, and orders-of-magnitude faster, than other leading attacks. We use MAMA-MIA to lend insight into existing SDG vulnerabilities. Our approach went on to win the first SNAKE (SaNitization Algorithm under attacK ... $\varepsilon$) competition.
- Abstract(参考訳): プライバシ向上技術として振る舞う場合、合成データ生成(SDG)は、個人識別可能な情報を除外しながら、実際のデータと類似性を維持することを目的としている。
多くのSDGアルゴリズムは、この目的に対して堅牢な差分プライバシー(DP)を保証する。
しかし、SDGアルゴリズムの最も強力なクラスである「textit{marginal probabilities}」や「類似統計」を、基礎となるデータから保存し、より効率的に回復できる個人に関する情報を抽出した。
MST,PrivBayes,Priv-GSDの3種類のDP SDGアルゴリズムに対して,MAMA-MIAという新たなメンバシップ推論攻撃を提示し,その評価を行った。
MAMA-MIAは、どのSDGアルゴリズムが使われたかの知識を活用し、隠れたデータに関する情報をより正確に学習し、他の主要な攻撃よりも高速に命令を処理できる。
既存のSDG脆弱性の洞察を得るためにMAMA-MIAを使用します。
当社のアプローチは、最初のSNAKE(SaNitization Algorithm under attacK ... $\varepsilon$)コンペに勝ちました。
関連論文リスト
- Privacy-Preserving Retrieval Augmented Generation with Differential Privacy [25.896416088293908]
検索拡張生成(RAG)は、外部知識ソースから直接関連する情報を提供することで、大規模言語モデル(LLM)を支援する。
RAGは、外部データソースから機密情報を漏洩するリスクを出力する。
本研究では、データプライバシの正式な保証である差分プライバシ(DP)の下でRAGを探索する。
論文 参考訳(メタデータ) (2024-12-06T01:20:16Z) - DP-CDA: An Algorithm for Enhanced Privacy Preservation in Dataset Synthesis Through Randomized Mixing [0.8739101659113155]
有効なデータパブリッシングアルゴリズムであるemphDP-CDAを導入する。
提案アルゴリズムは、クラス固有の方法でデータをランダムに混合し、プライバシー保証を確保するために慎重に調整されたランダム性を誘導することにより、合成データセットを生成する。
以上の結果から,DP-CDAを用いた合成データセットは,同一のプライバシー要件下であっても,従来のデータパブリッシングアルゴリズムで生成したデータセットよりも優れた実用性が得られることが示唆された。
論文 参考訳(メタデータ) (2024-11-25T06:14:06Z) - The Good and The Bad: Exploring Privacy Issues in Retrieval-Augmented
Generation (RAG) [56.67603627046346]
Retrieval-augmented Generation (RAG)は、プロプライエタリおよびプライベートデータによる言語モデルを容易にする強力な技術である。
本研究では,プライベート検索データベースの漏洩に対するRAGシステムの脆弱性を実証する,新たな攻撃手法による実証的研究を行う。
論文 参考訳(メタデータ) (2024-02-23T18:35:15Z) - High Epsilon Synthetic Data Vulnerabilities in MST and PrivBayes [5.399800035598186]
差分プライバシーパラメータ$varepsilon$が高すぎると、明らかでないプライバシー漏洩が発生する可能性がある。
われわれのアプローチは2023年11月のSNAKEチャレンジで勝利した。
論文 参考訳(メタデータ) (2024-02-09T05:13:37Z) - DP-Fast MH: Private, Fast, and Accurate Metropolis-Hastings for
Large-Scale Bayesian Inference [16.280801141284872]
差分プライバシー下での大規模ベイズ推定のためのメトロポリス・ハスティングス(MH)アルゴリズムについて検討する。
私たちは、プライバシ、スケーラビリティ、効率性の3つのトレードオフを初めて明らかにしました。
我々は,様々な実験において,アルゴリズムの有効性と効率を実証的に実証した。
論文 参考訳(メタデータ) (2023-03-10T19:14:20Z) - Pseudo Label-Guided Model Inversion Attack via Conditional Generative
Adversarial Network [102.21368201494909]
モデル反転(MI)攻撃はプライバシーに対する懸念を高めている。
近年のMI攻撃では,探索空間を狭める前にGAN(Generative Adversarial Network)を画像として活用している。
我々は条件付きGAN(cGAN)による擬似ラベル誘導MI(PLG-MI)攻撃を提案する。
論文 参考訳(メタデータ) (2023-02-20T07:29:34Z) - A Linear Reconstruction Approach for Attribute Inference Attacks against Synthetic Data [1.5293427903448022]
合成データに対する新しい属性推論攻撃を導入する。
攻撃は任意の記録でも極めて正確であることを示す。
次に、プライバシー保護と統計ユーティリティ保護のトレードオフを評価する。
論文 参考訳(メタデータ) (2023-01-24T14:56:36Z) - Smooth Anonymity for Sparse Graphs [69.1048938123063]
しかし、スパースデータセットを共有するという点では、差分プライバシーがプライバシのゴールドスタンダードとして浮上している。
本研究では、スムーズな$k$匿名性(スムーズな$k$匿名性)と、スムーズな$k$匿名性(スムーズな$k$匿名性)を提供する単純な大規模アルゴリズムを設計する。
論文 参考訳(メタデータ) (2022-07-13T17:09:25Z) - Individual Privacy Accounting for Differentially Private Stochastic Gradient Descent [69.14164921515949]
DP-SGDで訓練されたモデルをリリースする際の個々の事例に対するプライバシー保証を特徴付ける。
ほとんどの例では、最悪のケースよりも強力なプライバシー保証を享受しています。
これは、モデルユーティリティの観点からは守られないグループが同時に、より弱いプライバシー保証を経験することを意味する。
論文 参考訳(メタデータ) (2022-06-06T13:49:37Z) - Privacy-preserving Traffic Flow Prediction: A Federated Learning
Approach [61.64006416975458]
本稿では,フェデレート学習に基づくGated Recurrent Unit Neural Network Algorithm (FedGRU) というプライバシ保護機械学習手法を提案する。
FedGRUは、現在の集中学習方法と異なり、安全なパラメータアグリゲーション機構を通じて、普遍的な学習モデルを更新する。
FedGRUの予測精度は、先進的なディープラーニングモデルよりも90.96%高い。
論文 参考訳(メタデータ) (2020-03-19T13:07:49Z) - CryptoSPN: Privacy-preserving Sum-Product Network Inference [84.88362774693914]
総生産ネットワーク(SPN)のプライバシ保護のためのフレームワークを提案する。
CryptoSPNは、中規模のSPNに対して秒の順序で高効率で正確な推論を行う。
論文 参考訳(メタデータ) (2020-02-03T14:49:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。