論文の概要: High Epsilon Synthetic Data Vulnerabilities in MST and PrivBayes
- arxiv url: http://arxiv.org/abs/2402.06699v1
- Date: Fri, 9 Feb 2024 05:13:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-25 11:29:11.605518
- Title: High Epsilon Synthetic Data Vulnerabilities in MST and PrivBayes
- Title(参考訳): MSTおよびPrivBayesにおける高エプシロン合成データ脆弱性
- Authors: Steven Golob, Sikha Pentyala, Anuar Maratkhan, Martine De Cock,
- Abstract要約: 差分プライバシーパラメータ$varepsilon$が高すぎると、明らかでないプライバシー漏洩が発生する可能性がある。
われわれのアプローチは2023年11月のSNAKEチャレンジで勝利した。
- 参考スコア(独自算出の注目度): 5.399800035598186
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Synthetic data generation (SDG) has become increasingly popular as a privacy-enhancing technology. It aims to maintain important statistical properties of its underlying training data, while excluding any personally identifiable information. There have been a whole host of SDG algorithms developed in recent years to improve and balance both of these aims. Many of these algorithms provide robust differential privacy guarantees. However, we show here that if the differential privacy parameter $\varepsilon$ is set too high, then unambiguous privacy leakage can result. We show this by conducting a novel membership inference attack (MIA) on two state-of-the-art differentially private SDG algorithms: MST and PrivBayes. Our work suggests that there are vulnerabilities in these generators not previously seen, and that future work to strengthen their privacy is advisable. We present the heuristic for our MIA here. It assumes knowledge of auxiliary "population" data, and also assumes knowledge of which SDG algorithm was used. We use this information to adapt the recent DOMIAS MIA uniquely to MST and PrivBayes. Our approach went on to win the SNAKE challenge in November 2023.
- Abstract(参考訳): 合成データ生成(SDG)は、プライバシー向上技術としてますます人気が高まっている。
個人識別可能な情報を除いて、基礎となるトレーニングデータの重要な統計特性を維持することを目的としている。
SDGアルゴリズムは、これらの両方の目的を改善しバランスをとるために、近年、多くのホストが開発されている。
これらのアルゴリズムの多くは、堅牢な差分プライバシー保証を提供する。
しかしここでは、差分プライバシーパラメータ$\varepsilon$が高すぎると、あいまいなプライバシー漏洩が発生することを示す。
MSTとPrivBayesという2つの最先端の差分型SDGアルゴリズムに対して,新たなメンバシップ推論攻撃(MIA)を行うことにより,これを実証する。
私たちの研究は、これらのジェネレータには、これまで見たことのない脆弱性があり、彼らのプライバシーを強化するための今後の作業が推奨されることを示唆している。
私たちはMIAのヒューリスティックをここで紹介します。
補助的な「人口」データの知識を仮定し、どのSDGアルゴリズムが使われたかの知識も仮定する。
我々はこの情報を用いて、最近のDOMIAS MIAを MST と PrivBayes に一意に適応させる。
われわれのアプローチは2023年11月のSNAKEチャレンジで勝利した。
関連論文リスト
- Privacy-Preserving Retrieval Augmented Generation with Differential Privacy [25.896416088293908]
検索拡張生成(RAG)は、外部知識ソースから直接関連する情報を提供することで、大規模言語モデル(LLM)を支援する。
RAGは、外部データソースから機密情報を漏洩するリスクを出力する。
本研究では、データプライバシの正式な保証である差分プライバシ(DP)の下でRAGを探索する。
論文 参考訳(メタデータ) (2024-12-06T01:20:16Z) - Activity Recognition on Avatar-Anonymized Datasets with Masked Differential Privacy [64.32494202656801]
プライバシを保存するコンピュータビジョンは、機械学習と人工知能において重要な問題である。
本稿では,ビデオデータセット中の感性のある被験者を文脈内の合成アバターに置き換える匿名化パイプラインを提案する。
また、匿名化されていないがプライバシーに敏感な背景情報を保護するため、MaskDPを提案する。
論文 参考訳(メタデータ) (2024-10-22T15:22:53Z) - Privacy Vulnerabilities in Marginals-based Synthetic Data [5.399800035598186]
最強の合成データ生成アルゴリズムは, テクスチャマージの確率を保っていることを示す。
そこで本研究では,MAMA-MIAという新たなメンバシップ推論攻撃を提案し,これを3つのセミナルDPアルゴリズムに対して評価する。
当社のアプローチは、最初のSNAKE(SaNitization Algorithm under attacK... $varepsilon$)コンペに勝ちました。
論文 参考訳(メタデータ) (2024-10-07T21:24:22Z) - A Survey on Privacy in Graph Neural Networks: Attacks, Preservation, and
Applications [76.88662943995641]
グラフニューラルネットワーク(GNN)は、グラフ構造化データを扱う能力のため、大きな注目を集めている。
この問題に対処するため、研究者らはプライバシー保護のGNNの開発を開始した。
この進歩にもかかわらず、攻撃の包括的概要と、グラフドメインのプライバシを保存するためのテクニックが欠如している。
論文 参考訳(メタデータ) (2023-08-31T00:31:08Z) - Differentially Private Image Classification by Learning Priors from
Random Processes [48.0766422536737]
プライバシー保護機械学習において、差分プライベート勾配降下(DP-SGD)は、サンプルごとの勾配クリッピングとノイズ付加によりSGDよりも悪化する。
近年のプライベートラーニング研究は, DP-SGDを実世界の公開データに組み込むことで, 個人データにおけるDP-SGDの性能向上に力を入れている。
本研究では,DP-SGDのプライバシ・ユーティリティ・トレードオフを改善するために,ランダムなプロセスによって生成された画像から先行情報を学習し,それらをプライベートデータに転送する方法を検討する。
論文 参考訳(メタデータ) (2023-06-08T04:14:32Z) - Privacy Implications of Retrieval-Based Language Models [26.87950501433784]
本稿では,検索に基づくLM,特に$k$NN-LMにおけるプライバシリスクに関する最初の研究について述べる。
パラメトリックモデルよりも、$k$NN-LMsの方がプライベートデータストアから個人情報をリークする可能性が高いことがわかりました。
論文 参考訳(メタデータ) (2023-05-24T08:37:27Z) - Smooth Anonymity for Sparse Graphs [69.1048938123063]
しかし、スパースデータセットを共有するという点では、差分プライバシーがプライバシのゴールドスタンダードとして浮上している。
本研究では、スムーズな$k$匿名性(スムーズな$k$匿名性)と、スムーズな$k$匿名性(スムーズな$k$匿名性)を提供する単純な大規模アルゴリズムを設計する。
論文 参考訳(メタデータ) (2022-07-13T17:09:25Z) - Individual Privacy Accounting for Differentially Private Stochastic Gradient Descent [69.14164921515949]
DP-SGDで訓練されたモデルをリリースする際の個々の事例に対するプライバシー保証を特徴付ける。
ほとんどの例では、最悪のケースよりも強力なプライバシー保証を享受しています。
これは、モデルユーティリティの観点からは守られないグループが同時に、より弱いプライバシー保証を経験することを意味する。
論文 参考訳(メタデータ) (2022-06-06T13:49:37Z) - Improved Regret for Differentially Private Exploration in Linear MDP [31.567811502343552]
医療記録などのセンシティブなデータに依存する環境におけるシーケンシャルな意思決定におけるプライバシ保護探索について検討する。
我々は、エピソード数に対して$O(sqrtK)$を最適に依存した、改善された後悔率を持つプライベートアルゴリズムを提供する。
論文 参考訳(メタデータ) (2022-02-02T21:32:09Z) - InfoScrub: Towards Attribute Privacy by Targeted Obfuscation [77.49428268918703]
視覚データに流出した個人情報を個人が制限できる技術について検討する。
我々はこの問題を新しい画像難読化フレームワークで解決する。
提案手法では,元の入力画像に忠実な難読化画像を生成するとともに,非難読化画像に対して6.2$times$(または0.85bits)の不確実性を増大させる。
論文 参考訳(メタデータ) (2020-05-20T19:48:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。