論文の概要: Understanding the Impact of Data Domain Extraction on Synthetic Data Privacy
- arxiv url: http://arxiv.org/abs/2504.08254v1
- Date: Fri, 11 Apr 2025 04:35:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-14 14:19:23.481735
- Title: Understanding the Impact of Data Domain Extraction on Synthetic Data Privacy
- Title(参考訳): データドメイン抽出が合成データプライバシに与える影響を理解する
- Authors: Georgi Ganev, Meenatchi Sundaram Muthu Selva Annamalai, Sofiane Mahiou, Emiliano De Cristofaro,
- Abstract要約: プライバシ攻撃、特にメンバーシップ推論攻撃(MIA)は、合成データの生成モデルのプライバシを評価するために広く利用されている。
これらの攻撃は、データドメインの境界における位置のために特に脆弱な、アウトリーチを悪用することが多い。
本稿では,生成モデルにおけるデータ領域抽出の役割とプライバシ攻撃への影響について検討する。
- 参考スコア(独自算出の注目度): 10.893644207618825
- License:
- Abstract: Privacy attacks, particularly membership inference attacks (MIAs), are widely used to assess the privacy of generative models for tabular synthetic data, including those with Differential Privacy (DP) guarantees. These attacks often exploit outliers, which are especially vulnerable due to their position at the boundaries of the data domain (e.g., at the minimum and maximum values). However, the role of data domain extraction in generative models and its impact on privacy attacks have been overlooked. In this paper, we examine three strategies for defining the data domain: assuming it is externally provided (ideally from public data), extracting it directly from the input data, and extracting it with DP mechanisms. While common in popular implementations and libraries, we show that the second approach breaks end-to-end DP guarantees and leaves models vulnerable. While using a provided domain (if representative) is preferable, extracting it with DP can also defend against popular MIAs, even at high privacy budgets.
- Abstract(参考訳): プライバシー攻撃、特にメンバーシップ推論攻撃(MIA)は、微分プライバシ(DP)の保証を含む、表型合成データの生成モデルのプライバシを評価するために広く利用されている。
これらの攻撃は、データドメインの境界にある位置(例えば、最小値と最大値)のために特に脆弱な、アウトリーチを悪用することが多い。
しかし、生成モデルにおけるデータドメイン抽出の役割とプライバシ攻撃への影響は見過ごされている。
本稿では,データ領域を定義するための3つの戦略について検討する。外部から(理想的には公開データから)提供されたと仮定し,入力データから直接抽出し,DP機構で抽出する。
一般的な実装やライブラリでは一般的ですが、第2のアプローチはエンドツーエンドのDP保証を破り、モデルを脆弱にします。
提供されたドメイン(代表者ならば)を使用することが望ましいが、DPでそれを抽出することは、プライバシーの予算が高い場合でも、人気のあるMIAに対して防御することができる。
関連論文リスト
- Enforcing Demographic Coherence: A Harms Aware Framework for Reasoning about Private Data Release [14.939460540040459]
データプライバシに必要であると主張するプライバシ攻撃にインスパイアされた、人口統計コヒーレンスを導入します。
我々のフレームワークは信頼性評価予測に重点を置いており、ほぼすべてのデータインフォームドプロセスから蒸留することができる。
差分的にプライベートなデータリリースはすべて、人口統計学的にコヒーレントであること、および、差分的にプライベートではない人口統計学的にコヒーレントなアルゴリズムがあることを実証する。
論文 参考訳(メタデータ) (2025-02-04T20:42:30Z) - Bayes-Nash Generative Privacy Against Membership Inference Attacks [24.330984323956173]
メンバーシップ推論攻撃(MIA)は、個人のデータがデータセットにあるかどうかを判断することで、重大なプライバシーリスクを露呈する。
本研究では,MIAのプライバシ保護をディフェンダーとアタッカー間のベイズゲームとしてモデル化するゲーム理論フレームワークを提案する。
そこで我々は,ベイズ・ナッシュ生成プライバシ(BNGP)を得たディフェンダーのデータ共有ポリシーを呼んだ。
論文 参考訳(メタデータ) (2024-10-09T20:29:04Z) - FewFedPIT: Towards Privacy-preserving and Few-shot Federated Instruction Tuning [54.26614091429253]
フェデレーション・インストラクション・チューニング(FedIT)は、複数のデータ所有者間で協調的なトレーニングを統合することで、有望なソリューションである。
FedITは、インストラクショナルデータの不足や、トレーニングデータ抽出攻撃への露出リスクなどの制限に直面している。
本稿では,FewFedPITを提案する。このFewFedPITは,フェデレートされた数ショット学習のプライバシー保護とモデル性能を同時に向上する。
論文 参考訳(メタデータ) (2024-03-10T08:41:22Z) - Privacy Amplification for the Gaussian Mechanism via Bounded Support [64.86780616066575]
インスタンスごとの差分プライバシー(pDP)やフィッシャー情報損失(FIL)といったデータ依存のプライバシ会計フレームワークは、固定されたトレーニングデータセット内の個人に対してきめ細かいプライバシー保証を提供する。
本稿では,データ依存会計下でのプライバシ保証を向上することを示すとともに,バウンドサポートによるガウス機構の簡単な修正を提案する。
論文 参考訳(メタデータ) (2024-03-07T21:22:07Z) - Conciliating Privacy and Utility in Data Releases via Individual Differential Privacy and Microaggregation [4.287502453001108]
$epsilon$-Differential Privacy(DP)は、強力なプライバシ保証を提供するよく知られたプライバシモデルである。
被験者にDPと同じ保護を提供しながらデータ歪みを低減させるiDP ($epsilon$-individual differential privacy) を提案する。
本稿では,2次データ解析の精度を著しく低下させることのない保護データを提供しながら,我々のアプローチが強力なプライバシ(小額のepsilon$)を提供することを示す実験について報告する。
論文 参考訳(メタデータ) (2023-12-21T10:23:18Z) - PrivacyMind: Large Language Models Can Be Contextual Privacy Protection Learners [81.571305826793]
コンテキストプライバシ保護言語モデル(PrivacyMind)を紹介する。
我々の研究はモデル設計に関する理論的分析を提供し、様々な手法をベンチマークする。
特に、肯定的な例と否定的な例の両方による命令チューニングは、有望な方法である。
論文 参考訳(メタデータ) (2023-10-03T22:37:01Z) - Membership Inference Attacks against Synthetic Data through Overfitting
Detection [84.02632160692995]
我々は、攻撃者が基礎となるデータ分布についてある程度の知識を持っていると仮定する現実的なMIA設定について論じる。
生成モデルの局所的なオーバーフィッティングをターゲットとして,メンバシップを推論することを目的とした密度ベースMIAモデルであるDOMIASを提案する。
論文 参考訳(メタデータ) (2023-02-24T11:27:39Z) - DP2-Pub: Differentially Private High-Dimensional Data Publication with
Invariant Post Randomization [58.155151571362914]
本稿では,2つのフェーズで動作する差分プライベートな高次元データパブリッシング機構(DP2-Pub)を提案する。
属性をクラスタ内凝集度の高い低次元クラスタに分割し、クラスタ間の結合度を低くすることで、適切なプライバシ予算を得ることができる。
また、DP2-Pubメカニズムを、ローカルの差分プライバシーを満たす半正直なサーバでシナリオに拡張します。
論文 参考訳(メタデータ) (2022-08-24T17:52:43Z) - Just Fine-tune Twice: Selective Differential Privacy for Large Language
Models [69.66654761324702]
本稿では,大規模なトランスフォーマーベース言語モデルのためのSDPを実現するための,シンプルで効果的なジャストファイントゥンツースプライバシ機構を提案する。
実験により, カナリア挿入攻撃に対して頑健でありながら, 高い性能が得られた。
論文 参考訳(メタデータ) (2022-04-15T22:36:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。