論文の概要: When Privacy Isn't Synthetic: Hidden Data Leakage in Generative AI Models
- arxiv url: http://arxiv.org/abs/2512.06062v1
- Date: Fri, 05 Dec 2025 18:52:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.17743
- Title: When Privacy Isn't Synthetic: Hidden Data Leakage in Generative AI Models
- Title(参考訳): プライバシが合成されないとき - 生成AIモデルに隠されたデータ漏洩
- Authors: S. M. Mustaqim, Anantaa Kotal, Paul H. Yi,
- Abstract要約: 生成モデルは、プライバシを保存する合成データを作成するために、ますます使われています。
このような合成リリースは、データ多様体の構造的重複を通じて、基礎となるトレーニングサンプルに関する情報を引き続き漏洩させることができることを実証する。
モデル内部や実データへのアクセスを必要とせずに、この脆弱性を悪用するブラックボックスメンバーシップ推論攻撃を提案する。
- 参考スコア(独自算出の注目度): 2.084639874934284
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative models are increasingly used to produce privacy-preserving synthetic data as a safe alternative to sharing sensitive training datasets. However, we demonstrate that such synthetic releases can still leak information about the underlying training samples through structural overlap in the data manifold. We propose a black-box membership inference attack that exploits this vulnerability without requiring access to model internals or real data. The attacker repeatedly queries the generative model to obtain large numbers of synthetic samples, performs unsupervised clustering to identify dense regions of the synthetic distribution, and then analyzes cluster medoids and neighborhoods that correspond to high-density regions in the original training data. These neighborhoods act as proxies for training samples, enabling the adversary to infer membership or reconstruct approximate records. Our experiments across healthcare, finance, and other sensitive domains show that cluster overlap between real and synthetic data leads to measurable membership leakage-even when the generator is trained with differential privacy or other noise mechanisms. The results highlight an under-explored attack surface in synthetic data generation pipelines and call for stronger privacy guarantees that account for distributional neighborhood inference rather than sample-level memorization alone, underscoring its role in privacy-preserving data publishing. Implementation and evaluation code are publicly available at:github.com/Cluster-Medoid-Leakage-Attack.
- Abstract(参考訳): 生成モデルは、機密性の高いトレーニングデータセットを共有するための安全な代替手段として、プライバシを保存する合成データを生成するために、ますます使われています。
しかし、このような合成リリースは、データ多様体の構造的重複を通して、基礎となるトレーニングサンプルに関する情報を漏洩させることができることを実証する。
モデル内部や実データへのアクセスを必要とせずに、この脆弱性を悪用するブラックボックスメンバーシップ推論攻撃を提案する。
攻撃者は、生成モデルを繰り返しクエリして、多数の合成サンプルを取得し、教師なしクラスタリングを行い、合成分布の密集領域を特定し、元のトレーニングデータにおいて、高密度領域に対応するクラスタメドや近隣領域を解析する。
これらの地区は訓練サンプルのプロキシとして機能し、敵がメンバーシップを推測したり、近似した記録を再構築することを可能にする。
医療、ファイナンス、その他の機密分野にわたる実験では、実際のデータと合成データのクラスタの重複が、ジェネレータに差分プライバシーやその他のノイズメカニズムを訓練した場合に、測定可能なメンバーシップリークを引き起こすことが示されている。
その結果、合成データ生成パイプラインにおける未調査の攻撃面が強調され、サンプルレベルの記憶のみでなく、分散的な近傍推論を考慮に入れた、より強力なプライバシー保証が求められ、プライバシ保護データ公開におけるその役割が強調された。
実装および評価コードは:github.com/Cluster-Medoid-Leakage-Attackで公開されている。
関連論文リスト
- Synth-MIA: A Testbed for Auditing Privacy Leakage in Tabular Data Synthesis [8.4361320391543]
タブラル生成モデルは、トレーニングデータに似た合成データセットを作成することによって、プライバシを保護するとしばしば主張される。
会員推論攻撃(MIA)は、最近、合成データのプライバシー漏洩を評価する方法として登場した。
合成データセットの最大プライバシー漏洩を推定するために、攻撃の集合をデプロイする統一的モデルに依存しない脅威フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-22T16:53:38Z) - Privacy Auditing Synthetic Data Release through Local Likelihood Attacks [7.780592134085148]
遺伝子様比攻撃(Gen-LRA)
Gen-LRAは、サロゲートモデルによる合成データに対する局所確率比の推定において、テスト観測が与える影響を評価して攻撃を定式化する。
その結果、Gen-LRAは、合成データのリリースのためのプライバシ監査ツールとしての有効性を裏付けている。
論文 参考訳(メタデータ) (2025-08-28T18:27:40Z) - On the Inherent Privacy Properties of Discrete Denoising Diffusion Models [17.773335593043004]
本稿では、離散拡散モデルに固有のプライバシー保護の先駆的な理論的探索について述べる。
我々のフレームワークは、トレーニングデータセット内の各データポイントの潜在的なプライバシー漏洩を解明する。
当社のバウンダリは、$$$サイズのデータポイントによるトレーニングが、プライバシー漏洩の急増につながっていることも示しています。
論文 参考訳(メタデータ) (2023-10-24T05:07:31Z) - Membership Inference Attacks against Language Models via Neighbourhood
Comparison [45.086816556309266]
メンバーシップ推論攻撃(MIA)は、機械学習モデルのトレーニングデータにデータサンプルが存在するかどうかを予測することを目的としている。
近年の研究では、類似データに基づいてトレーニングされた参照モデルとモデルスコアを比較した参照ベースの攻撃は、MIAの性能を大幅に向上することを示した。
より現実的なシナリオでそれらの性能を調査し、参照モデルのトレーニングに使用されるデータ分布に関して非常に脆弱であることを示す。
論文 参考訳(メタデータ) (2023-05-29T07:06:03Z) - Membership Inference Attacks against Synthetic Data through Overfitting
Detection [84.02632160692995]
我々は、攻撃者が基礎となるデータ分布についてある程度の知識を持っていると仮定する現実的なMIA設定について論じる。
生成モデルの局所的なオーバーフィッティングをターゲットとして,メンバシップを推論することを目的とした密度ベースMIAモデルであるDOMIASを提案する。
論文 参考訳(メタデータ) (2023-02-24T11:27:39Z) - Concealing Sensitive Samples against Gradient Leakage in Federated
Learning [41.43099791763444]
Federated Learning(FL)は、クライアントが生のプライベートデータをサーバと共有する必要をなくし、ユーザのプライバシを高める分散学習パラダイムである。
近年の研究では、FLの脆弱性が逆攻撃のモデルとなり、敵は共有勾配情報に基づく盗聴によって個人データを再構築している。
我々は,機密データの勾配を隠蔽標本で曖昧にする,シンプルで効果的な防衛戦略を提案する。
論文 参考訳(メタデータ) (2022-09-13T04:19:35Z) - Generative Models with Information-Theoretic Protection Against
Membership Inference Attacks [6.840474688871695]
GAN(Generative Adversarial Networks)のような深層生成モデルは、多様な高忠実度データサンプルを合成する。
GANは、訓練されたデータから個人情報を開示し、敵の攻撃を受けやすい可能性がある。
本稿では,生成モデルがトレーニングデータに過度に適合しないようにし,一般化性を奨励する情報理論的動機付け正規化項を提案する。
論文 参考訳(メタデータ) (2022-05-31T19:29:55Z) - Representative & Fair Synthetic Data [68.8204255655161]
公平性制約を自己監督学習プロセスに組み込むためのフレームワークを提示する。
私たちはuci成人国勢調査データセットの代表者および公正版を作成します。
我々は、代表的かつ公正な合成データを将来有望なビルディングブロックとみなし、歴史的世界ではなく、私たちが生きようとしている世界についてアルゴリズムを教える。
論文 参考訳(メタデータ) (2021-04-07T09:19:46Z) - Not All Datasets Are Born Equal: On Heterogeneous Data and Adversarial
Examples [46.625818815798254]
我々は、異種データで訓練された機械学習モデルは、同種データで訓練された機械学習モデルと同じくらい敵の操作に影響を受けやすいと論じる。
不均一な入力空間における逆摂動を識別する汎用的な最適化フレームワークを提案する。
その結果、異種データセットの入力妥当性に制約が課されているにもかかわらず、そのようなデータを用いて訓練された機械学習モデルは相変わらず敵の例にも適用可能であることが示された。
論文 参考訳(メタデータ) (2020-10-07T05:24:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。