論文の概要: Privacy Auditing Synthetic Data Release through Local Likelihood Attacks
- arxiv url: http://arxiv.org/abs/2508.21146v1
- Date: Thu, 28 Aug 2025 18:27:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-01 19:45:10.846961
- Title: Privacy Auditing Synthetic Data Release through Local Likelihood Attacks
- Title(参考訳): ローカルなアタックによる合成データのリリースを監査するプライバシ
- Authors: Joshua Ward, Chi-Hua Wang, Guang Cheng,
- Abstract要約: 遺伝子様比攻撃(Gen-LRA)
Gen-LRAは、サロゲートモデルによる合成データに対する局所確率比の推定において、テスト観測が与える影響を評価して攻撃を定式化する。
その結果、Gen-LRAは、合成データのリリースのためのプライバシ監査ツールとしての有効性を裏付けている。
- 参考スコア(独自算出の注目度): 7.780592134085148
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Auditing the privacy leakage of synthetic data is an important but unresolved problem. Most existing privacy auditing frameworks for synthetic data rely on heuristics and unreasonable assumptions to attack the failure modes of generative models, exhibiting limited capability to describe and detect the privacy exposure of training data through synthetic data release. In this paper, we study designing Membership Inference Attacks (MIAs) that specifically exploit the observation that tabular generative models tend to significantly overfit to certain regions of the training distribution. Here, we propose Generative Likelihood Ratio Attack (Gen-LRA), a novel, computationally efficient No-Box MIA that, with no assumption of model knowledge or access, formulates its attack by evaluating the influence a test observation has in a surrogate model's estimation of a local likelihood ratio over the synthetic data. Assessed over a comprehensive benchmark spanning diverse datasets, model architectures, and attack parameters, we find that Gen-LRA consistently dominates other MIAs for generative models across multiple performance metrics. These results underscore Gen-LRA's effectiveness as a privacy auditing tool for the release of synthetic data, highlighting the significant privacy risks posed by generative model overfitting in real-world applications.
- Abstract(参考訳): 合成データのプライバシー漏洩を監査することは重要だが未解決の問題である。
合成データに対する既存のプライバシ監査フレームワークの多くは、生成モデルの障害モードを攻撃するためのヒューリスティックスや不合理な仮定に依存しており、合成データリリースを通じてトレーニングデータのプライバシ露出を記述および検出する能力に制限がある。
本稿では,表層生成モデルがトレーニング分布の特定の領域にかなり過度に適合する傾向にあるという観察を特に活用する,MIA(Commanship Inference Attacks)の設計について検討する。
本稿では、モデル知識やアクセスを前提とせずに、サロゲートモデルによる合成データに対する局所確率比の推定において、テスト観測が持つ影響を評価して攻撃を定式化する、新しい計算効率の高いNo-Box MIAであるGenerative Likelihood Ratio Attack(Gen-LRA)を提案する。
多様なデータセット、モデルアーキテクチャ、アタックパラメータにまたがる包括的なベンチマークから判断すると、Gen-LRAは複数のパフォーマンス指標にわたって生成モデルのための他のMIAを一貫して支配している。
これらの結果は、Gen-LRAが合成データのリリースのためのプライバシ監査ツールとしての有効性を強調し、現実のアプリケーションで生成モデル過適合によって引き起こされる重大なプライバシリスクを強調している。
関連論文リスト
- Multi-Objective Optimization-Based Anonymization of Structured Data for Machine Learning Application [0.5452584641316627]
データ共有におけるプライバシー問題に対処する様々な手法が提案されている。
これらの方法は、しばしばデータユーティリティを劣化させ、機械学習(ML)モデルの性能に影響を与える。
本稿では,情報損失を同時に最小化し,攻撃に対する防御を最大化する新しい多目的最適化モデルを提案する。
論文 参考訳(メタデータ) (2025-01-02T01:52:36Z) - SafeSynthDP: Leveraging Large Language Models for Privacy-Preserving Synthetic Data Generation Using Differential Privacy [0.0]
差分プライバシー(DP)機構を用いた合成データセットを生成するための大規模言語モデル(Ms)の能力について検討する。
提案手法では,ラプラス分布やガウス分布を含むDPベースのノイズ注入法をデータ生成プロセスに組み込む。
次に、これらのDP強化合成データセットの有用性を、トレーニングされたMLモデルの性能と、元のデータでトレーニングされたモデルとを比較して評価する。
論文 参考訳(メタデータ) (2024-12-30T01:10:10Z) - Model Stealing Attack against Graph Classification with Authenticity, Uncertainty and Diversity [80.16488817177182]
GNNは、クエリ許可を通じてターゲットモデルを複製するための悪行であるモデル盗難攻撃に対して脆弱である。
異なるシナリオに対応するために,3つのモデルステルス攻撃を導入する。
論文 参考訳(メタデータ) (2023-12-18T05:42:31Z) - Assessing Privacy Risks in Language Models: A Case Study on
Summarization Tasks [65.21536453075275]
我々は要約作業に焦点をあて、会員推測(MI)攻撃について調査する。
テキストの類似性や文書修正に対するモデルの抵抗をMI信号として活用する。
我々は、MI攻撃から保護するための要約モデルの訓練と、プライバシとユーティリティの本質的にのトレードオフについて議論する。
論文 参考訳(メタデータ) (2023-10-20T05:44:39Z) - Auditing and Generating Synthetic Data with Controllable Trust Trade-offs [54.262044436203965]
合成データセットとAIモデルを包括的に評価する総合監査フレームワークを導入する。
バイアスや差別の防止、ソースデータへの忠実性の確保、実用性、堅牢性、プライバシ保護などに焦点を当てている。
多様なユースケースにまたがる様々な生成モデルを監査することにより,フレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-21T09:03:18Z) - Membership Inference Attacks against Synthetic Data through Overfitting
Detection [84.02632160692995]
我々は、攻撃者が基礎となるデータ分布についてある程度の知識を持っていると仮定する現実的なMIA設定について論じる。
生成モデルの局所的なオーバーフィッティングをターゲットとして,メンバシップを推論することを目的とした密度ベースMIAモデルであるDOMIASを提案する。
論文 参考訳(メタデータ) (2023-02-24T11:27:39Z) - Generative Models with Information-Theoretic Protection Against
Membership Inference Attacks [6.840474688871695]
GAN(Generative Adversarial Networks)のような深層生成モデルは、多様な高忠実度データサンプルを合成する。
GANは、訓練されたデータから個人情報を開示し、敵の攻撃を受けやすい可能性がある。
本稿では,生成モデルがトレーニングデータに過度に適合しないようにし,一般化性を奨励する情報理論的動機付け正規化項を提案する。
論文 参考訳(メタデータ) (2022-05-31T19:29:55Z) - Privacy-preserving Generative Framework Against Membership Inference
Attacks [10.791983671720882]
我々は、メンバーシップ推論攻撃に対するプライバシー保護のための生成フレームワークを設計する。
まず、VAEモデルを通してソースデータを潜時空間にマッピングして潜時符号を取得し、次に潜時符号上でメートル法プライバシーを満たすノイズ処理を行い、最終的にVAEモデルを用いて合成データを再構成する。
実験により、新たに生成した合成データを用いて学習した機械学習モデルは、メンバーシップ推論攻撃に効果的に抵抗でき、高いユーティリティを維持できることを示した。
論文 参考訳(メタデータ) (2022-02-11T06:13:30Z) - Differentially Private Synthetic Medical Data Generation using
Convolutional GANs [7.2372051099165065]
R'enyiの差分プライバシーを用いた合成データ生成のための差分プライベートフレームワークを開発する。
提案手法は, 畳み込み自己エンコーダと畳み込み生成対向ネットワークを利用して, 生成した合成データの重要な特性をある程度保存する。
私たちのモデルは、同じプライバシー予算の下で既存の最新モデルを上回ることを実証します。
論文 参考訳(メタデータ) (2020-12-22T01:03:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。