論文の概要: Synth-MIA: A Testbed for Auditing Privacy Leakage in Tabular Data Synthesis
- arxiv url: http://arxiv.org/abs/2509.18014v1
- Date: Mon, 22 Sep 2025 16:53:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.51806
- Title: Synth-MIA: A Testbed for Auditing Privacy Leakage in Tabular Data Synthesis
- Title(参考訳): Synth-MIA: タブラルデータ合成におけるプライバシー漏洩監査用テストベッド
- Authors: Joshua Ward, Xiaofeng Lin, Chi-Hua Wang, Guang Cheng,
- Abstract要約: タブラル生成モデルは、トレーニングデータに似た合成データセットを作成することによって、プライバシを保護するとしばしば主張される。
会員推論攻撃(MIA)は、最近、合成データのプライバシー漏洩を評価する方法として登場した。
合成データセットの最大プライバシー漏洩を推定するために、攻撃の集合をデプロイする統一的モデルに依存しない脅威フレームワークを提案する。
- 参考スコア(独自算出の注目度): 8.4361320391543
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Tabular Generative Models are often argued to preserve privacy by creating synthetic datasets that resemble training data. However, auditing their empirical privacy remains challenging, as commonly used similarity metrics fail to effectively characterize privacy risk. Membership Inference Attacks (MIAs) have recently emerged as a method for evaluating privacy leakage in synthetic data, but their practical effectiveness is limited. Numerous attacks exist across different threat models, each with distinct implementations targeting various sources of privacy leakage, making them difficult to apply consistently. Moreover, no single attack consistently outperforms the others, leading to a routine underestimation of privacy risk. To address these issues, we propose a unified, model-agnostic threat framework that deploys a collection of attacks to estimate the maximum empirical privacy leakage in synthetic datasets. We introduce Synth-MIA, an open-source Python library that streamlines this auditing process through a novel testbed that integrates seamlessly into existing synthetic data evaluation pipelines through a Scikit-Learn-like API. Our software implements 13 attack methods through a Scikit-Learn-like API, designed to enable fast systematic estimation of privacy leakage for practitioners as well as facilitate the development of new attacks and experiments for researchers. We demonstrate our framework's utility in the largest tabular synthesis privacy benchmark to date, revealing that higher synthetic data quality corresponds to greater privacy leakage, that similarity-based privacy metrics show weak correlation with MIA results, and that the differentially private generator PATEGAN can fail to preserve privacy under such attacks. This underscores the necessity of MIA-based auditing when designing and deploying Tabular Generative Models.
- Abstract(参考訳): タブラル生成モデルは、トレーニングデータに似た合成データセットを作成することによって、プライバシを保護するとしばしば主張される。
しかし、一般的に使われている類似度指標は、プライバシーリスクを効果的に特徴づけることができないため、実証的なプライバシの監査は依然として困難である。
会員推論攻撃(MIA)は、最近、合成データのプライバシー漏洩を評価する方法として登場したが、その実用性は限られている。
さまざまな脅威モデルにまたがる数多くの攻撃があり、それぞれがさまざまなプライバシー漏洩ソースをターゲットにした異なる実装を持つため、一貫した適用が困難である。
さらに、単一の攻撃は、他の攻撃よりも一貫して優れておらず、常にプライバシーリスクを過小評価している。
これらの問題に対処するため、我々は、合成データセットの最大プライバシー漏洩を推定するために、攻撃の集合をデプロイする統一されたモデルに依存しない脅威フレームワークを提案する。
我々は、Synth-MIAというオープンソースのPythonライブラリを紹介します。Synth-MIAは、Scikit-LearnのようなAPIを通じて既存の合成データ評価パイプラインにシームレスに統合する新しいテストベッドを通じて、監査プロセスを合理化します。
我々のソフトウェアは、Scikit-Learn-like APIを通じて13の攻撃方法を実装しており、実践者のプライバシー漏洩の迅速なシステマティックな評価を可能にするとともに、研究者の新たな攻撃や実験の促進を目的としている。
我々は、我々のフレームワークの実用性を、これまでで最大の表形式の合成プライバシーベンチマークで実証し、高い合成データ品質がプライバシー漏洩の増大に対応すること、類似性に基づくプライバシメトリクスがMIA結果と弱い相関を示すこと、そして、微分プライベートジェネレータであるPATEGANが、そのような攻撃下でプライバシを保存することができないことを明らかにした。
これは、タブラル生成モデルの設計およびデプロイにおけるMIAベースの監査の必要性を浮き彫りにする。
関連論文リスト
- On the MIA Vulnerability Gap Between Private GANs and Diffusion Models [51.53790101362898]
GAN(Generative Adversarial Networks)と拡散モデルが高品質な画像合成のための主要なアプローチとして登場している。
差分自己生成モデルが直面するプライバシーリスクの統一的および実証的分析について述べる。
論文 参考訳(メタデータ) (2025-09-03T14:18:22Z) - Privacy Auditing Synthetic Data Release through Local Likelihood Attacks [7.780592134085148]
遺伝子様比攻撃(Gen-LRA)
Gen-LRAは、サロゲートモデルによる合成データに対する局所確率比の推定において、テスト観測が与える影響を評価して攻撃を定式化する。
その結果、Gen-LRAは、合成データのリリースのためのプライバシ監査ツールとしての有効性を裏付けている。
論文 参考訳(メタデータ) (2025-08-28T18:27:40Z) - PriRoAgg: Achieving Robust Model Aggregation with Minimum Privacy Leakage for Federated Learning [49.916365792036636]
フェデレートラーニング(FL)は、大規模分散ユーザデータを活用する可能性から、最近大きな勢いを増している。
送信されたモデル更新は、センシティブなユーザ情報をリークする可能性があり、ローカルなトレーニングプロセスの集中的な制御の欠如は、モデル更新に対する悪意のある操作の影響を受けやすいグローバルモデルを残します。
我々は、Lagrange符号化計算と分散ゼロ知識証明を利用した汎用フレームワークPriRoAggを開発し、集約されたプライバシを満たすとともに、幅広いロバストな集約アルゴリズムを実行する。
論文 参考訳(メタデータ) (2024-07-12T03:18:08Z) - The Inadequacy of Similarity-based Privacy Metrics: Privacy Attacks against "Truly Anonymous" Synthetic Datasets [12.730435519914415]
実世界の合成データデプロイメントで使用されるプライバシメトリクスを調べ、その信頼性をいくつかの点で実証する。
ReconSynは、メトリクスによってプライベートと見なされるが、個々のレコードに固有の情報をリークする複数の合成データセットを生成するリコンストラクション攻撃である。
ReconSynは列車データから78-100%のアウトレーヤを復元し、ブラックボックスアクセスのみを1つの適合した生成モデルとプライバシメトリクスに含める。
論文 参考訳(メタデータ) (2023-12-08T15:42:28Z) - Auditing and Generating Synthetic Data with Controllable Trust Trade-offs [54.262044436203965]
合成データセットとAIモデルを包括的に評価する総合監査フレームワークを導入する。
バイアスや差別の防止、ソースデータへの忠実性の確保、実用性、堅牢性、プライバシ保護などに焦点を当てている。
多様なユースケースにまたがる様々な生成モデルを監査することにより,フレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-21T09:03:18Z) - Membership Inference Attacks against Synthetic Data through Overfitting
Detection [84.02632160692995]
我々は、攻撃者が基礎となるデータ分布についてある程度の知識を持っていると仮定する現実的なMIA設定について論じる。
生成モデルの局所的なオーバーフィッティングをターゲットとして,メンバシップを推論することを目的とした密度ベースMIAモデルであるDOMIASを提案する。
論文 参考訳(メタデータ) (2023-02-24T11:27:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。