論文の概要: Synth-MIA: A Testbed for Auditing Privacy Leakage in Tabular Data Synthesis
- arxiv url: http://arxiv.org/abs/2509.18014v1
- Date: Mon, 22 Sep 2025 16:53:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.51806
- Title: Synth-MIA: A Testbed for Auditing Privacy Leakage in Tabular Data Synthesis
- Title(参考訳): Synth-MIA: タブラルデータ合成におけるプライバシー漏洩監査用テストベッド
- Authors: Joshua Ward, Xiaofeng Lin, Chi-Hua Wang, Guang Cheng,
- Abstract要約: タブラル生成モデルは、トレーニングデータに似た合成データセットを作成することによって、プライバシを保護するとしばしば主張される。
会員推論攻撃(MIA)は、最近、合成データのプライバシー漏洩を評価する方法として登場した。
合成データセットの最大プライバシー漏洩を推定するために、攻撃の集合をデプロイする統一的モデルに依存しない脅威フレームワークを提案する。
- 参考スコア(独自算出の注目度): 8.4361320391543
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Tabular Generative Models are often argued to preserve privacy by creating synthetic datasets that resemble training data. However, auditing their empirical privacy remains challenging, as commonly used similarity metrics fail to effectively characterize privacy risk. Membership Inference Attacks (MIAs) have recently emerged as a method for evaluating privacy leakage in synthetic data, but their practical effectiveness is limited. Numerous attacks exist across different threat models, each with distinct implementations targeting various sources of privacy leakage, making them difficult to apply consistently. Moreover, no single attack consistently outperforms the others, leading to a routine underestimation of privacy risk. To address these issues, we propose a unified, model-agnostic threat framework that deploys a collection of attacks to estimate the maximum empirical privacy leakage in synthetic datasets. We introduce Synth-MIA, an open-source Python library that streamlines this auditing process through a novel testbed that integrates seamlessly into existing synthetic data evaluation pipelines through a Scikit-Learn-like API. Our software implements 13 attack methods through a Scikit-Learn-like API, designed to enable fast systematic estimation of privacy leakage for practitioners as well as facilitate the development of new attacks and experiments for researchers. We demonstrate our framework's utility in the largest tabular synthesis privacy benchmark to date, revealing that higher synthetic data quality corresponds to greater privacy leakage, that similarity-based privacy metrics show weak correlation with MIA results, and that the differentially private generator PATEGAN can fail to preserve privacy under such attacks. This underscores the necessity of MIA-based auditing when designing and deploying Tabular Generative Models.
- Abstract(参考訳): タブラル生成モデルは、トレーニングデータに似た合成データセットを作成することによって、プライバシを保護するとしばしば主張される。
しかし、一般的に使われている類似度指標は、プライバシーリスクを効果的に特徴づけることができないため、実証的なプライバシの監査は依然として困難である。
会員推論攻撃(MIA)は、最近、合成データのプライバシー漏洩を評価する方法として登場したが、その実用性は限られている。
さまざまな脅威モデルにまたがる数多くの攻撃があり、それぞれがさまざまなプライバシー漏洩ソースをターゲットにした異なる実装を持つため、一貫した適用が困難である。
さらに、単一の攻撃は、他の攻撃よりも一貫して優れておらず、常にプライバシーリスクを過小評価している。
これらの問題に対処するため、我々は、合成データセットの最大プライバシー漏洩を推定するために、攻撃の集合をデプロイする統一されたモデルに依存しない脅威フレームワークを提案する。
我々は、Synth-MIAというオープンソースのPythonライブラリを紹介します。Synth-MIAは、Scikit-LearnのようなAPIを通じて既存の合成データ評価パイプラインにシームレスに統合する新しいテストベッドを通じて、監査プロセスを合理化します。
我々のソフトウェアは、Scikit-Learn-like APIを通じて13の攻撃方法を実装しており、実践者のプライバシー漏洩の迅速なシステマティックな評価を可能にするとともに、研究者の新たな攻撃や実験の促進を目的としている。
我々は、我々のフレームワークの実用性を、これまでで最大の表形式の合成プライバシーベンチマークで実証し、高い合成データ品質がプライバシー漏洩の増大に対応すること、類似性に基づくプライバシメトリクスがMIA結果と弱い相関を示すこと、そして、微分プライベートジェネレータであるPATEGANが、そのような攻撃下でプライバシを保存することができないことを明らかにした。
これは、タブラル生成モデルの設計およびデプロイにおけるMIAベースの監査の必要性を浮き彫りにする。
関連論文リスト
- SynQP: A Framework and Metrics for Evaluating the Quality and Privacy Risk of Synthetic Data [4.73374389278596]
合成データ生成におけるプライバシーベンチマークのためのオープンフレームワークであるSynQPを紹介する。
また、機械学習モデルの確率的性質を考慮に入れたプライバシー指標の必要性も強調します。
私たちの仕事は、プライバシー評価の透明性と信頼性を向上させる重要なツールを提供します。
論文 参考訳(メタデータ) (2026-01-17T17:51:14Z) - How to DP-fy Your Data: A Practical Guide to Generating Synthetic Data With Differential Privacy [52.00934156883483]
Differential Privacy(DP)は、情報漏洩を推論し、制限するフレームワークである。
Differentially Private Synthetic Dataは、ソースデータの全体的なトレンドを保存する合成データを指す。
論文 参考訳(メタデータ) (2025-12-02T21:14:39Z) - PRIVET: Privacy Metric Based on Extreme Value Theory [8.447463478355845]
深層生成モデルは、しばしば、遺伝配列、健康データ、より広範に、著作権、ライセンス、保護されたコンテンツなどの機密データに基づいて訓練される。
これにより、プライバシー保護のための合成データ、より具体的にはプライバシー漏洩に関する重要な懸念が持ち上がる。
本稿では,個別のプライバシリークスコアを合成サンプルに割り当てる,汎用的なサンプルベースモダリティ非依存アルゴリズムPRIVETを提案する。
論文 参考訳(メタデータ) (2025-10-28T09:42:03Z) - On the MIA Vulnerability Gap Between Private GANs and Diffusion Models [51.53790101362898]
GAN(Generative Adversarial Networks)と拡散モデルが高品質な画像合成のための主要なアプローチとして登場している。
差分自己生成モデルが直面するプライバシーリスクの統一的および実証的分析について述べる。
論文 参考訳(メタデータ) (2025-09-03T14:18:22Z) - Privacy Auditing Synthetic Data Release through Local Likelihood Attacks [7.780592134085148]
遺伝子様比攻撃(Gen-LRA)
Gen-LRAは、サロゲートモデルによる合成データに対する局所確率比の推定において、テスト観測が与える影響を評価して攻撃を定式化する。
その結果、Gen-LRAは、合成データのリリースのためのプライバシ監査ツールとしての有効性を裏付けている。
論文 参考訳(メタデータ) (2025-08-28T18:27:40Z) - PriRoAgg: Achieving Robust Model Aggregation with Minimum Privacy Leakage for Federated Learning [49.916365792036636]
フェデレートラーニング(FL)は、大規模分散ユーザデータを活用する可能性から、最近大きな勢いを増している。
送信されたモデル更新は、センシティブなユーザ情報をリークする可能性があり、ローカルなトレーニングプロセスの集中的な制御の欠如は、モデル更新に対する悪意のある操作の影響を受けやすいグローバルモデルを残します。
我々は、Lagrange符号化計算と分散ゼロ知識証明を利用した汎用フレームワークPriRoAggを開発し、集約されたプライバシを満たすとともに、幅広いロバストな集約アルゴリズムを実行する。
論文 参考訳(メタデータ) (2024-07-12T03:18:08Z) - Privacy Backdoors: Enhancing Membership Inference through Poisoning Pre-trained Models [112.48136829374741]
本稿では、プライバシーバックドア攻撃という新たな脆弱性を明らかにします。
被害者がバックドアモデルに微調整を行った場合、トレーニングデータは通常のモデルに微調整された場合よりも大幅に高い速度でリークされる。
我々の発見は、機械学習コミュニティにおける重要なプライバシー上の懸念を浮き彫りにし、オープンソースの事前訓練モデルの使用における安全性プロトコルの再評価を求めている。
論文 参考訳(メタデータ) (2024-04-01T16:50:54Z) - FewFedPIT: Towards Privacy-preserving and Few-shot Federated Instruction Tuning [54.26614091429253]
フェデレーション・インストラクション・チューニング(FedIT)は、複数のデータ所有者間で協調的なトレーニングを統合することで、有望なソリューションである。
FedITは、インストラクショナルデータの不足や、トレーニングデータ抽出攻撃への露出リスクなどの制限に直面している。
本稿では,FewFedPITを提案する。このFewFedPITは,フェデレートされた数ショット学習のプライバシー保護とモデル性能を同時に向上する。
論文 参考訳(メタデータ) (2024-03-10T08:41:22Z) - The Inadequacy of Similarity-based Privacy Metrics: Privacy Attacks against "Truly Anonymous" Synthetic Datasets [12.730435519914415]
実世界の合成データデプロイメントで使用されるプライバシメトリクスを調べ、その信頼性をいくつかの点で実証する。
ReconSynは、メトリクスによってプライベートと見なされるが、個々のレコードに固有の情報をリークする複数の合成データセットを生成するリコンストラクション攻撃である。
ReconSynは列車データから78-100%のアウトレーヤを復元し、ブラックボックスアクセスのみを1つの適合した生成モデルとプライバシメトリクスに含める。
論文 参考訳(メタデータ) (2023-12-08T15:42:28Z) - Achilles' Heels: Vulnerable Record Identification in Synthetic Data
Publishing [9.061271587514215]
合成データパブリッシングのための原則付き脆弱なレコード識別手法を提案する。
データセットやジェネレータ間で,従来のアドホック手法よりも優れていることを示す。
合成データジェネレータを差分的にプライベートにすると、脆弱性のあるレコードを正確に識別できることが示される。
論文 参考訳(メタデータ) (2023-06-17T09:42:46Z) - Auditing and Generating Synthetic Data with Controllable Trust Trade-offs [54.262044436203965]
合成データセットとAIモデルを包括的に評価する総合監査フレームワークを導入する。
バイアスや差別の防止、ソースデータへの忠実性の確保、実用性、堅牢性、プライバシ保護などに焦点を当てている。
多様なユースケースにまたがる様々な生成モデルを監査することにより,フレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-21T09:03:18Z) - Membership Inference Attacks against Synthetic Data through Overfitting
Detection [84.02632160692995]
我々は、攻撃者が基礎となるデータ分布についてある程度の知識を持っていると仮定する現実的なMIA設定について論じる。
生成モデルの局所的なオーバーフィッティングをターゲットとして,メンバシップを推論することを目的とした密度ベースMIAモデルであるDOMIASを提案する。
論文 参考訳(メタデータ) (2023-02-24T11:27:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。