論文の概要: Quantifying Membership Disclosure Risk for Tabular Synthetic Data Using Kernel Density Estimators
- arxiv url: http://arxiv.org/abs/2603.10937v1
- Date: Wed, 11 Mar 2026 16:22:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:33.05301
- Title: Quantifying Membership Disclosure Risk for Tabular Synthetic Data Using Kernel Density Estimators
- Title(参考訳): カーネル密度推定器を用いた語彙合成データのメンバーシップ開示リスクの定量化
- Authors: Rajdeep Pathak, Sayantee Jana,
- Abstract要約: カーネル密度推定器(KDE)を用いた合成データセットにおける会員開示リスクの定量化手法を提案する。
トレーニングデータへの特権的アクセスを前提とした'True Distribution Attack' と,真のメンバシップラベルを使わずに補助データを使用するより現実的で実装可能な 'Realistic Attack' の2つの攻撃モデルを提案する。
提案手法は,計算コストのかかるシャドウモデルを必要とすることなく,従来手法よりも高いF1スコアと高いリスク評価を実現する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The use of synthetic data has become increasingly popular as a privacy-preserving alternative to sharing real datasets, especially in sensitive domains such as healthcare, finance, and demography. However, the privacy assurances of synthetic data are not absolute, and remain susceptible to membership inference attacks (MIAs), where adversaries aim to determine whether a specific individual was present in the dataset used to train the generator. In this work, we propose a practical and effective method to quantify membership disclosure risk in tabular synthetic datasets using kernel density estimators (KDEs). Our KDE-based approach models the distribution of nearest-neighbour distances between synthetic data and the training records, allowing probabilistic inference of membership and enabling robust evaluation via ROC curves. We propose two attack models: a 'True Distribution Attack', which assumes privileged access to training data, and a more realistic, implementable 'Realistic Attack' that uses auxiliary data without true membership labels. Empirical evaluations across four real-world datasets and six synthetic data generators demonstrate that our method consistently achieves higher F1 scores and sharper risk characterization than a prior baseline approach, without requiring computationally expensive shadow models. The proposed method provides a practical framework and metric for quantifying membership disclosure risk in synthetic data, which enables data custodians to conduct a post-generation risk assessment prior to releasing their synthetic datasets for downstream use. The datasets and codes for this study are available at https://github.com/PyCoder913/MIA-KDE.
- Abstract(参考訳): 合成データの使用は、実際のデータセットを共有するためのプライバシー保護の代替として、特に医療、ファイナンス、デモグラフィといった機密性の高い領域で人気が高まっている。
しかし、合成データのプライバシー保証は絶対的ではなく、生成装置の訓練に使用するデータセットに特定の個人が存在するかどうかを敵が判断するMIA(Message Inference attack)の影響を受けやすいままである。
本研究では,カーネル密度推定器 (KDE) を用いた表型合成データセットの会員開示リスクを定量的かつ効果的に定量化する手法を提案する。
我々のKDEベースのアプローチは、合成データとトレーニングレコード間の最も近い近傍距離の分布をモデル化し、メンバシップの確率的推定を可能にし、ROC曲線によるロバストな評価を可能にする。
トレーニングデータへの特権的アクセスを前提とした'True Distribution Attack' と,真のメンバシップラベルを使わずに補助データを使用するより現実的で実装可能な 'Realistic Attack' の2つの攻撃モデルを提案する。
4つの実世界のデータセットと6つの合成データ生成装置による実証評価により、計算コストのかかるシャドウモデルを必要とせずに、我々の手法が従来よりも高いF1スコアとよりシャープなリスク評価を一貫して達成できることが示されている。
提案手法は,合成データにおける会員開示リスクを定量化するための実践的枠組みと指標を提供し,データカストディアンは,下流での使用のために合成データセットをリリースする前に,世代後リスク評価を行うことができる。
この研究のデータセットとコードはhttps://github.com/PyCoder913/MIA-KDEで公開されている。
関連論文リスト
- RAPID: Risk of Attribute Prediction-Induced Disclosure in Synthetic Microdata [0.0]
本稿では,現実的な攻撃モデル下での推論的脆弱性を直接定量化する情報開示リスク尺度を提案する。
敵は、解放された合成データのみに基づいて予測モデルを訓練し、実際の個人の擬似識別器に適用する。
本報告では,攻撃者が真のクラスに対してどの程度の自信を持っているかを評価するためのベースライン正規化信頼度スコアを提案する。
論文 参考訳(メタデータ) (2026-02-09T22:03:11Z) - Valid Inference with Imperfect Synthetic Data [39.10587411316875]
モーメントの一般化法に基づく新しい推定器を提案する。
合成データのモーメント残差と実データのモーメント間の相互作用は、対象パラメータの推定を大幅に改善できることがわかった。
論文 参考訳(メタデータ) (2025-08-08T18:32:52Z) - Contrastive Learning-Based privacy metrics in Tabular Synthetic Datasets [40.67424997797513]
合成データは、医療や金融などの分野におけるプライバシー強化技術(PET)として注目されている。
類似度に基づく手法は、トレーニングと合成データとの類似度のレベルを求めることを目的としている。
攻撃に基づく手法は、合成データセットに対する故意の攻撃を誘発する。
論文 参考訳(メタデータ) (2025-02-19T15:52:23Z) - Multi-objective evolutionary GAN for tabular data synthesis [0.873811641236639]
合成データは統計機関や他の統計データ生成装置によるデータ共有において重要な役割を果たしている。
本稿では,SMOE-CTGAN(SMOE-CTGAN)を合成データとして提案する。
以上の結果から,SMOE-CTGANは,複数の国勢調査データセットに対して,異なるリスクと実用レベルを持つ合成データセットを発見可能であることが示唆された。
論文 参考訳(メタデータ) (2024-04-15T23:07:57Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - Statistical properties and privacy guarantees of an original
distance-based fully synthetic data generation method [0.0]
この研究は、多段階のフレームワークを用いて、公開リリース可能な合成データを生成する技術的実現可能性を示す。
新たな多段階合成データ生成フレームワークを用いて生成したデータの質を評価することで,Open-CESPイニシアチブの技術的,概念的健全性を実証した。
論文 参考訳(メタデータ) (2023-10-10T12:29:57Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Membership Inference Attacks against Synthetic Data through Overfitting
Detection [84.02632160692995]
我々は、攻撃者が基礎となるデータ分布についてある程度の知識を持っていると仮定する現実的なMIA設定について論じる。
生成モデルの局所的なオーバーフィッティングをターゲットとして,メンバシップを推論することを目的とした密度ベースMIAモデルであるDOMIASを提案する。
論文 参考訳(メタデータ) (2023-02-24T11:27:39Z) - Representative & Fair Synthetic Data [68.8204255655161]
公平性制約を自己監督学習プロセスに組み込むためのフレームワークを提示する。
私たちはuci成人国勢調査データセットの代表者および公正版を作成します。
我々は、代表的かつ公正な合成データを将来有望なビルディングブロックとみなし、歴史的世界ではなく、私たちが生きようとしている世界についてアルゴリズムを教える。
論文 参考訳(メタデータ) (2021-04-07T09:19:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。