論文の概要: Rethinking Anonymity Claims in Synthetic Data Generation: A Model-Centric Privacy Attack Perspective
- arxiv url: http://arxiv.org/abs/2601.22434v1
- Date: Fri, 30 Jan 2026 00:57:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.136969
- Title: Rethinking Anonymity Claims in Synthetic Data Generation: A Model-Centric Privacy Attack Perspective
- Title(参考訳): 合成データ生成における匿名性主張の再考:モデル中心のプライバシ・アタックの観点から
- Authors: Georgi Ganev, Emiliano De Cristofaro,
- Abstract要約: 合成データを生成するための生成機械学習モデルを訓練することは、データ共有におけるプライバシーを高めるための一般的なアプローチとなっている。
これは一般的に機密性の高い個人情報を処理するため、トレーニングされたモデルまたは生成された合成匿名性は、プライバシー上のリスクを生じさせる可能性がある。
有意義な評価は、基礎となる生成モデルの能力と特性を考慮し、最先端のプライバシ攻撃に基礎を置く必要がある、と我々は主張する。
- 参考スコア(独自算出の注目度): 18.404146545866812
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training generative machine learning models to produce synthetic tabular data has become a popular approach for enhancing privacy in data sharing. As this typically involves processing sensitive personal information, releasing either the trained model or generated synthetic datasets can still pose privacy risks. Yet, recent research, commercial deployments, and privacy regulations like the General Data Protection Regulation (GDPR) largely assess anonymity at the level of an individual dataset. In this paper, we rethink anonymity claims about synthetic data from a model-centric perspective and argue that meaningful assessments must account for the capabilities and properties of the underlying generative model and be grounded in state-of-the-art privacy attacks. This perspective better reflects real-world products and deployments, where trained models are often readily accessible for interaction or querying. We interpret the GDPR's definitions of personal data and anonymization under such access assumptions to identify the types of identifiability risks that must be mitigated and map them to privacy attacks across different threat settings. We then argue that synthetic data techniques alone do not ensure sufficient anonymization. Finally, we compare the two mechanisms most commonly used alongside synthetic data -- Differential Privacy (DP) and Similarity-based Privacy Metrics (SBPMs) -- and argue that while DP can offer robust protections against identifiability risks, SBPMs lack adequate safeguards. Overall, our work connects regulatory notions of identifiability with model-centric privacy attacks, enabling more responsible and trustworthy regulatory assessment of synthetic data systems by researchers, practitioners, and policymakers.
- Abstract(参考訳): 合成表データを生成するための生成機械学習モデルを訓練することは、データ共有のプライバシーを高めるための一般的なアプローチとなっている。
これは一般的に機密性の高い個人情報を処理するため、トレーニングされたモデルまたは生成された合成データセットを公開してもプライバシー上のリスクが生じる可能性がある。
しかし、最近の研究、商業展開、General Data Protection Regulation (GDPR)のようなプライバシー規制は、個々のデータセットのレベルでの匿名性を大きく評価している。
本稿では、モデル中心の観点からの合成データに関する匿名性主張を再考し、意味のある評価は、基礎となる生成モデルの能力と性質を考慮し、最先端のプライバシ攻撃に基礎を置く必要があると論じる。
この視点は、実際の製品やデプロイメントをよりよく反映しており、トレーニングされたモデルは、対話やクエリに容易にアクセスすることができる。
このようなアクセス前提の下でGDPRの個人データと匿名化の定義を解釈し、緩和すべき識別可能性リスクのタイプを特定し、異なる脅威設定にわたるプライバシ攻撃にマッピングする。
そして、合成データ技術だけでは十分な匿名化を保証できないと論じる。
最後に、最も一般的に使用される2つのメカニズム(差分プライバシー(DP)と類似性ベースのプライバシメトリクス(SBPM))を比較し、DPは識別可能性リスクに対して堅牢な保護を提供することができるが、SBPMには適切な保護がない、と論じる。
全体として、我々の研究は、識別可能性という規制概念とモデル中心のプライバシー攻撃を結びつけ、研究者、専門家、政策立案者による合成データシステムのより責任と信頼性の高い規制評価を可能にします。
関連論文リスト
- Empirical Evaluation of Structured Synthetic Data Privacy Metrics: Novel experimental framework [34.56525983543448]
プライバシー強化技術として、合成データ生成が注目を集めている。
データプライバシの概念はいまだ解明されていないため、実践者が合成データが提供するプライバシ保護の程度を評価し、ベンチマークすることは困難である。
論文 参考訳(メタデータ) (2025-12-18T08:09:28Z) - How to DP-fy Your Data: A Practical Guide to Generating Synthetic Data With Differential Privacy [52.00934156883483]
Differential Privacy(DP)は、情報漏洩を推論し、制限するフレームワークである。
Differentially Private Synthetic Dataは、ソースデータの全体的なトレンドを保存する合成データを指す。
論文 参考訳(メタデータ) (2025-12-02T21:14:39Z) - Synth-MIA: A Testbed for Auditing Privacy Leakage in Tabular Data Synthesis [8.4361320391543]
タブラル生成モデルは、トレーニングデータに似た合成データセットを作成することによって、プライバシを保護するとしばしば主張される。
会員推論攻撃(MIA)は、最近、合成データのプライバシー漏洩を評価する方法として登場した。
合成データセットの最大プライバシー漏洩を推定するために、攻撃の集合をデプロイする統一的モデルに依存しない脅威フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-22T16:53:38Z) - On the MIA Vulnerability Gap Between Private GANs and Diffusion Models [51.53790101362898]
GAN(Generative Adversarial Networks)と拡散モデルが高品質な画像合成のための主要なアプローチとして登場している。
差分自己生成モデルが直面するプライバシーリスクの統一的および実証的分析について述べる。
論文 参考訳(メタデータ) (2025-09-03T14:18:22Z) - Privacy Auditing Synthetic Data Release through Local Likelihood Attacks [7.780592134085148]
遺伝子様比攻撃(Gen-LRA)
Gen-LRAは、サロゲートモデルによる合成データに対する局所確率比の推定において、テスト観測が与える影響を評価して攻撃を定式化する。
その結果、Gen-LRAは、合成データのリリースのためのプライバシ監査ツールとしての有効性を裏付けている。
論文 参考訳(メタデータ) (2025-08-28T18:27:40Z) - SafeSynthDP: Leveraging Large Language Models for Privacy-Preserving Synthetic Data Generation Using Differential Privacy [0.0]
差分プライバシー(DP)機構を用いた合成データセットを生成するための大規模言語モデル(Ms)の能力について検討する。
提案手法では,ラプラス分布やガウス分布を含むDPベースのノイズ注入法をデータ生成プロセスに組み込む。
次に、これらのDP強化合成データセットの有用性を、トレーニングされたMLモデルの性能と、元のデータでトレーニングされたモデルとを比較して評価する。
論文 参考訳(メタデータ) (2024-12-30T01:10:10Z) - Auditing and Generating Synthetic Data with Controllable Trust Trade-offs [54.262044436203965]
合成データセットとAIモデルを包括的に評価する総合監査フレームワークを導入する。
バイアスや差別の防止、ソースデータへの忠実性の確保、実用性、堅牢性、プライバシ保護などに焦点を当てている。
多様なユースケースにまたがる様々な生成モデルを監査することにより,フレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-21T09:03:18Z) - A Linear Reconstruction Approach for Attribute Inference Attacks against Synthetic Data [1.5293427903448022]
合成データに対する新しい属性推論攻撃を導入する。
攻撃は任意の記録でも極めて正確であることを示す。
次に、プライバシー保護と統計ユーティリティ保護のトレードオフを評価する。
論文 参考訳(メタデータ) (2023-01-24T14:56:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。