論文の概要: SynQP: A Framework and Metrics for Evaluating the Quality and Privacy Risk of Synthetic Data
- arxiv url: http://arxiv.org/abs/2601.12124v1
- Date: Sat, 17 Jan 2026 17:51:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.471666
- Title: SynQP: A Framework and Metrics for Evaluating the Quality and Privacy Risk of Synthetic Data
- Title(参考訳): SynQP: 合成データの品質とプライバシリスクを評価するためのフレームワークとメトリクス
- Authors: Bing Hu, Yixin Li, Asma Bahamyirou, Helen Chen,
- Abstract要約: 合成データ生成におけるプライバシーベンチマークのためのオープンフレームワークであるSynQPを紹介する。
また、機械学習モデルの確率的性質を考慮に入れたプライバシー指標の必要性も強調します。
私たちの仕事は、プライバシー評価の透明性と信頼性を向上させる重要なツールを提供します。
- 参考スコア(独自算出の注目度): 4.73374389278596
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The use of synthetic data in health applications raises privacy concerns, yet the lack of open frameworks for privacy evaluations has slowed its adoption. A major challenge is the absence of accessible benchmark datasets for evaluating privacy risks, due to difficulties in acquiring sensitive data. To address this, we introduce SynQP, an open framework for benchmarking privacy in synthetic data generation (SDG) using simulated sensitive data, ensuring that original data remains confidential. We also highlight the need for privacy metrics that fairly account for the probabilistic nature of machine learning models. As a demonstration, we use SynQP to benchmark CTGAN and propose a new identity disclosure risk metric that offers a more accurate estimation of privacy risks compared to existing approaches. Our work provides a critical tool for improving the transparency and reliability of privacy evaluations, enabling safer use of synthetic data in health-related applications. % In our quality evaluations, non-private models achieved near-perfect machine-learning efficacy \(\ge0.97\). Our privacy assessments (Table II) reveal that DP consistently lowers both identity disclosure risk (SD-IDR) and membership-inference attack risk (SD-MIA), with all DP-augmented models staying below the 0.09 regulatory threshold. Code available at https://github.com/CAN-SYNH/SynQP
- Abstract(参考訳): 健康アプリケーションにおける合成データの使用は、プライバシー上の懸念を引き起こすが、プライバシー評価のためのオープンフレームワークの欠如は、採用を遅らせている。
重要な課題は、機密データの取得が困難であるため、プライバシーリスクを評価するためのアクセス可能なベンチマークデータセットがないことだ。
これを解決するために、シミュレートされた機密データを使用して合成データ生成(SDG)のプライバシーをベンチマークするオープンフレームワークであるSynQPを導入し、元のデータが機密であることを保証する。
また、機械学習モデルの確率的性質を考慮に入れたプライバシー指標の必要性も強調します。
実演として,我々はSynQPを用いてCTGANをベンチマークし,既存のアプローチと比較してより正確なプライバシーリスク推定を行う新たなアイデンティティ開示リスク指標を提案する。
我々の研究は、プライバシー評価の透明性と信頼性を向上させるための重要なツールを提供し、健康関連アプリケーションにおける合成データの安全な利用を可能にします。
%,非私的モデルでは,ほぼ完全な機械学習の有効性が得られた。
我々のプライバシーアセスメント(Table II)によると、DPはID開示リスク(SD-IDR)とメンバーシップ推論アタックリスク(SD-MIA)の両方を一貫して低下させ、DP強化モデルは0.09の規制基準以下にとどまっている。
https://github.com/CAN-SYNH/SynQP
関連論文リスト
- Empirical Evaluation of Structured Synthetic Data Privacy Metrics: Novel experimental framework [34.56525983543448]
プライバシー強化技術として、合成データ生成が注目を集めている。
データプライバシの概念はいまだ解明されていないため、実践者が合成データが提供するプライバシ保護の程度を評価し、ベンチマークすることは困難である。
論文 参考訳(メタデータ) (2025-12-18T08:09:28Z) - How to DP-fy Your Data: A Practical Guide to Generating Synthetic Data With Differential Privacy [52.00934156883483]
Differential Privacy(DP)は、情報漏洩を推論し、制限するフレームワークである。
Differentially Private Synthetic Dataは、ソースデータの全体的なトレンドを保存する合成データを指す。
論文 参考訳(メタデータ) (2025-12-02T21:14:39Z) - PRIVET: Privacy Metric Based on Extreme Value Theory [8.447463478355845]
深層生成モデルは、しばしば、遺伝配列、健康データ、より広範に、著作権、ライセンス、保護されたコンテンツなどの機密データに基づいて訓練される。
これにより、プライバシー保護のための合成データ、より具体的にはプライバシー漏洩に関する重要な懸念が持ち上がる。
本稿では,個別のプライバシリークスコアを合成サンプルに割り当てる,汎用的なサンプルベースモダリティ非依存アルゴリズムPRIVETを提案する。
論文 参考訳(メタデータ) (2025-10-28T09:42:03Z) - Synth-MIA: A Testbed for Auditing Privacy Leakage in Tabular Data Synthesis [8.4361320391543]
タブラル生成モデルは、トレーニングデータに似た合成データセットを作成することによって、プライバシを保護するとしばしば主張される。
会員推論攻撃(MIA)は、最近、合成データのプライバシー漏洩を評価する方法として登場した。
合成データセットの最大プライバシー漏洩を推定するために、攻撃の集合をデプロイする統一的モデルに依存しない脅威フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-22T16:53:38Z) - On the MIA Vulnerability Gap Between Private GANs and Diffusion Models [51.53790101362898]
GAN(Generative Adversarial Networks)と拡散モデルが高品質な画像合成のための主要なアプローチとして登場している。
差分自己生成モデルが直面するプライバシーリスクの統一的および実証的分析について述べる。
論文 参考訳(メタデータ) (2025-09-03T14:18:22Z) - Aim High, Stay Private: Differentially Private Synthetic Data Enables Public Release of Behavioral Health Information with High Utility [2.1715431485081593]
差別化プライバシ(DP)は、再識別リスクに対する正式な保証を提供する。
我々は、リングスタディ(LEMURS)を用いて測定されたライブ体験の第1相のDP合成データを生成する。
LEMURSデータセットの実際の使用状況から情報を得たフレームワークを用いて,合成データの有用性を評価する。
論文 参考訳(メタデータ) (2025-06-30T15:58:34Z) - A False Sense of Privacy: Evaluating Textual Data Sanitization Beyond Surface-level Privacy Leakage [77.83757117924995]
我々は、データリリース時の個人のプライバシーリスクを定量化するために、再識別攻撃を評価する新しいフレームワークを提案する。
本手法は, 衛生データから年齢や物質使用履歴などのセンシティブな属性を推測するために, 一見無害な補助情報を利用できることを示す。
論文 参考訳(メタデータ) (2025-04-28T01:16:27Z) - Communication-Efficient and Privacy-Adaptable Mechanism for Federated Learning [54.20871516148981]
通信効率・プライバシー適応メカニズム(CEPAM)について紹介する。
CEPAMは通信効率とプライバシー保護を同時に達成する。
我々は、CEPAMのプライバシー保証を理論的に分析し、CEPAMのユーザプライバシと正確性の間のトレードオフを調査する。
論文 参考訳(メタデータ) (2025-01-21T11:16:05Z) - Defining 'Good': Evaluation Framework for Synthetic Smart Meter Data [14.779917834583577]
スマートメーターデータセットのプライバシーリスクを評価するには,標準プライバシ攻撃手法が不十分であることを示す。
本稿では,トレーニングデータを不確実なアウトレーラで注入し,それらのアウトレーラに直接プライバシ攻撃を発生させる手法を提案する。
論文 参考訳(メタデータ) (2024-07-16T14:41:27Z) - Mitigating the Privacy Issues in Retrieval-Augmented Generation (RAG) via Pure Synthetic Data [51.41288763521186]
Retrieval-augmented Generation (RAG)は、外部知識ソースから取得した関連情報を統合することにより、言語モデルの出力を強化する。
RAGシステムは、プライベートデータを取得する際に深刻なプライバシーリスクに直面する可能性がある。
検索データに対するプライバシー保護の代替として,合成データを用いる方法を提案する。
論文 参考訳(メタデータ) (2024-06-20T22:53:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。