論文の概要: PRIVET: Privacy Metric Based on Extreme Value Theory
- arxiv url: http://arxiv.org/abs/2510.24233v1
- Date: Tue, 28 Oct 2025 09:42:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:36.995873
- Title: PRIVET: Privacy Metric Based on Extreme Value Theory
- Title(参考訳): PRIVET:極値理論に基づくプライバシメトリクス
- Authors: Antoine Szatkownik, Aurélien Decelle, Beatriz Seoane, Nicolas Bereux, Léo Planche, Guillaume Charpiat, Burak Yelmen, Flora Jay, Cyril Furtlehner,
- Abstract要約: 深層生成モデルは、しばしば、遺伝配列、健康データ、より広範に、著作権、ライセンス、保護されたコンテンツなどの機密データに基づいて訓練される。
これにより、プライバシー保護のための合成データ、より具体的にはプライバシー漏洩に関する重要な懸念が持ち上がる。
本稿では,個別のプライバシリークスコアを合成サンプルに割り当てる,汎用的なサンプルベースモダリティ非依存アルゴリズムPRIVETを提案する。
- 参考スコア(独自算出の注目度): 8.447463478355845
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep generative models are often trained on sensitive data, such as genetic sequences, health data, or more broadly, any copyrighted, licensed or protected content. This raises critical concerns around privacy-preserving synthetic data, and more specifically around privacy leakage, an issue closely tied to overfitting. Existing methods almost exclusively rely on global criteria to estimate the risk of privacy failure associated to a model, offering only quantitative non interpretable insights. The absence of rigorous evaluation methods for data privacy at the sample-level may hinder the practical deployment of synthetic data in real-world applications. Using extreme value statistics on nearest-neighbor distances, we propose PRIVET, a generic sample-based, modality-agnostic algorithm that assigns an individual privacy leak score to each synthetic sample. We empirically demonstrate that PRIVET reliably detects instances of memorization and privacy leakage across diverse data modalities, including settings with very high dimensionality, limited sample sizes such as genetic data and even under underfitting regimes. We compare our method to existing approaches under controlled settings and show its advantage in providing both dataset level and sample level assessments through qualitative and quantitative outputs. Additionally, our analysis reveals limitations in existing computer vision embeddings to yield perceptually meaningful distances when identifying near-duplicate samples.
- Abstract(参考訳): 深層生成モデルは、しばしば、遺伝配列、健康データ、より広範に、著作権、ライセンス、保護されたコンテンツなどの機密データに基づいて訓練される。
これは、プライバシー保護のための合成データ、特にプライバシー漏洩に関する重要な懸念を提起する。
既存の方法は、モデルに関連するプライバシ障害のリスクを推定するために、ほとんどグローバルな基準にのみ依存しており、定量的な非解釈可能な洞察を提供するのみである。
サンプルレベルでのデータプライバシに関する厳密な評価方法がないことは、実世界のアプリケーションにおける合成データの実践的な展開を妨げる可能性がある。
近近距離の極値統計値を用いて,個々のプライバシリークスコアを合成サンプルに割り当てる汎用的なサンプルベースモダリティ非依存アルゴリズムPRIVETを提案する。
我々は、PRIVETが、非常に高次元な設定、遺伝的データのような限られたサンプルサイズ、さらには不適合な体制下で、様々なデータモダリティにわたる記憶とプライバシー漏洩のインスタンスを確実に検出できることを実証的に実証した。
本手法を制御された環境下での既存手法と比較し,定性的および定量的なアウトプットによるデータセットレベルとサンプルレベルのアセスメントの両面での優位性を示す。
さらに,既存のコンピュータビジョンの埋め込みにおいて,近距離サンプルを識別する際,知覚的に意味のある距離を得られる限界を明らかにした。
関連論文リスト
- Challenges in Enabling Private Data Valuation [17.450381366291754]
データアセスメント手法は、個々のトレーニング例がモデルの振る舞いにどのように貢献するかを定量化する。
評価スコアは、個人のデータがトレーニングに含まれていたか、異常な影響があったか、あるいはプロプライエタリなデータセットにどのような機密パターンが存在するかを明らかにすることができる。
プライバシーは基本的に、差分プライバシー(DP)の下でのバリュエーションユーティリティーと緊張関係にある
論文 参考訳(メタデータ) (2026-02-27T22:21:14Z) - Empirical Evaluation of Structured Synthetic Data Privacy Metrics: Novel experimental framework [34.56525983543448]
プライバシー強化技術として、合成データ生成が注目を集めている。
データプライバシの概念はいまだ解明されていないため、実践者が合成データが提供するプライバシ保護の程度を評価し、ベンチマークすることは困難である。
論文 参考訳(メタデータ) (2025-12-18T08:09:28Z) - How to DP-fy Your Data: A Practical Guide to Generating Synthetic Data With Differential Privacy [52.00934156883483]
Differential Privacy(DP)は、情報漏洩を推論し、制限するフレームワークである。
Differentially Private Synthetic Dataは、ソースデータの全体的なトレンドを保存する合成データを指す。
論文 参考訳(メタデータ) (2025-12-02T21:14:39Z) - Synth-MIA: A Testbed for Auditing Privacy Leakage in Tabular Data Synthesis [8.4361320391543]
タブラル生成モデルは、トレーニングデータに似た合成データセットを作成することによって、プライバシを保護するとしばしば主張される。
会員推論攻撃(MIA)は、最近、合成データのプライバシー漏洩を評価する方法として登場した。
合成データセットの最大プライバシー漏洩を推定するために、攻撃の集合をデプロイする統一的モデルに依存しない脅威フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-22T16:53:38Z) - On the MIA Vulnerability Gap Between Private GANs and Diffusion Models [51.53790101362898]
GAN(Generative Adversarial Networks)と拡散モデルが高品質な画像合成のための主要なアプローチとして登場している。
差分自己生成モデルが直面するプライバシーリスクの統一的および実証的分析について述べる。
論文 参考訳(メタデータ) (2025-09-03T14:18:22Z) - PASS: Private Attributes Protection with Stochastic Data Substitution [46.38957234350463]
下流タスクのためのデータユーティリティを維持しながら、データからデータを取り除き、プライベート属性を保護するための様々な研究が提案されている。
PASSは、新しい損失関数で訓練された特定の確率に応じて、元のサンプルを別のサンプルに置換するように設計されている。
顔画像、人間の活動感覚信号、音声記録データセットなど、さまざまなモダリティのデータセットに対するPASSの包括的評価は、PASSの有効性と一般化性を裏付けるものである。
論文 参考訳(メタデータ) (2025-06-08T22:48:07Z) - A False Sense of Privacy: Evaluating Textual Data Sanitization Beyond Surface-level Privacy Leakage [77.83757117924995]
我々は、データリリース時の個人のプライバシーリスクを定量化するために、再識別攻撃を評価する新しいフレームワークを提案する。
本手法は, 衛生データから年齢や物質使用履歴などのセンシティブな属性を推測するために, 一見無害な補助情報を利用できることを示す。
論文 参考訳(メタデータ) (2025-04-28T01:16:27Z) - Private Estimation when Data and Privacy Demands are Correlated [5.755004576310333]
微分プライバシーは、統計クエリーのプライバシーを確保するための現在のゴールドスタンダードである。
単変量データに対する経験的平均推定の問題とカテゴリーデータに対する周波数推定について考察する。
提案アルゴリズムは,PAC誤差と平均二乗誤差の両方で理論的性能を保証する。
論文 参考訳(メタデータ) (2024-07-15T22:46:02Z) - The Data Minimization Principle in Machine Learning [61.17813282782266]
データ最小化は、収集、処理、保持されるデータの量を減らすことを目的としている。
様々な国際データ保護規制によって支持されている。
しかし、厳密な定式化が欠如しているため、その実践的な実装は依然として課題である。
論文 参考訳(メタデータ) (2024-05-29T19:40:27Z) - Simulation-based Bayesian Inference from Privacy Protected Data [0.0]
プライバシ保護されたデータセットからのシミュレーションに基づく推論手法を提案する。
本稿では,感染性疾患モデルと通常の線形回帰モデルに基づく個別時系列データについて述べる。
論文 参考訳(メタデータ) (2023-10-19T14:34:17Z) - Membership Inference Attacks against Synthetic Data through Overfitting
Detection [84.02632160692995]
我々は、攻撃者が基礎となるデータ分布についてある程度の知識を持っていると仮定する現実的なMIA設定について論じる。
生成モデルの局所的なオーバーフィッティングをターゲットとして,メンバシップを推論することを目的とした密度ベースMIAモデルであるDOMIASを提案する。
論文 参考訳(メタデータ) (2023-02-24T11:27:39Z) - Private Set Generation with Discriminative Information [63.851085173614]
異なるプライベートなデータ生成は、データプライバシの課題に対する有望な解決策である。
既存のプライベートな生成モデルは、合成サンプルの有用性に苦慮している。
我々は,最先端アプローチのサンプルユーティリティを大幅に改善する,シンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2022-11-07T10:02:55Z) - On the Statistical Complexity of Estimation and Testing under Privacy Constraints [17.04261371990489]
差分プライバシー下での統計的テストのパワーをプラグアンドプレイ方式で特徴付ける方法を示す。
プライバシ保護のレベルが非常に高い場合にのみ、プライバシの維持が顕著なパフォーマンス低下をもたらすことを示す。
最後に,プライベート凸解法であるDP-SGLDアルゴリズムを高信頼度で最大推定できることを示した。
論文 参考訳(メタデータ) (2022-10-05T12:55:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。