論文の概要: PRIVET: Privacy Metric Based on Extreme Value Theory
- arxiv url: http://arxiv.org/abs/2510.24233v1
- Date: Tue, 28 Oct 2025 09:42:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:36.995873
- Title: PRIVET: Privacy Metric Based on Extreme Value Theory
- Title(参考訳): PRIVET:極値理論に基づくプライバシメトリクス
- Authors: Antoine Szatkownik, Aurélien Decelle, Beatriz Seoane, Nicolas Bereux, Léo Planche, Guillaume Charpiat, Burak Yelmen, Flora Jay, Cyril Furtlehner,
- Abstract要約: 深層生成モデルは、しばしば、遺伝配列、健康データ、より広範に、著作権、ライセンス、保護されたコンテンツなどの機密データに基づいて訓練される。
これにより、プライバシー保護のための合成データ、より具体的にはプライバシー漏洩に関する重要な懸念が持ち上がる。
本稿では,個別のプライバシリークスコアを合成サンプルに割り当てる,汎用的なサンプルベースモダリティ非依存アルゴリズムPRIVETを提案する。
- 参考スコア(独自算出の注目度): 8.447463478355845
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep generative models are often trained on sensitive data, such as genetic sequences, health data, or more broadly, any copyrighted, licensed or protected content. This raises critical concerns around privacy-preserving synthetic data, and more specifically around privacy leakage, an issue closely tied to overfitting. Existing methods almost exclusively rely on global criteria to estimate the risk of privacy failure associated to a model, offering only quantitative non interpretable insights. The absence of rigorous evaluation methods for data privacy at the sample-level may hinder the practical deployment of synthetic data in real-world applications. Using extreme value statistics on nearest-neighbor distances, we propose PRIVET, a generic sample-based, modality-agnostic algorithm that assigns an individual privacy leak score to each synthetic sample. We empirically demonstrate that PRIVET reliably detects instances of memorization and privacy leakage across diverse data modalities, including settings with very high dimensionality, limited sample sizes such as genetic data and even under underfitting regimes. We compare our method to existing approaches under controlled settings and show its advantage in providing both dataset level and sample level assessments through qualitative and quantitative outputs. Additionally, our analysis reveals limitations in existing computer vision embeddings to yield perceptually meaningful distances when identifying near-duplicate samples.
- Abstract(参考訳): 深層生成モデルは、しばしば、遺伝配列、健康データ、より広範に、著作権、ライセンス、保護されたコンテンツなどの機密データに基づいて訓練される。
これは、プライバシー保護のための合成データ、特にプライバシー漏洩に関する重要な懸念を提起する。
既存の方法は、モデルに関連するプライバシ障害のリスクを推定するために、ほとんどグローバルな基準にのみ依存しており、定量的な非解釈可能な洞察を提供するのみである。
サンプルレベルでのデータプライバシに関する厳密な評価方法がないことは、実世界のアプリケーションにおける合成データの実践的な展開を妨げる可能性がある。
近近距離の極値統計値を用いて,個々のプライバシリークスコアを合成サンプルに割り当てる汎用的なサンプルベースモダリティ非依存アルゴリズムPRIVETを提案する。
我々は、PRIVETが、非常に高次元な設定、遺伝的データのような限られたサンプルサイズ、さらには不適合な体制下で、様々なデータモダリティにわたる記憶とプライバシー漏洩のインスタンスを確実に検出できることを実証的に実証した。
本手法を制御された環境下での既存手法と比較し,定性的および定量的なアウトプットによるデータセットレベルとサンプルレベルのアセスメントの両面での優位性を示す。
さらに,既存のコンピュータビジョンの埋め込みにおいて,近距離サンプルを識別する際,知覚的に意味のある距離を得られる限界を明らかにした。
関連論文リスト
- Synth-MIA: A Testbed for Auditing Privacy Leakage in Tabular Data Synthesis [8.4361320391543]
タブラル生成モデルは、トレーニングデータに似た合成データセットを作成することによって、プライバシを保護するとしばしば主張される。
会員推論攻撃(MIA)は、最近、合成データのプライバシー漏洩を評価する方法として登場した。
合成データセットの最大プライバシー漏洩を推定するために、攻撃の集合をデプロイする統一的モデルに依存しない脅威フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-22T16:53:38Z) - On the MIA Vulnerability Gap Between Private GANs and Diffusion Models [51.53790101362898]
GAN(Generative Adversarial Networks)と拡散モデルが高品質な画像合成のための主要なアプローチとして登場している。
差分自己生成モデルが直面するプライバシーリスクの統一的および実証的分析について述べる。
論文 参考訳(メタデータ) (2025-09-03T14:18:22Z) - PASS: Private Attributes Protection with Stochastic Data Substitution [46.38957234350463]
下流タスクのためのデータユーティリティを維持しながら、データからデータを取り除き、プライベート属性を保護するための様々な研究が提案されている。
PASSは、新しい損失関数で訓練された特定の確率に応じて、元のサンプルを別のサンプルに置換するように設計されている。
顔画像、人間の活動感覚信号、音声記録データセットなど、さまざまなモダリティのデータセットに対するPASSの包括的評価は、PASSの有効性と一般化性を裏付けるものである。
論文 参考訳(メタデータ) (2025-06-08T22:48:07Z) - A False Sense of Privacy: Evaluating Textual Data Sanitization Beyond Surface-level Privacy Leakage [77.83757117924995]
我々は、データリリース時の個人のプライバシーリスクを定量化するために、再識別攻撃を評価する新しいフレームワークを提案する。
本手法は, 衛生データから年齢や物質使用履歴などのセンシティブな属性を推測するために, 一見無害な補助情報を利用できることを示す。
論文 参考訳(メタデータ) (2025-04-28T01:16:27Z) - Private Estimation when Data and Privacy Demands are Correlated [5.755004576310333]
微分プライバシーは、統計クエリーのプライバシーを確保するための現在のゴールドスタンダードである。
単変量データに対する経験的平均推定の問題とカテゴリーデータに対する周波数推定について考察する。
提案アルゴリズムは,PAC誤差と平均二乗誤差の両方で理論的性能を保証する。
論文 参考訳(メタデータ) (2024-07-15T22:46:02Z) - Simulation-based Bayesian Inference from Privacy Protected Data [0.0]
プライバシ保護されたデータセットからのシミュレーションに基づく推論手法を提案する。
本稿では,感染性疾患モデルと通常の線形回帰モデルに基づく個別時系列データについて述べる。
論文 参考訳(メタデータ) (2023-10-19T14:34:17Z) - Private Set Generation with Discriminative Information [63.851085173614]
異なるプライベートなデータ生成は、データプライバシの課題に対する有望な解決策である。
既存のプライベートな生成モデルは、合成サンプルの有用性に苦慮している。
我々は,最先端アプローチのサンプルユーティリティを大幅に改善する,シンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2022-11-07T10:02:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。