論文の概要: Differentially Private Synthetic Data Generation via
Lipschitz-Regularised Variational Autoencoders
- arxiv url: http://arxiv.org/abs/2304.11336v2
- Date: Thu, 13 Jul 2023 06:57:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-14 17:27:45.875064
- Title: Differentially Private Synthetic Data Generation via
Lipschitz-Regularised Variational Autoencoders
- Title(参考訳): lipschitz-regularized variational autoencoderを用いた微分プライベートな合成データ生成
- Authors: Benedikt Gro{\ss}, Gerhard Wunder
- Abstract要約: 生成モデルが個々のトレーニング記録の多くの詳細を記憶する傾向があることは、しばしば見落とされがちである。
本稿では,生成モデルにおける本質を直接活用するデータ生成手法について検討する。
- 参考スコア(独自算出の注目度): 3.7463972693041274
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Synthetic data has been hailed as the silver bullet for privacy preserving
data analysis. If a record is not real, then how could it violate a person's
privacy? In addition, deep-learning based generative models are employed
successfully to approximate complex high-dimensional distributions from data
and draw realistic samples from this learned distribution. It is often
overlooked though that generative models are prone to memorising many details
of individual training records and often generate synthetic data that too
closely resembles the underlying sensitive training data, hence violating
strong privacy regulations as, e.g., encountered in health care. Differential
privacy is the well-known state-of-the-art framework for guaranteeing
protection of sensitive individuals' data, allowing aggregate statistics and
even machine learning models to be released publicly without compromising
privacy. The training mechanisms however often add too much noise during the
training process, and thus severely compromise the utility of these private
models. Even worse, the tight privacy budgets do not allow for many training
epochs so that model quality cannot be properly controlled in practice. In this
paper we explore an alternative approach for privately generating data that
makes direct use of the inherent stochasticity in generative models, e.g.,
variational autoencoders. The main idea is to appropriately constrain the
continuity modulus of the deep models instead of adding another noise mechanism
on top. For this approach, we derive mathematically rigorous privacy guarantees
and illustrate its effectiveness with practical experiments.
- Abstract(参考訳): 合成データは、プライバシー保護データ分析のための銀の弾丸として称賛されている。
もしレコードが本物でなければ、どうやって人のプライバシーを侵害するのか?
さらに、深層学習に基づく生成モデルを用いて、データから複雑な高次元分布を近似し、この学習分布から現実的なサンプルを描画する。
しかし、生成モデルは個々のトレーニング記録の多くの詳細を記憶する傾向があり、基礎となる機密的なトレーニングデータに近づきすぎる合成データを生成するため、例えば医療で遭遇したような強力なプライバシー規制に違反することが多い。
differential privacy(ディファレンシャルプライバシ、ディファレンシャルプライバシ)は、機密性の高い個人のデータの保護を保証するための、よく知られている最先端フレームワークである。
しかしながら、トレーニングメカニズムはトレーニングプロセス中に多くのノイズを発生させることが多く、これらのプライベートモデルの有用性を著しく損なう。
さらに悪いことに、厳格なプライバシー予算は、モデル品質を実際に適切に制御できないように、多くのトレーニングエポックを許さない。
本稿では, 変動オートエンコーダなどの生成モデルにおいて, 固有確率を直接利用したデータを生成する方法について検討する。
主なアイデアは、その上に別のノイズ機構を追加するのではなく、深層モデルの連続性モジュラーを適切に制約することである。
このアプローチでは,数学的に厳密なプライバシ保証を導出し,その有効性を実用実験で示す。
関連論文リスト
- Pseudo-Probability Unlearning: Towards Efficient and Privacy-Preserving Machine Unlearning [59.29849532966454]
本稿では,PseudoProbability Unlearning (PPU)を提案する。
提案手法は,最先端の手法に比べて20%以上の誤りを忘れる改善を実現している。
論文 参考訳(メタデータ) (2024-11-04T21:27:06Z) - FT-PrivacyScore: Personalized Privacy Scoring Service for Machine Learning Participation [4.772368796656325]
実際には、制御されたデータアクセスは、多くの産業や研究環境でデータプライバシを保護する主要な方法である。
我々は,FT-PrivacyScoreのプロトタイプを開発し,モデル微調整作業に参加する際のプライバシーリスクを効率よく定量的に推定できることを実証した。
論文 参考訳(メタデータ) (2024-10-30T02:41:26Z) - Privacy-Preserving Student Learning with Differentially Private Data-Free Distillation [35.37005050907983]
プライバシーを保護したディープラーニングモデルを学習するための効果的な教師学生学習手法を提案する。
データプライバシを公開することなく、モデルトレーニングのために大量の合成データを生成することができる。
学生は、プライベートレーベルの監督の下で、合成データに基づいて訓練される。
論文 参考訳(メタデータ) (2024-09-19T01:00:18Z) - Learning Privacy-Preserving Student Networks via Discriminative-Generative Distillation [24.868697898254368]
ディープモデルは、実用デプロイメントにおいてプライバシー漏洩のリスクを引き起こす可能性がある。
本稿では,プライバシー保護深層モデル学習のための識別・生成蒸留手法を提案する。
提案手法は,プライベートデータに対するクエリコストと精度の低下を統一的に制御できる。
論文 参考訳(メタデータ) (2024-09-04T03:06:13Z) - Approximate, Adapt, Anonymize (3A): a Framework for Privacy Preserving
Training Data Release for Machine Learning [3.29354893777827]
データリリースフレームワークである3A(Approximate, Adapt, Anonymize)を導入し、機械学習のデータユーティリティを最大化する。
本稿では,実データセットと民生データセットでトレーニングしたモデルの性能指標の相違が最小限に抑えられることを示す実験的な証拠を示す。
論文 参考訳(メタデータ) (2023-07-04T18:37:11Z) - Membership Inference Attacks against Synthetic Data through Overfitting
Detection [84.02632160692995]
我々は、攻撃者が基礎となるデータ分布についてある程度の知識を持っていると仮定する現実的なMIA設定について論じる。
生成モデルの局所的なオーバーフィッティングをターゲットとして,メンバシップを推論することを目的とした密度ベースMIAモデルであるDOMIASを提案する。
論文 参考訳(メタデータ) (2023-02-24T11:27:39Z) - Large Scale Transfer Learning for Differentially Private Image
Classification [51.10365553035979]
Differential Privacy(DP)は、個別のサンプルレベルのプライバシで機械学習モデルをトレーニングするための正式なフレームワークを提供する。
DP-SGDを用いたプライベートトレーニングは、個々のサンプル勾配にノイズを注入することで漏れを防ぐ。
この結果は非常に魅力的であるが,DP-SGDを用いた大規模モデルのトレーニングの計算コストは,非プライベートトレーニングよりもかなり高い。
論文 参考訳(メタデータ) (2022-05-06T01:22:20Z) - Just Fine-tune Twice: Selective Differential Privacy for Large Language
Models [69.66654761324702]
本稿では,大規模なトランスフォーマーベース言語モデルのためのSDPを実現するための,シンプルで効果的なジャストファイントゥンツースプライバシ機構を提案する。
実験により, カナリア挿入攻撃に対して頑健でありながら, 高い性能が得られた。
論文 参考訳(メタデータ) (2022-04-15T22:36:55Z) - Don't Generate Me: Training Differentially Private Generative Models
with Sinkhorn Divergence [73.14373832423156]
そこで我々はDP-Sinkhornを提案する。DP-Sinkhornは個人データからデータ分布を差分プライバシで学習するための新しいトランスポートベース生成手法である。
差分的にプライベートな生成モデルを訓練するための既存のアプローチとは異なり、我々は敵の目的に頼らない。
論文 参考訳(メタデータ) (2021-11-01T18:10:21Z) - P3GM: Private High-Dimensional Data Release via Privacy Preserving
Phased Generative Model [23.91327154831855]
本稿では,プライバシ保護型位相生成モデル(P3GM)を提案する。
P3GMは2段階の学習プロセスを採用し、ノイズに対して堅牢にし、学習効率を向上させる。
最先端の手法と比較して、生成したサンプルはノイズが少なく、データ多様性の観点からも元のデータに近いように見える。
論文 参考訳(メタデータ) (2020-06-22T09:47:54Z) - Differentially Private Federated Learning with Laplacian Smoothing [72.85272874099644]
フェデレートラーニングは、ユーザ間でプライベートデータを共有せずに、協調的にモデルを学習することで、データのプライバシを保護することを目的としている。
敵は、リリースしたモデルを攻撃することによって、プライベートトレーニングデータを推測することができる。
差別化プライバシは、トレーニングされたモデルの正確性や実用性を著しく低下させる価格で、このような攻撃に対する統計的保護を提供する。
論文 参考訳(メタデータ) (2020-05-01T04:28:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。