論文の概要: P3GM: Private High-Dimensional Data Release via Privacy Preserving
Phased Generative Model
- arxiv url: http://arxiv.org/abs/2006.12101v4
- Date: Mon, 7 Mar 2022 11:56:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-18 05:40:35.777699
- Title: P3GM: Private High-Dimensional Data Release via Privacy Preserving
Phased Generative Model
- Title(参考訳): p3gm:プライバシ保護段階生成モデルによるプライベートな高次元データリリース
- Authors: Shun Takagi, Tsubasa Takahashi, Yang Cao, Masatoshi Yoshikawa
- Abstract要約: 本稿では,プライバシ保護型位相生成モデル(P3GM)を提案する。
P3GMは2段階の学習プロセスを採用し、ノイズに対して堅牢にし、学習効率を向上させる。
最先端の手法と比較して、生成したサンプルはノイズが少なく、データ多様性の観点からも元のデータに近いように見える。
- 参考スコア(独自算出の注目度): 23.91327154831855
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: How can we release a massive volume of sensitive data while mitigating
privacy risks? Privacy-preserving data synthesis enables the data holder to
outsource analytical tasks to an untrusted third party. The state-of-the-art
approach for this problem is to build a generative model under differential
privacy, which offers a rigorous privacy guarantee. However, the existing
method cannot adequately handle high dimensional data. In particular, when the
input dataset contains a large number of features, the existing techniques
require injecting a prohibitive amount of noise to satisfy differential
privacy, which results in the outsourced data analysis meaningless. To address
the above issue, this paper proposes privacy-preserving phased generative model
(P3GM), which is a differentially private generative model for releasing such
sensitive data. P3GM employs the two-phase learning process to make it robust
against the noise, and to increase learning efficiency (e.g., easy to
converge). We give theoretical analyses about the learning complexity and
privacy loss in P3GM. We further experimentally evaluate our proposed method
and demonstrate that P3GM significantly outperforms existing solutions.
Compared with the state-of-the-art methods, our generated samples look fewer
noises and closer to the original data in terms of data diversity. Besides, in
several data mining tasks with synthesized data, our model outperforms the
competitors in terms of accuracy.
- Abstract(参考訳): プライバシーのリスクを軽減しながら、大量の機密データをどうやってリリースできるのか?
プライバシ保護データ合成により、データ保持者は、信頼できないサードパーティに分析タスクをアウトソースすることができる。
この問題に対する最先端のアプローチは、厳格なプライバシー保証を提供する差分プライバシーの下で生成モデルを構築することだ。
しかし,既存の手法では高次元データを適切に扱えない。
特に、入力データセットに多数の機能が含まれている場合、既存の手法では、差分プライバシーを満たすために、禁止された量のノイズを注入する必要があるため、アウトソースされたデータ分析は無意味である。
そこで本研究では,プライバシ保護型位相生成モデル(P3GM)を提案する。
p3gmは2相学習プロセスを採用し、雑音に対して頑健になり、学習効率を高める(例えば、収束しやすい)。
P3GMの学習複雑性とプライバシー損失に関する理論的解析を行った。
さらに,提案手法を実験的に評価し,P3GMが既存のソリューションよりも優れていることを示す。
最新の手法と比較すると、生成したサンプルはノイズが少なく、データ多様性の観点から元のデータに近い。
さらに, 合成データを用いたデータマイニング作業では, 精度の点で, 競合他社よりも優れていた。
関連論文リスト
- Federated Learning Empowered by Generative Content [55.576885852501775]
フェデレートラーニング(FL)は、プライバシ保護方法でモデルのトレーニングに分散プライベートデータを活用可能にする。
本稿では,FedGCと呼ばれる新しいFLフレームワークを提案する。
我々は、さまざまなベースライン、データセット、シナリオ、モダリティをカバーする、FedGCに関する体系的な実証的研究を行う。
論文 参考訳(メタデータ) (2023-12-10T07:38:56Z) - A Unified View of Differentially Private Deep Generative Modeling [60.72161965018005]
プライバシー上の懸念のあるデータには、データアクセスとデータ共有を頻繁に禁止する厳格な規制が伴う。
これらの障害を克服することは、プライバシーに敏感なデータを含む多くの現実世界のアプリケーションシナリオにおいて、技術的進歩の鍵となる。
差分的プライベート(DP)データパブリッシングは、データの衛生化された形式のみを公開する、魅力的なソリューションを提供する。
論文 参考訳(メタデータ) (2023-09-27T14:38:16Z) - Approximate, Adapt, Anonymize (3A): a Framework for Privacy Preserving
Training Data Release for Machine Learning [3.29354893777827]
データリリースフレームワークである3A(Approximate, Adapt, Anonymize)を導入し、機械学習のデータユーティリティを最大化する。
本稿では,実データセットと民生データセットでトレーニングしたモデルの性能指標の相違が最小限に抑えられることを示す実験的な証拠を示す。
論文 参考訳(メタデータ) (2023-07-04T18:37:11Z) - Differentially Private Synthetic Data Generation via
Lipschitz-Regularised Variational Autoencoders [3.7463972693041274]
生成モデルが個々のトレーニング記録の多くの詳細を記憶する傾向があることは、しばしば見落とされがちである。
本稿では,生成モデルにおける本質を直接活用するデータ生成手法について検討する。
論文 参考訳(メタデータ) (2023-04-22T07:24:56Z) - Membership Inference Attacks against Synthetic Data through Overfitting
Detection [84.02632160692995]
我々は、攻撃者が基礎となるデータ分布についてある程度の知識を持っていると仮定する現実的なMIA設定について論じる。
生成モデルの局所的なオーバーフィッティングをターゲットとして,メンバシップを推論することを目的とした密度ベースMIAモデルであるDOMIASを提案する。
論文 参考訳(メタデータ) (2023-02-24T11:27:39Z) - Private Set Generation with Discriminative Information [63.851085173614]
異なるプライベートなデータ生成は、データプライバシの課題に対する有望な解決策である。
既存のプライベートな生成モデルは、合成サンプルの有用性に苦慮している。
我々は,最先端アプローチのサンプルユーティリティを大幅に改善する,シンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2022-11-07T10:02:55Z) - DP2-Pub: Differentially Private High-Dimensional Data Publication with
Invariant Post Randomization [58.155151571362914]
本稿では,2つのフェーズで動作する差分プライベートな高次元データパブリッシング機構(DP2-Pub)を提案する。
属性をクラスタ内凝集度の高い低次元クラスタに分割し、クラスタ間の結合度を低くすることで、適切なプライバシ予算を得ることができる。
また、DP2-Pubメカニズムを、ローカルの差分プライバシーを満たす半正直なサーバでシナリオに拡張します。
論文 参考訳(メタデータ) (2022-08-24T17:52:43Z) - You Are What You Write: Preserving Privacy in the Era of Large Language
Models [2.3431670397288005]
本稿では,様々な人気モデルを用いて,事前学習された表現に符号化された個人情報の範囲について,実証的研究を行う。
モデルの複雑さ,事前学習に使用するデータ量,およびデータ漏洩との間には,正の相関関係を示す。
論文 参考訳(メタデータ) (2022-04-20T11:12:53Z) - Just Fine-tune Twice: Selective Differential Privacy for Large Language
Models [69.66654761324702]
本稿では,大規模なトランスフォーマーベース言語モデルのためのSDPを実現するための,シンプルで効果的なジャストファイントゥンツースプライバシ機構を提案する。
実験により, カナリア挿入攻撃に対して頑健でありながら, 高い性能が得られた。
論文 参考訳(メタデータ) (2022-04-15T22:36:55Z) - PrivGen: Preserving Privacy of Sequences Through Data Generation [14.579475552088688]
シークエンシャルデータは、研究の基盤として機能し、プロセスの改善につながる可能性がある。
このようなデータへのアクセスと利用は、通常、ユーザーのプライバシーを侵害する懸念のために制限されるか、まったく許可されない。
そこで我々はPrivGenを提案する。PrivGenは、ソースデータのパターンと特徴を保守するデータを生成する革新的な方法である。
論文 参考訳(メタデータ) (2020-02-23T05:43:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。