論文の概要: DP-MERF: Differentially Private Mean Embeddings with Random Features for
Practical Privacy-Preserving Data Generation
- arxiv url: http://arxiv.org/abs/2002.11603v5
- Date: Tue, 1 Jun 2021 14:38:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-28 14:25:14.612384
- Title: DP-MERF: Differentially Private Mean Embeddings with Random Features for
Practical Privacy-Preserving Data Generation
- Title(参考訳): DP-MERF: 実用的プライバシー保護データ生成のためのランダムな特徴付き微分プライベート平均埋め込み
- Authors: Frederik Harder, Kamil Adamczewski, Mijung Park
- Abstract要約: カーネル平均埋め込みのランダムな特徴表現を用いた差分プライベートなデータ生成パラダイムを提案する。
ランダムな特徴表現を2つの重要な利点として活用する。
我々のアルゴリズムは、いくつかのデータセットでテストした場合に、既存の方法よりもはるかに優れたプライバシーとユーティリティのトレードオフを実現する。
- 参考スコア(独自算出の注目度): 11.312036995195594
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a differentially private data generation paradigm using random
feature representations of kernel mean embeddings when comparing the
distribution of true data with that of synthetic data. We exploit the random
feature representations for two important benefits. First, we require a minimal
privacy cost for training deep generative models. This is because unlike
kernel-based distance metrics that require computing the kernel matrix on all
pairs of true and synthetic data points, we can detach the data-dependent term
from the term solely dependent on synthetic data. Hence, we need to perturb the
data-dependent term only once and then use it repeatedly during the generator
training. Second, we can obtain an analytic sensitivity of the kernel mean
embedding as the random features are norm bounded by construction. This removes
the necessity of hyper-parameter search for a clipping norm to handle the
unknown sensitivity of a generator network. We provide several variants of our
algorithm, differentially-private mean embeddings with random features
(DP-MERF) to jointly generate labels and input features for datasets such as
heterogeneous tabular data and image data. Our algorithm achieves drastically
better privacy-utility trade-offs than existing methods when tested on several
datasets.
- Abstract(参考訳): 実データと合成データの分布を比較する際に,カーネル平均埋め込みのランダムな特徴表現を用いた差分プライベートなデータ生成パラダイムを提案する。
ランダムな特徴表現を2つの重要な利点として活用する。
まず、深層生成モデルのトレーニングには最小限のプライバシーコストが必要です。
これは、真のデータポイントと合成データポイントのすべてのペアでカーネルマトリックスを計算する必要があるカーネルベースの距離メトリクスとは異なり、データ依存項を合成データのみに依存する用語から切り離すことができるためである。
したがって、データ依存項を一度だけ摂動し、ジェネレータのトレーニング中に繰り返し使用する必要がある。
第二に、ランダムな特徴が構築によってノルムとなるため、カーネル平均埋め込みの解析感度を得ることができる。
これにより、ジェネレータネットワークの未知の感度を扱うために、クリッピングノルムのハイパーパラメータ検索の必要性がなくなる。
我々は,不均質な表データや画像データなどのデータセットのラベルと入力特徴を共同で生成するために,ランダムな特徴量(dp-merf)を持つ微分的平均埋め込みアルゴリズムを提案する。
このアルゴリズムは、複数のデータセットでテストした場合、既存の方法よりもはるかに優れたプライバシ利用トレードオフを実現する。
関連論文リスト
- Private prediction for large-scale synthetic text generation [28.488459921169905]
大規模言語モデル(LLM)を用いた微分プライベートテキスト生成手法を提案する。
プライベートな予測フレームワークでは、差分プライバシー保証を満たすために出力された合成データのみを必要とする。
論文 参考訳(メタデータ) (2024-07-16T18:28:40Z) - Optimal Unbiased Randomizers for Regression with Label Differential
Privacy [61.63619647307816]
ラベル差分プライバシ(DP)の制約の下で回帰モデルをトレーニングするためのラベルランダム化器の新たなファミリーを提案する。
これらのランダム化器は、いくつかのデータセット上で最先端のプライバシユーティリティトレードオフを実現することを実証する。
論文 参考訳(メタデータ) (2023-12-09T19:58:34Z) - Mean Estimation with User-level Privacy under Data Heterogeneity [54.07947274508013]
異なるユーザーは、非常に多くの異なるデータポイントを持っているかもしれない。
すべてのユーザが同じディストリビューションからサンプルを採取していると仮定することはできない。
本研究では,データの分布と量の両方でユーザデータが異なる異質なユーザデータの単純なモデルを提案する。
論文 参考訳(メタデータ) (2023-07-28T23:02:39Z) - Differentially Private Neural Tangent Kernels for Privacy-Preserving
Data Generation [32.83436754714798]
本研究は,$textitneural tangent kernels (NTKs)$,より正確には$textitempirical$ NTKs (e-NTKs) の機能の利用を検討する。
おそらく意外なことに、トレーニングされていないe-NTK機能の表現力は、公開データを使って事前トレーニングされた知覚機能から得られる機能と同等である。
論文 参考訳(メタデータ) (2023-03-03T03:00:49Z) - Smooth Anonymity for Sparse Graphs [69.1048938123063]
しかし、スパースデータセットを共有するという点では、差分プライバシーがプライバシのゴールドスタンダードとして浮上している。
本研究では、スムーズな$k$匿名性(スムーズな$k$匿名性)と、スムーズな$k$匿名性(スムーズな$k$匿名性)を提供する単純な大規模アルゴリズムを設計する。
論文 参考訳(メタデータ) (2022-07-13T17:09:25Z) - Uncertainty-Autoencoder-Based Privacy and Utility Preserving Data Type
Conscious Transformation [3.7315964084413173]
プライバシ・ユーティリティのトレードオフ問題に対処する逆学習フレームワークを2つの条件で提案する。
データタイプの無知な条件下では、プライバシメカニズムは、正確に1つのクラスを表す、カテゴリ機能の1ホットエンコーディングを提供する。
データ型認識条件下では、分類変数は各クラスごとに1つのスコアの集合で表される。
論文 参考訳(メタデータ) (2022-05-04T08:40:15Z) - Don't Generate Me: Training Differentially Private Generative Models
with Sinkhorn Divergence [73.14373832423156]
そこで我々はDP-Sinkhornを提案する。DP-Sinkhornは個人データからデータ分布を差分プライバシで学習するための新しいトランスポートベース生成手法である。
差分的にプライベートな生成モデルを訓練するための既存のアプローチとは異なり、我々は敵の目的に頼らない。
論文 参考訳(メタデータ) (2021-11-01T18:10:21Z) - Polynomial magic! Hermite polynomials for private data generation [6.7386666699567845]
カーネルとは、無限次元の特徴を考慮したもので、差分プライベートなデータ生成の文脈で扱うのが困難である。
本稿では,有限次元のランダムな特徴を用いたカーネル平均データ分布の埋め込みを近似し,その特性の感度を解析的に抽出する手法を提案する。
ランダムな特徴とは異なり、Hermiteの特徴は順序づけられており、低順序は高順序のものよりも分布に関するより多くの情報を含んでいる。
論文 参考訳(メタデータ) (2021-06-09T12:56:41Z) - Hiding Among the Clones: A Simple and Nearly Optimal Analysis of Privacy
Amplification by Shuffling [49.43288037509783]
ランダムシャッフルは、局所的ランダム化データの差分プライバシー保証を増幅する。
私たちの結果は、以前の作業よりも単純で、ほぼ同じ保証で差分プライバシーに拡張された新しいアプローチに基づいています。
論文 参考訳(メタデータ) (2020-12-23T17:07:26Z) - Federated Doubly Stochastic Kernel Learning for Vertically Partitioned
Data [93.76907759950608]
本稿では,垂直分割データに対する2倍のカーネル学習アルゴリズムを提案する。
本稿では,FDSKLがカーネルを扱う場合,最先端のフェデレーション学習手法よりもはるかに高速であることを示す。
論文 参考訳(メタデータ) (2020-08-14T05:46:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。