論文の概要: Differentially Private Low-dimensional Synthetic Data from High-dimensional Datasets
- arxiv url: http://arxiv.org/abs/2305.17148v3
- Date: Wed, 11 Dec 2024 16:38:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-12 13:58:56.328087
- Title: Differentially Private Low-dimensional Synthetic Data from High-dimensional Datasets
- Title(参考訳): 高次元データセットからの微分プライベート低次元合成データ
- Authors: Yiyun He, Thomas Strohmer, Roman Vershynin, Yizhe Zhu,
- Abstract要約: 本研究では,高次元データセットから低次元合成データを効率的に生成する微分プライベートアルゴリズムを提案する。
アルゴリズムの重要なステップは、ほぼ最適精度を持つプライベートプライマリコンポーネント分析(PCA)手順である。
- 参考スコア(独自算出の注目度): 11.802062948175479
- License:
- Abstract: Differentially private synthetic data provide a powerful mechanism to enable data analysis while protecting sensitive information about individuals. However, when the data lie in a high-dimensional space, the accuracy of the synthetic data suffers from the curse of dimensionality. In this paper, we propose a differentially private algorithm to generate low-dimensional synthetic data efficiently from a high-dimensional dataset with a utility guarantee with respect to the Wasserstein distance. A key step of our algorithm is a private principal component analysis (PCA) procedure with a near-optimal accuracy bound that circumvents the curse of dimensionality. Unlike the standard perturbation analysis, our analysis of private PCA works without assuming the spectral gap for the covariance matrix.
- Abstract(参考訳): 異なるプライベートな合成データは、個人に関する機密情報を保護しながらデータ分析を可能にする強力なメカニズムを提供する。
しかし、データが高次元空間にある場合、合成データの精度は次元性の呪いに苦しむ。
本稿では,ワッサーシュタイン距離に対する実用性を保証する高次元データセットから,低次元合成データを効率的に生成する微分プライベートアルゴリズムを提案する。
アルゴリズムの鍵となるステップは,主成分分析(PCA)手法であり,次元の呪いを回避できる近似的精度を持つ。
標準摂動解析とは異なり, 共分散行列のスペクトルギャップを仮定することなく, プライベートPCAの解析を行う。
関連論文リスト
- Differentially Private Sliced Inverse Regression: Minimax Optimality and
Algorithm [16.14032140601778]
十分な次元削減の文脈において、プライバシー問題に対処するために設計された最適微分プライベートアルゴリズムを提案する。
我々は、対数係数まで最小限の下位境界を達成できる微分プライベートアルゴリズムを開発した。
自然な拡張として、微分プライベートスパース主成分分析に類似した下界と上界を容易に提供できる。
論文 参考訳(メタデータ) (2024-01-16T06:47:43Z) - DP-PQD: Privately Detecting Per-Query Gaps In Synthetic Data Generated By Black-Box Mechanisms [17.562365686511818]
本稿では,DP-PQDという新しいフレームワークを提案する。このフレームワークは,プライベートデータセットと合成データセットの問合せ回答が,ユーザの指定しきい値内にあるかどうかを検出する。
提案手法は,クエリごとのクエリ数,総和,中央値のクエリに対してプライベートアルゴリズム群を提供し,その特性を分析し,実験的に評価する。
論文 参考訳(メタデータ) (2023-09-15T17:38:59Z) - Differentially Private Synthetic Data Using KD-Trees [11.96971298978997]
ノイズ摂動とともに空間分割技術を活用し,直観的かつ透過的なアルゴリズムを実現する。
我々は、$epsilon$-differentially private synthesis data generationのためのデータ独立アルゴリズムとデータ依存アルゴリズムの両方を提案する。
先行研究に対して実証的な実用性向上を示すとともに,実データセット上の下流分類タスクにおけるアルゴリズムの性能について考察する。
論文 参考訳(メタデータ) (2023-06-19T17:08:32Z) - On Differential Privacy and Adaptive Data Analysis with Bounded Space [76.10334958368618]
差分プライバシーと適応データ分析の2つの関連分野の空間複雑性について検討する。
差分プライバシーで効率的に解くために指数関数的に多くの空間を必要とする問題Pが存在することを示す。
アダプティブデータ分析の研究の行は、アダプティブクエリのシーケンスに応答するのに必要なサンプルの数を理解することに焦点を当てている。
論文 参考訳(メタデータ) (2023-02-11T14:45:31Z) - Statistical Theory of Differentially Private Marginal-based Data
Synthesis Algorithms [30.330715718619874]
国立標準技術研究所主催の総合データコンペティションにおける有望なパフォーマンスを実現するマージナルベース手法
実際には有望な性能にもかかわらず、境界に基づく手法の統計的性質は文献ではほとんど研究されていない。
論文 参考訳(メタデータ) (2023-01-21T01:32:58Z) - Utility Assessment of Synthetic Data Generation Methods [0.0]
完全合成データを生成する方法が,その実用性に相違があるかどうかを考察する。
ボード上の他の方法よりもパフォーマンスがよい方法がいくつかあります。
機械学習モデルのトレーニングに合成データを使用する場合、分類タスクに対して有望な結果が得られる。
論文 参考訳(メタデータ) (2022-11-23T11:09:52Z) - Private Set Generation with Discriminative Information [63.851085173614]
異なるプライベートなデータ生成は、データプライバシの課題に対する有望な解決策である。
既存のプライベートな生成モデルは、合成サンプルの有用性に苦慮している。
我々は,最先端アプローチのサンプルユーティリティを大幅に改善する,シンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2022-11-07T10:02:55Z) - DP2-Pub: Differentially Private High-Dimensional Data Publication with
Invariant Post Randomization [58.155151571362914]
本稿では,2つのフェーズで動作する差分プライベートな高次元データパブリッシング機構(DP2-Pub)を提案する。
属性をクラスタ内凝集度の高い低次元クラスタに分割し、クラスタ間の結合度を低くすることで、適切なプライバシ予算を得ることができる。
また、DP2-Pubメカニズムを、ローカルの差分プライバシーを満たす半正直なサーバでシナリオに拡張します。
論文 参考訳(メタデータ) (2022-08-24T17:52:43Z) - Sensitivity analysis in differentially private machine learning using
hybrid automatic differentiation [54.88777449903538]
感性分析のための新しいテクスチブリド自動識別システム(AD)を導入する。
これにより、ニューラルネットワークをプライベートデータ上でトレーニングするなど、任意の微分可能な関数合成の感度をモデル化できる。
当社のアプローチは,データ処理の設定において,プライバシ損失に関する原則的推論を可能にする。
論文 参考訳(メタデータ) (2021-07-09T07:19:23Z) - Sparse PCA via $l_{2,p}$-Norm Regularization for Unsupervised Feature
Selection [138.97647716793333]
再構成誤差を$l_2,p$ノルム正規化と組み合わせることで,単純かつ効率的な特徴選択手法を提案する。
提案する非教師付きモデルを解くための効率的な最適化アルゴリズムを提案し,アルゴリズムの収束と計算の複雑さを理論的に解析する。
論文 参考訳(メタデータ) (2020-12-29T04:08:38Z) - Asymptotic Analysis of an Ensemble of Randomly Projected Linear
Discriminants [94.46276668068327]
[1]では、ランダムに投影された線形判別式のアンサンブルを用いてデータセットを分類する。
我々は,計算コストのかかるクロスバリデーション推定器の代替として,誤分類確率の一貫した推定器を開発する。
また、実データと合成データの両方で投影次元を調整するための推定器の使用を実証する。
論文 参考訳(メタデータ) (2020-04-17T12:47:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。