論文の概要: Private Synthetic Data Generation in Small Memory
- arxiv url: http://arxiv.org/abs/2412.09756v1
- Date: Thu, 12 Dec 2024 23:24:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-16 15:37:48.783063
- Title: Private Synthetic Data Generation in Small Memory
- Title(参考訳): 小記憶におけるプライベートな合成データ生成
- Authors: Rayne Holland, Seyit Camtepe, Chandra Thapa, Jason Xue,
- Abstract要約: 資源効率を保ちながら差分プライバシーを確保する軽量な合成データ生成器を提案する。
$textsfPrivHP$は、入力ストリームの分布を保存するプライベートな合成データを生成する。
サイズ$n$ in $mathcalO((w+k)log (varepsilon n))$ space, $mathcalO(log (varepsilon n))$ update timeを処理し、$mathcalO(klog klog)でプライベートな合成データジェネレータを出力する。
- 参考スコア(独自算出の注目度): 8.913413757749066
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Protecting sensitive information on data streams is a critical challenge for modern systems. Current approaches to privacy in data streams follow two strategies. The first transforms the stream into a private sequence, enabling the use of non-private analyses but incurring high memory costs. The second uses compact data structures to create private summaries but restricts flexibility to predefined queries. To address these limitations, we propose $\textsf{PrivHP}$, a lightweight synthetic data generator that ensures differential privacy while being resource-efficient. $\textsf{PrivHP}$ generates private synthetic data that preserves the input stream's distribution, allowing flexible downstream analyses without additional privacy costs. It leverages a hierarchical decomposition of the domain, pruning low-frequency subdomains while preserving high-frequency ones in a privacy-preserving manner. To achieve memory efficiency in streaming contexts, $\textsf{PrivHP}$ uses private sketches to estimate subdomain frequencies without accessing the full dataset. $\textsf{PrivHP}$ is parameterized by a privacy budget $\varepsilon$, a pruning parameter $k$ and the sketch width $w$. It can process a dataset of size $n$ in $\mathcal{O}((w+k)\log (\varepsilon n))$ space, $\mathcal{O}(\log (\varepsilon n))$ update time, and outputs a private synthetic data generator in $\mathcal{O}(k\log k\log (\varepsilon n))$ time. Prior methods require $\Omega(n)$ space and construction time. Our evaluation uses the expected 1-Wasserstein distance between the sampler and the empirical distribution. Compared to state-of-the-art methods, we demonstrate that the additional cost in utility is inversely proportional to $k$ and $w$. This represents the first meaningful trade-off between performance and utility for private synthetic data generation.
- Abstract(参考訳): データストリームの機密情報を保護することは、現代のシステムにとって重要な課題である。
データストリームのプライバシに対する現在のアプローチは、2つの戦略に従う。
1つ目は、ストリームをプライベートシーケンスに変換し、非プライベート分析の使用を可能にするが、高いメモリコストを発生させる。
2つ目は、コンパクトなデータ構造を使用してプライベートな要約を生成するが、事前に定義されたクエリに柔軟性を制限している。
これらの制約に対処するために、リソース効率を保ちながら差分プライバシーを確保する軽量な合成データ生成器である$\textsf{PrivHP}$を提案する。
$\textsf{PrivHP}$は、入力ストリームの分布を保存するプライベートな合成データを生成する。
ドメインを階層的に分解し、低周波のサブドメインをプルーニングし、高周波のサブドメインをプライバシ保護の方法で保存する。
ストリーミングコンテキストにおけるメモリ効率を達成するために、$\textsf{PrivHP}$は、プライベートスケッチを使用して、完全なデータセットにアクセスすることなくサブドメイン頻度を推定する。
$\textsf{PrivHP}$は、プライバシ予算$\varepsilon$、プルーニングパラメータ$k$、スケッチ幅$w$によってパラメータ化されます。
サイズ$n$ in $\mathcal{O}((w+k)\log (\varepsilon n))$ space, $\mathcal{O}(\log (\varepsilon n))$ update timeを処理し、$\mathcal{O}(k\log k\log (\varepsilon n))$ timeでプライベートな合成データジェネレータを出力する。
以前の方法は、$\Omega(n)$ 空間と建設時間を必要とする。
本評価では, サンプル値と実験値との1-ワッサーシュタイン距離を推定した。
最先端の手法と比較して、ユーティリティの追加コストが$k$と$w$に逆比例することを示した。
これは、プライベートな合成データ生成におけるパフォーマンスとユーティリティの間の最初の意味のあるトレードオフである。
関連論文リスト
- Nonparametric MLE for Gaussian Location Mixtures: Certified Computation and Generic Behavior [28.71736321665378]
一次元のガウス的位置混合に対する非パラメトリック最大度推定器$widehatpi$について検討する。
We provide a algorithm that for small enough $varepsilon>0$ computes a $varepsilon$-approximation of $widehatpi in Wasserstein distance。
また、$k$-atomicと条件付けられた$widehatpi$の分布は、関連する2k-1$次元パラメータ空間上の密度を許容することを示す。
論文 参考訳(メタデータ) (2025-03-26T03:36:36Z) - Optimized Tradeoffs for Private Prediction with Majority Ensembling [59.99331405291337]
本稿では,データ依存型ランダム化応答行列(DaRRM)アルゴリズムを提案する。
DaRRMはデータ依存ノイズ関数$gamma$でパラメータ化され、全てのプライベートアルゴリズムのクラスに対して効率的なユーティリティ最適化を可能にする。
本稿では,DARRMが共通ベースラインよりも2倍のプライバシゲインを,固定ユーティリティで確実に享受していることを示す。
論文 参考訳(メタデータ) (2024-11-27T00:48:48Z) - Fast John Ellipsoid Computation with Differential Privacy Optimization [34.437362489150246]
高速なジョン楕円体計算のための微分プライベートアルゴリズムを提案する。
提案手法は, ノイズ摂動とスケッチ処理を統合し, スコアサンプリングを活用し, 効率とプライバシの両立を図る。
論文 参考訳(メタデータ) (2024-08-12T03:47:55Z) - Profile Reconstruction from Private Sketches [13.929335175122265]
$mathcalD$から$n$のアイテムの多重集合が与えられたとき、強調される再構成問題は、$t = 0, 1, dots, n$ に対して、$mathcalD$ のアイテムの分数 $vecf[t]$ を正確に $tfty 倍と見積もることである。
分散空間制約付き環境での個人プロファイル推定について検討し,マルチセットの更新可能なプライベートスケッチを維持したいと考える。
LPベースの手法の高速化方法を示します
論文 参考訳(メタデータ) (2024-06-03T09:51:28Z) - Online Differentially Private Synthetic Data Generation [10.177542186664503]
差分プライベートな合成データセットを毎回$t$で生成するオンラインアルゴリズムを開発した。
このアルゴリズムは、$O(log(t)t-1/d)$ for $dgeq 2$と$O(log4.5(t)t-1)$ for $d=1$の近似精度を1-ワッサーシュタイン距離で達成する。
論文 参考訳(メタデータ) (2024-02-12T19:21:14Z) - Estimation and Inference in Distributional Reinforcement Learning [28.253677740976197]
サイズ$widetilde Oleft(frac|mathcalS||mathcalA|epsilon2 (1-gamma)4right)$ suffices to ensure the Kolmogorov metric and total variation metric between $hatetapi$ and $etapi$ is below $epsilon$ with high probability。
以上の結果から,多種多様な統計的汎関数の統計的推測への統一的アプローチがもたらされた。
論文 参考訳(メタデータ) (2023-09-29T14:14:53Z) - Differentially Private Clustering in Data Streams [65.78882209673885]
オフラインのDPコアセットやクラスタリングアルゴリズムをブラックボックスとしてのみ必要とする,差分プライベートなストリーミングクラスタリングフレームワークを提案する。
我々のフレームワークはまた、連続的なリリース設定の下で微分プライベートであり、すなわち、全てのタイムスタンプにおけるアルゴリズムの出力の和は常に微分プライベートである。
論文 参考訳(メタデータ) (2023-07-14T16:11:22Z) - Private Isotonic Regression [54.32252900997422]
部分順序集合 (poset) $mathcalX$ と任意のリプシッツ損失関数に対する等調回帰の問題を考察する。
約$mathrmwidth(mathcalX) cdot log|mathcalX| / n$, ここで$mathrmwidth(mathcalX)$はポーズの幅である。
上記の境界は本質的に最良であることを示す。
論文 参考訳(メタデータ) (2022-10-27T05:08:07Z) - Smooth Anonymity for Sparse Graphs [69.1048938123063]
しかし、スパースデータセットを共有するという点では、差分プライバシーがプライバシのゴールドスタンダードとして浮上している。
本研究では、スムーズな$k$匿名性(スムーズな$k$匿名性)と、スムーズな$k$匿名性(スムーズな$k$匿名性)を提供する単純な大規模アルゴリズムを設計する。
論文 参考訳(メタデータ) (2022-07-13T17:09:25Z) - Learning a Single Neuron with Adversarial Label Noise via Gradient
Descent [50.659479930171585]
モノトン活性化に対する $mathbfxmapstosigma(mathbfwcdotmathbfx)$ の関数について検討する。
学習者の目標は仮説ベクトル $mathbfw$ that $F(mathbbw)=C, epsilon$ を高い確率で出力することである。
論文 参考訳(メタデータ) (2022-06-17T17:55:43Z) - Private Convex Optimization via Exponential Mechanism [16.867534746193833]
我々は、$ellcave2$ regularizerを$F(x)$に追加することで指数的なメカニズムを変更することで、既知の最適経験的リスクと人口損失の両方を$(epsilon,delta)$-DPで回復することを示した。
また、DP-SCOに対して$widetildeO(n min(d, n))クエリを使って$f_i(x)にこのメカニズムを実装する方法を示す。
論文 参考訳(メタデータ) (2022-03-01T06:51:03Z) - Sampling from Log-Concave Distributions with Infinity-Distance
Guarantees and Applications to Differentially Private Optimization [33.38289436686841]
本稿では,dis distributionO(varepsilon)$close から$ infinity-distance に点を出力するアルゴリズムを提案する。
また、ディキンウォークの「ソフトパイ」バージョンも提示する。
論文 参考訳(メタデータ) (2021-11-07T13:44:50Z) - Random matrices in service of ML footprint: ternary random features with
no performance loss [55.30329197651178]
我々は、$bf K$ の固有スペクトルが$bf w$ の i.d. 成分の分布とは独立であることを示す。
3次ランダム特徴(TRF)と呼ばれる新しいランダム手法を提案する。
提案したランダムな特徴の計算には乗算が不要であり、古典的なランダムな特徴に比べてストレージに$b$のコストがかかる。
論文 参考訳(メタデータ) (2021-10-05T09:33:49Z) - Threshold Phenomena in Learning Halfspaces with Massart Noise [56.01192577666607]
ガウス境界の下でのマスアートノイズ付きmathbbRd$におけるPAC学習ハーフスペースの問題について検討する。
この結果は,Massartモデルにおける学習ハーフスペースの複雑さを定性的に特徴づけるものである。
論文 参考訳(メタデータ) (2021-08-19T16:16:48Z) - Hiding Among the Clones: A Simple and Nearly Optimal Analysis of Privacy
Amplification by Shuffling [49.43288037509783]
ランダムシャッフルは、局所的ランダム化データの差分プライバシー保証を増幅する。
私たちの結果は、以前の作業よりも単純で、ほぼ同じ保証で差分プライバシーに拡張された新しいアプローチに基づいています。
論文 参考訳(メタデータ) (2020-12-23T17:07:26Z) - Optimal Mean Estimation without a Variance [103.26777953032537]
本研究では,データ生成分布の分散が存在しない環境での重み付き平均推定問題について検討する。
最小の信頼区間を$n,d,delta$の関数として得る推定器を設計する。
論文 参考訳(メタデータ) (2020-11-24T22:39:21Z) - BUDS: Balancing Utility and Differential Privacy by Shuffling [3.618133010429131]
シャッフルやtextitBUDS によるユーティリティと差分プライバシーのバランスをとることは、クラウドソースの統計データベースへのアプローチである。
損失推定法とリスク最小化法を併用したワンホット符号化と反復シャッフル法により,新しいアルゴリズムを提案する。
バランスのとれたユーティリティとプライバシの実証テストの間、BUDSは$epsilon = 0.02$を生成します。
論文 参考訳(メタデータ) (2020-06-07T11:39:13Z) - On the Complexity of Minimizing Convex Finite Sums Without Using the
Indices of the Individual Functions [62.01594253618911]
有限和の有限ノイズ構造を利用して、大域オラクルモデルの下での一致する$O(n2)$-upper境界を導出する。
同様のアプローチを踏襲したSVRGの新規な適応法を提案し、これはオラクルと互換性があり、$tildeO(n2+nsqrtL/mu)log (1/epsilon)$と$O(nsqrtL/epsilon)$, for $mu>0$と$mu=0$の複雑さ境界を実現する。
論文 参考訳(メタデータ) (2020-02-09T03:39:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。