論文の概要: Private Synthetic Data Generation in Small Memory
- arxiv url: http://arxiv.org/abs/2412.09756v2
- Date: Thu, 27 Feb 2025 00:58:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-28 14:52:09.068292
- Title: Private Synthetic Data Generation in Small Memory
- Title(参考訳): 小記憶におけるプライベートな合成データ生成
- Authors: Rayne Holland, Seyit Camtepe, Chandra Thapa, Jason Xue,
- Abstract要約: $mathttPrivHP$は、テキスト差分プライバシーを保証する軽量な合成データジェネレータである。
階層の深さ、ノイズの追加、低周波のプルーニングのバランスを保ちながら、頻繁なノイズを保っている。
- 参考スコア(独自算出の注目度): 8.913413757749066
- License:
- Abstract: We propose $\mathtt{PrivHP}$, a lightweight synthetic data generator with \textit{differential privacy} guarantees. $\mathtt{PrivHP}$ uses a novel hierarchical decomposition that approximates the input's cumulative distribution function (CDF) in bounded memory. It balances hierarchy depth, noise addition, and pruning of low-frequency subdomains while preserving frequent ones. Private sketches estimate subdomain frequencies efficiently without full data access. A key feature is the pruning parameter $k$, which controls the trade-off between space and utility. We define the skew measure $\mathtt{tail}_k$, capturing all but the top $k$ subdomain frequencies. Given a dataset $\mathcal{X}$, $\mathtt{PrivHP}$ uses $M=\mathcal{O}(k\log^2 |X|)$ space and, for input domain $\Omega = [0,1]$, ensures $\varepsilon$-differential privacy. It yields a generator with expected Wasserstein distance: \[ \mathcal{O}\left(\frac{\log^2 M}{\varepsilon n} + \frac{||\mathtt{tail}_k(\mathcal{X})||_1}{M n}\right) \] from the empirical distribution. This parameterized trade-off offers a level of flexibility unavailable in prior work. We also provide interpretable utility bounds that account for hierarchy depth, privacy noise, pruning, and frequency estimation errors.
- Abstract(参考訳): 我々は,軽量な合成データ生成器である$\mathtt{PrivHP}$を提案する。
$\mathtt{PrivHP}$は、境界メモリにおける入力の累積分布関数(CDF)を近似する新しい階層分解を使用する。
階層の深さ、ノイズの追加、低周波サブドメインのプルーニングのバランスをとり、頻繁に保存する。
プライベートスケッチは、完全なデータアクセスなしに、サブドメインの周波数を効率的に推定する。
重要な機能はpruningパラメータ$k$で、スペースとユーティリティ間のトレードオフを制御する。
skew measure $\mathtt{tail}_k$を定義し、上位の$k$サブドメイン周波数を除くすべての値をキャプチャする。
データセット $\mathcal{X}$, $\matht{PrivHP}$ use $M=\mathcal{O}(k\log^2 |X|)$ space と入力ドメイン $\Omega = [0,1]$ が与えられた場合、$\varepsilon$-differential privacy が保証される。
予想されるワッサーシュタイン距離を持つジェネレータが得られる: \[ \mathcal{O}\left(\frac{\log^2 M}{\varepsilon n} + \frac{|\matht{tail}_k(\mathcal{X})||_1}{M n}\right) \] 経験分布から。
このパラメータ化されたトレードオフは、以前の作業では利用できないレベルの柔軟性を提供します。
また、階層化深度、プライバシーノイズ、プルーニング、周波数推定誤差を考慮に入れた解釈可能なユーティリティ境界も提供する。
関連論文リスト
- Optimized Tradeoffs for Private Prediction with Majority Ensembling [59.99331405291337]
本稿では,データ依存型ランダム化応答行列(DaRRM)アルゴリズムを提案する。
DaRRMはデータ依存ノイズ関数$gamma$でパラメータ化され、全てのプライベートアルゴリズムのクラスに対して効率的なユーティリティ最適化を可能にする。
本稿では,DARRMが共通ベースラインよりも2倍のプライバシゲインを,固定ユーティリティで確実に享受していることを示す。
論文 参考訳(メタデータ) (2024-11-27T00:48:48Z) - Fast John Ellipsoid Computation with Differential Privacy Optimization [34.437362489150246]
高速なジョン楕円体計算のための微分プライベートアルゴリズムを提案する。
提案手法は, ノイズ摂動とスケッチ処理を統合し, スコアサンプリングを活用し, 効率とプライバシの両立を図る。
論文 参考訳(メタデータ) (2024-08-12T03:47:55Z) - Online Differentially Private Synthetic Data Generation [10.177542186664503]
差分プライベートな合成データセットを毎回$t$で生成するオンラインアルゴリズムを開発した。
このアルゴリズムは、$O(log(t)t-1/d)$ for $dgeq 2$と$O(log4.5(t)t-1)$ for $d=1$の近似精度を1-ワッサーシュタイン距離で達成する。
論文 参考訳(メタデータ) (2024-02-12T19:21:14Z) - Scaling Up Differentially Private LASSO Regularized Logistic Regression
via Faster Frank-Wolfe Iterations [51.14495595270775]
我々は,Frank-Wolfeアルゴリズムを$L_1$のペナル化線形回帰に適応させ,スパース入力を認識し,有効利用する。
この方法では,プライバシパラメータ$epsilon$の値とデータセットの分散度に応じて,最大2,200times$の係数でランタイムを削減できることを示す。
論文 参考訳(メタデータ) (2023-10-30T19:52:43Z) - Differentially Private Clustering in Data Streams [65.78882209673885]
オフラインのDPコアセットやクラスタリングアルゴリズムをブラックボックスとしてのみ必要とする,差分プライベートなストリーミングクラスタリングフレームワークを提案する。
我々のフレームワークはまた、連続的なリリース設定の下で微分プライベートであり、すなわち、全てのタイムスタンプにおけるアルゴリズムの出力の和は常に微分プライベートである。
論文 参考訳(メタデータ) (2023-07-14T16:11:22Z) - Smooth Anonymity for Sparse Graphs [69.1048938123063]
しかし、スパースデータセットを共有するという点では、差分プライバシーがプライバシのゴールドスタンダードとして浮上している。
本研究では、スムーズな$k$匿名性(スムーズな$k$匿名性)と、スムーズな$k$匿名性(スムーズな$k$匿名性)を提供する単純な大規模アルゴリズムを設計する。
論文 参考訳(メタデータ) (2022-07-13T17:09:25Z) - Frequency Estimation Under Multiparty Differential Privacy: One-shot and
Streaming [10.952006057356714]
プライバシと通信の制約下での周波数推定の基本的問題について検討し,そのデータを$k$のパーティ間で分散する。
私たちは、ローカルディファレンシャルプライバシ(LDP)と(分散)ディファレンシャルプライバシよりも一般的なマルチパーティディファレンシャルプライバシ(MDP)のモデルを採用しています。
我々のプロトコルは、より厳密な2つの制約によって許容可能な最適性(対数因子まで)を達成する。
論文 参考訳(メタデータ) (2021-04-05T08:15:20Z) - Learning with User-Level Privacy [61.62978104304273]
ユーザレベルの差分プライバシー制約下での学習課題を,アルゴリズムを用いて解析する。
個々のサンプルのプライバシーのみを保証するのではなく、ユーザレベルのdpはユーザの貢献全体を保護します。
プライバシコストが$tau$に比例した$K$適応的に選択されたクエリのシーケンスにプライベートに答えるアルゴリズムを導き出し、私たちが検討する学習タスクを解決するためにそれを適用します。
論文 参考訳(メタデータ) (2021-02-23T18:25:13Z) - Hiding Among the Clones: A Simple and Nearly Optimal Analysis of Privacy
Amplification by Shuffling [49.43288037509783]
ランダムシャッフルは、局所的ランダム化データの差分プライバシー保証を増幅する。
私たちの結果は、以前の作業よりも単純で、ほぼ同じ保証で差分プライバシーに拡張された新しいアプローチに基づいています。
論文 参考訳(メタデータ) (2020-12-23T17:07:26Z) - BUDS: Balancing Utility and Differential Privacy by Shuffling [3.618133010429131]
シャッフルやtextitBUDS によるユーティリティと差分プライバシーのバランスをとることは、クラウドソースの統計データベースへのアプローチである。
損失推定法とリスク最小化法を併用したワンホット符号化と反復シャッフル法により,新しいアルゴリズムを提案する。
バランスのとれたユーティリティとプライバシの実証テストの間、BUDSは$epsilon = 0.02$を生成します。
論文 参考訳(メタデータ) (2020-06-07T11:39:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。