論文の概要: Statistical Theory of Differentially Private Marginal-based Data
Synthesis Algorithms
- arxiv url: http://arxiv.org/abs/2301.08844v1
- Date: Sat, 21 Jan 2023 01:32:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-24 16:07:04.683696
- Title: Statistical Theory of Differentially Private Marginal-based Data
Synthesis Algorithms
- Title(参考訳): 微分的辺縁に基づくデータ合成アルゴリズムの統計理論
- Authors: Ximing Li, Chendi Wang, Guang Cheng
- Abstract要約: 国立標準技術研究所主催の総合データコンペティションにおける有望なパフォーマンスを実現するマージナルベース手法
実際には有望な性能にもかかわらず、境界に基づく手法の統計的性質は文献ではほとんど研究されていない。
- 参考スコア(独自算出の注目度): 30.330715718619874
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Marginal-based methods achieve promising performance in the synthetic data
competition hosted by the National Institute of Standards and Technology
(NIST). To deal with high-dimensional data, the distribution of synthetic data
is represented by a probabilistic graphical model (e.g., a Bayesian network),
while the raw data distribution is approximated by a collection of
low-dimensional marginals. Differential privacy (DP) is guaranteed by
introducing random noise to each low-dimensional marginal distribution. Despite
its promising performance in practice, the statistical properties of
marginal-based methods are rarely studied in the literature. In this paper, we
study DP data synthesis algorithms based on Bayesian networks (BN) from a
statistical perspective. We establish a rigorous accuracy guarantee for
BN-based algorithms, where the errors are measured by the total variation (TV)
distance or the $L^2$ distance. Related to downstream machine learning tasks,
an upper bound for the utility error of the DP synthetic data is also derived.
To complete the picture, we establish a lower bound for TV accuracy that holds
for every $\epsilon$-DP synthetic data generator.
- Abstract(参考訳): NIST(National Institute of Standards and Technology)が主催する合成データコンペティションで有望なパフォーマンスを達成する。
高次元データを扱うために、合成データの分布は確率的グラフィカルモデル(ベイズネットワークなど)で表され、生データの分布は低次元の辺縁の集合によって近似される。
差分プライバシー(DP)は、各低次元境界分布にランダムノイズを導入することで保証される。
実際には有望な性能にもかかわらず、境界に基づく手法の統計的性質は文献ではほとんど研究されていない。
本稿では,統計的観点から,ベイズネットワーク(BN)に基づくDPデータ合成アルゴリズムについて検討する。
BNアルゴリズムに対する厳密な精度保証を確立し、誤差は総変動(TV)距離または$L^2$距離で測定する。
下流機械学習タスクに関連して,DP合成データのユーティリティエラーに対する上限も導出する。
この画像を完成させるために、$\epsilon$-dp の合成データ生成器ごとに保持されるテレビの精度を低く設定する。
関連論文リスト
- Towards Theoretical Understandings of Self-Consuming Generative Models [56.84592466204185]
本稿では,自己消費ループ内で生成モデルを訓練する新たな課題に取り組む。
我々は,このトレーニングが将来のモデルで学習したデータ分布に与える影響を厳格に評価するための理論的枠組みを構築した。
カーネル密度推定の結果は,混合データトレーニングがエラー伝播に与える影響など,微妙な洞察を与える。
論文 参考訳(メタデータ) (2024-02-19T02:08:09Z) - Distributed Markov Chain Monte Carlo Sampling based on the Alternating
Direction Method of Multipliers [143.6249073384419]
本論文では,乗算器の交互方向法に基づく分散サンプリング手法を提案する。
我々は,アルゴリズムの収束に関する理論的保証と,その最先端性に関する実験的証拠の両方を提供する。
シミュレーションでは,線形回帰タスクとロジスティック回帰タスクにアルゴリズムを配置し,その高速収束を既存の勾配法と比較した。
論文 参考訳(メタデータ) (2024-01-29T02:08:40Z) - Differentially Private Synthetic Data Using KD-Trees [11.96971298978997]
ノイズ摂動とともに空間分割技術を活用し,直観的かつ透過的なアルゴリズムを実現する。
我々は、$epsilon$-differentially private synthesis data generationのためのデータ独立アルゴリズムとデータ依存アルゴリズムの両方を提案する。
先行研究に対して実証的な実用性向上を示すとともに,実データセット上の下流分類タスクにおけるアルゴリズムの性能について考察する。
論文 参考訳(メタデータ) (2023-06-19T17:08:32Z) - Distributed Semi-Supervised Sparse Statistical Inference [6.685997976921953]
縮退推定器は高次元モデルパラメータの統計的推測において重要なツールである。
従来の手法では、すべてのマシンで偏りのある推定器を計算する必要がある。
ラベル付きデータと非ラベル付きデータを統合した効率的なマルチラウンド分散脱バイアス推定器を開発した。
論文 参考訳(メタデータ) (2023-06-17T17:30:43Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Noise-Aware Statistical Inference with Differentially Private Synthetic
Data [0.0]
DP合成データをまるで本物であるかのように単純に分析することは、人口レベルの推定に有効でないことを示す。
本稿では,多重計算分野の合成データ解析技術と合成データ生成技術を組み合わせることで,この問題に対処する。
我々は,最大エントロピーの原理を用いたノイズ対応合成データ生成アルゴリズム NAPSU-MQ を開発した。
論文 参考訳(メタデータ) (2022-05-28T16:59:46Z) - Diverse Sample Generation: Pushing the Limit of Data-free Quantization [85.95032037447454]
本稿では,データ不要なポストトレーニング量子化と量子化学習のための汎用的な2次サンプル生成手法を提案する。
大規模な画像分類タスクでは、DSGは既存のデータ自由量子化手法より一貫して優れている。
論文 参考訳(メタデータ) (2021-09-01T07:06:44Z) - Learning while Respecting Privacy and Robustness to Distributional
Uncertainties and Adversarial Data [66.78671826743884]
分散ロバストな最適化フレームワークはパラメトリックモデルのトレーニングのために検討されている。
目的は、逆操作された入力データに対して頑健なトレーニングモデルを提供することである。
提案されたアルゴリズムは、オーバーヘッドがほとんどない堅牢性を提供する。
論文 参考訳(メタデータ) (2020-07-07T18:25:25Z) - One Step to Efficient Synthetic Data [9.3000873953175]
合成データに対する一般的なアプローチは、適合したモデルからサンプルをサンプリングすることである。
提案手法は非効率な推定器のサンプルとなり, 関節分布が真の分布と矛盾することを示す。
そこで本研究では,合成データの一般的な生成法を提案する。
論文 参考訳(メタデータ) (2020-06-03T17:12:11Z) - Distribution Approximation and Statistical Estimation Guarantees of
Generative Adversarial Networks [82.61546580149427]
GAN(Generative Adversarial Networks)は教師なし学習において大きな成功を収めている。
本稿では,H'older空間における密度データ分布推定のためのGANの近似と統計的保証を提供する。
論文 参考訳(メタデータ) (2020-02-10T16:47:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。