論文の概要: Generating Synthetic Data with Locally Estimated Distributions for Disclosure Control
- arxiv url: http://arxiv.org/abs/2210.00884v2
- Date: Sat, 15 Feb 2025 02:27:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:04:10.524710
- Title: Generating Synthetic Data with Locally Estimated Distributions for Disclosure Control
- Title(参考訳): 情報開示制御のための局所的推定分布を用いた合成データの生成
- Authors: Ali Furkan Kalay,
- Abstract要約: 本稿では,合成データセットの外部観測によるプライバシーリスクを軽減するための新しいアプローチを提案する。
ローカライズ・リサンプラー(LR)は、アウトラヤ駆動による開示リスクを効果的に軽減する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Sensitive datasets are often underutilized in research and industry due to privacy concerns, limiting the potential of valuable data-driven insights. Synthetic data generation presents a promising solution to address this challenge by balancing privacy protection with data utility. This paper introduces a new approach to mitigate privacy risks associated with outlier observations in synthetic datasets: the Local Resampler (LR). The LR leverages the $k$-nearest neighbors algorithm to generate synthetic data while minimizing disclosure risks by underrepresenting outliers, even when they are not detectable in marginal distributions. Theoretical and empirical analyses demonstrate that the LR effectively mitigates outlier-driven disclosure risks, and accurately replicates multimodal, skewed, and non-convex support distributions. The semiparametric nature of the LR ensures a low computational burden and works efficiently even with small samples. By parameterizing the balance between privacy risks and data utility, this approach promotes broader access to sensitive datasets for research.
- Abstract(参考訳): 敏感なデータセットは、プライバシー上の懸念から研究や業界では利用されていないことが多く、貴重なデータ駆動の洞察の可能性を制限している。
合成データ生成は、プライバシ保護とデータユーティリティのバランスをとることで、この問題に対処する有望なソリューションを提供する。
本稿では,合成データセットの外部観測に伴うプライバシーリスクを軽減するための新たなアプローチであるローカル・リサンプラー(LR)を提案する。
LRは、$k$-nearest neighborsアルゴリズムを利用して合成データを生成する。
理論的および実証的な分析により、LRは外乱駆動による開示リスクを効果的に軽減し、マルチモーダル、スキュード、非凸支持分布を正確に再現することを示した。
LRの半パラメトリック特性は計算負荷が低く、小さなサンプルでも効率的に動作する。
プライバシリスクとデータユーティリティのバランスをパラメータ化することにより、研究用の機密データセットへの広範なアクセスを促進する。
関連論文リスト
- Debiasing Synthetic Data Generated by Deep Generative Models [40.165159490379146]
合成データ生成のための深部生成モデル(DGM)は、合成データ解析においてバイアスと不正確性を誘導する。
本稿では,DGMが生成する合成データを,特定のデータ解析のためにターゲットとする新たな戦略を提案する。
提案手法は, 偏差を考慮し, 収束率を向上し, 容易に近似された大きなサンプル分散を持つ推定器の計算を容易にする。
論文 参考訳(メタデータ) (2024-11-06T19:24:34Z) - Multi-objective evolutionary GAN for tabular data synthesis [0.873811641236639]
合成データは統計機関や他の統計データ生成装置によるデータ共有において重要な役割を果たしている。
本稿では,SMOE-CTGAN(SMOE-CTGAN)を合成データとして提案する。
以上の結果から,SMOE-CTGANは,複数の国勢調査データセットに対して,異なるリスクと実用レベルを持つ合成データセットを発見可能であることが示唆された。
論文 参考訳(メタデータ) (2024-04-15T23:07:57Z) - MargCTGAN: A "Marginally'' Better CTGAN for the Low Sample Regime [63.851085173614]
MargCTGANは、非相関な辺縁部の特徴マッチングを追加し、結果として、下流ユーティリティと合成データの統計的性質が一貫した改善をもたらす。
論文 参考訳(メタデータ) (2023-07-16T10:28:49Z) - Differentially private sliced inverse regression in the federated
paradigm [3.539008590223188]
Sliced inverse regression(SIR)を拡張して、分散データの課題に対処し、プライバシと通信効率を優先する。
我々の手法はFSIR (Federated sliced inverse regression) と呼ばれ、複数のクライアント間で十分な次元削減部分空間を協調的に推定する。
論文 参考訳(メタデータ) (2023-06-10T00:32:39Z) - PS-FedGAN: An Efficient Federated Learning Framework Based on Partially
Shared Generative Adversarial Networks For Data Privacy [56.347786940414935]
分散計算のための効果的な学習パラダイムとして、フェデレートラーニング(FL)が登場した。
本研究は,部分的なGANモデル共有のみを必要とする新しいFLフレームワークを提案する。
PS-FedGANと名付けられたこの新しいフレームワークは、異種データ分散に対処するためのGANリリースおよびトレーニングメカニズムを強化する。
論文 参考訳(メタデータ) (2023-05-19T05:39:40Z) - Membership Inference Attacks against Synthetic Data through Overfitting
Detection [84.02632160692995]
我々は、攻撃者が基礎となるデータ分布についてある程度の知識を持っていると仮定する現実的なMIA設定について論じる。
生成モデルの局所的なオーバーフィッティングをターゲットとして,メンバシップを推論することを目的とした密度ベースMIAモデルであるDOMIASを提案する。
論文 参考訳(メタデータ) (2023-02-24T11:27:39Z) - Private Set Generation with Discriminative Information [63.851085173614]
異なるプライベートなデータ生成は、データプライバシの課題に対する有望な解決策である。
既存のプライベートな生成モデルは、合成サンプルの有用性に苦慮している。
我々は,最先端アプローチのサンプルユーティリティを大幅に改善する,シンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2022-11-07T10:02:55Z) - Comparing the Utility and Disclosure Risk of Synthetic Data with Samples
of Microdata [0.6445605125467572]
データの実用性と開示リスクの計測方法に関するコンセンサスはない。
ユーティリティと関連するリスクが明確に理解されている合成国勢調査マイクロデータを作成する能力は、よりタイムリーで広い範囲のマイクロデータへのアクセスが可能になることを意味している。
本報告では, 合成データの有用性と開示リスクを, 異なるサンプル分画の原データのサンプルと比較し, 評価する枠組みを提案する。
論文 参考訳(メタデータ) (2022-07-02T20:38:29Z) - Delving into High-Quality Synthetic Face Occlusion Segmentation Datasets [83.749895930242]
そこで本研究では,高品質な自然主義的合成隠蔽顔を製造するための2つの手法を提案する。
両手法の有効性とロバスト性を実証的に示す。
我々は,RealOccとRealOcc-Wildという,微細なアノテーションを付加した高精細な実世界の顔データセットを2つ提示する。
論文 参考訳(メタデータ) (2022-05-12T17:03:57Z) - Risk Minimization from Adaptively Collected Data: Guarantees for
Supervised and Policy Learning [57.88785630755165]
経験的リスク最小化(Empirical Risk Minimization, ERM)は、機械学習のワークホースであるが、適応的に収集されたデータを使用すると、そのモデルに依存しない保証が失敗する可能性がある。
本研究では,仮説クラス上での損失関数の平均値を最小限に抑えるため,適応的に収集したデータを用いた一般的な重み付きERMアルゴリズムについて検討する。
政策学習では、探索がゼロになるたびに既存の文献のオープンギャップを埋める率-最適後悔保証を提供する。
論文 参考訳(メタデータ) (2021-06-03T09:50:13Z) - Principled learning method for Wasserstein distributionally robust
optimization with local perturbations [21.611525306059985]
ワッサーシュタイン分布論的ロバスト最適化(WDRO)は、実験データ分布近傍の局所的な最悪のリスクを最小限に抑えるモデルを学習しようとする。
本稿では,新しい近似定理に基づく最小化器を提案し,それに対応するリスク一貫性結果を提供する。
提案手法は,ノイズのあるデータセットのベースラインモデルよりも精度が高いことを示す。
論文 参考訳(メタデータ) (2020-06-05T09:32:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。