論文の概要: Comparing the Utility and Disclosure Risk of Synthetic Data with Samples
of Microdata
- arxiv url: http://arxiv.org/abs/2207.03339v1
- Date: Sat, 2 Jul 2022 20:38:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-10 11:36:49.683750
- Title: Comparing the Utility and Disclosure Risk of Synthetic Data with Samples
of Microdata
- Title(参考訳): マイクロデータのサンプルと合成データの有用性と開示リスクの比較
- Authors: Claire Little, Mark Elliot, Richard Allmendinger
- Abstract要約: データの実用性と開示リスクの計測方法に関するコンセンサスはない。
ユーティリティと関連するリスクが明確に理解されている合成国勢調査マイクロデータを作成する能力は、よりタイムリーで広い範囲のマイクロデータへのアクセスが可能になることを意味している。
本報告では, 合成データの有用性と開示リスクを, 異なるサンプル分画の原データのサンプルと比較し, 評価する枠組みを提案する。
- 参考スコア(独自算出の注目度): 0.6445605125467572
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most statistical agencies release randomly selected samples of Census
microdata, usually with sample fractions under 10% and with other forms of
statistical disclosure control (SDC) applied. An alternative to SDC is data
synthesis, which has been attracting growing interest, yet there is no clear
consensus on how to measure the associated utility and disclosure risk of the
data. The ability to produce synthetic Census microdata, where the utility and
associated risks are clearly understood, could mean that more timely and
wider-ranging access to microdata would be possible.
This paper follows on from previous work by the authors which mapped
synthetic Census data on a risk-utility (R-U) map. The paper presents a
framework to measure the utility and disclosure risk of synthetic data by
comparing it to samples of the original data of varying sample fractions,
thereby identifying the sample fraction which has equivalent utility and risk
to the synthetic data. Three commonly used data synthesis packages are compared
with some interesting results. Further work is needed in several directions but
the methodology looks very promising.
- Abstract(参考訳): ほとんどの統計機関はランダムに選択されたCensus microdataのサンプルを放出し、通常10%未満のサンプル分画と他の種類の統計開示制御(SDC)を適用している。
SDCの代替手段はデータ合成であり、関心が高まりつつあるが、関連するユーティリティの測定方法やデータの開示リスクについて明確なコンセンサスはない。
ユーティリティと関連するリスクを明確に理解した合成国勢調査マイクロデータを作成する能力は、よりタイムリーで幅広いマイクロデータへのアクセスを可能にする可能性がある。
本論文は,リスク利用度マップ (r-u) 上で合成国勢調査データをマッピングした著者による先行研究から従う。
本稿では, 種々の試料分画の原データのサンプルと比較することにより, 合成データの有用性と開示リスクを計測し, 合成データに等価な有効性とリスクを有する試料分画を同定する枠組みを提案する。
3つの一般的なデータ合成パッケージを興味深い結果と比較する。
さらなる作業はいくつかの面で必要だが,方法論は非常に有望なようだ。
関連論文リスト
- Data Distribution Valuation [56.71023681599737]
既存のデータバリュエーションメソッドは、離散データセットの値を定義します。
多くのユースケースでは、ユーザはデータセットの値だけでなく、データセットがサンプリングされた分布の値にも興味を持っています。
本稿では,理論的原理と実行可能なポリシを実現するための,MMDに基づく評価手法を提案する。
論文 参考訳(メタデータ) (2024-10-06T07:56:53Z) - Inference With Combining Rules From Multiple Differentially Private Synthetic Datasets [0.0]
DIPSデータセットの分析にルールを組み合わせることによって,プロシージャの適用性を検討する。
我々の経験的実験により、提案された組み合わせルールは、特定の状況において正確な推論を提供するが、すべての場合において正確な推論はできないことが示された。
論文 参考訳(メタデータ) (2024-05-08T02:33:35Z) - Multi-objective evolutionary GAN for tabular data synthesis [0.873811641236639]
合成データは統計機関や他の統計データ生成装置によるデータ共有において重要な役割を果たしている。
本稿では,SMOE-CTGAN(SMOE-CTGAN)を合成データとして提案する。
以上の結果から,SMOE-CTGANは,複数の国勢調査データセットに対して,異なるリスクと実用レベルを持つ合成データセットを発見可能であることが示唆された。
論文 参考訳(メタデータ) (2024-04-15T23:07:57Z) - Differentially Private Verification of Survey-Weighted Estimates [0.5985204759362747]
いくつかの公式統計機関は、公用マイクロデータファイルとして合成データを公開している。
1つのアプローチは、合成データを検証サーバと組み合わせることで、ユーザーは合成データと基礎となる機密データで計算された推定値の類似度を計測する。
本稿では,差分プライバシーを満足し,基礎となる機密情報を複雑なサーベイ設計で収集する場合に利用できる検証尺度を提案する。
論文 参考訳(メタデータ) (2024-04-03T07:12:18Z) - Benchmarking Private Population Data Release Mechanisms: Synthetic Data vs. TopDown [50.40020716418472]
本研究では、TopDownアルゴリズムとプライベート合成データ生成を比較し、クエリの複雑さによる精度への影響を判定する。
この結果から,TopDownアルゴリズムは,分散クエリに対して,評価したどの合成データ手法よりもはるかに優れたプライバシー-忠実トレードオフを実現することがわかった。
論文 参考訳(メタデータ) (2024-01-31T17:38:34Z) - DP-PQD: Privately Detecting Per-Query Gaps In Synthetic Data Generated By Black-Box Mechanisms [17.562365686511818]
本稿では,DP-PQDという新しいフレームワークを提案する。このフレームワークは,プライベートデータセットと合成データセットの問合せ回答が,ユーザの指定しきい値内にあるかどうかを検出する。
提案手法は,クエリごとのクエリ数,総和,中央値のクエリに対してプライベートアルゴリズム群を提供し,その特性を分析し,実験的に評価する。
論文 参考訳(メタデータ) (2023-09-15T17:38:59Z) - TSGM: A Flexible Framework for Generative Modeling of Synthetic Time Series [61.436361263605114]
時系列データは、研究者と産業組織間のデータの共有を妨げるため、しばしば不足または非常に敏感である。
本稿では,合成時系列の生成モデリングのためのオープンソースフレームワークである時系列生成モデリング(TSGM)を紹介する。
論文 参考訳(メタデータ) (2023-05-19T10:11:21Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Membership Inference Attacks against Synthetic Data through Overfitting
Detection [84.02632160692995]
我々は、攻撃者が基礎となるデータ分布についてある程度の知識を持っていると仮定する現実的なMIA設定について論じる。
生成モデルの局所的なオーバーフィッティングをターゲットとして,メンバシップを推論することを目的とした密度ベースMIAモデルであるDOMIASを提案する。
論文 参考訳(メタデータ) (2023-02-24T11:27:39Z) - Synthcity: facilitating innovative use cases of synthetic data in
different data modalities [86.52703093858631]
Synthcityは、MLフェアネス、プライバシ、拡張における合成データの革新的なユースケースのための、オープンソースのソフトウェアパッケージである。
Synthcityは、実践者に対して、合成データにおける最先端の研究とツールへの単一のアクセスポイントを提供する。
論文 参考訳(メタデータ) (2023-01-18T14:49:54Z) - Evaluating Synthetically Generated Data from Small Sample Sizes: An Experimental Study [0.0]
我々は、仮説テストに幾何、トポロジ、頑健な統計の組み合わせを用いて、生成されたデータの「妥当性」を評価する。
また,この結果と,大規模なサンプルサイズデータについて文献で記述した卓越したグローバルな測定方法とを対比した。
論文 参考訳(メタデータ) (2022-11-19T18:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。