Fugu-MT 論文翻訳(概要): Comparing the Utility and Disclosure Risk of Synthetic Data with Samples of Microdata

論文の概要: Comparing the Utility and Disclosure Risk of Synthetic Data with Samples of Microdata

arxiv url: http://arxiv.org/abs/2207.03339v1
Date: Sat, 2 Jul 2022 20:38:29 GMT
ステータス: 翻訳完了
システム内更新日: 2022-07-10 11:36:49.683750
Title: Comparing the Utility and Disclosure Risk of Synthetic Data with Samples of Microdata
Title（参考訳）: マイクロデータのサンプルと合成データの有用性と開示リスクの比較
Authors: Claire Little, Mark Elliot, Richard Allmendinger
Abstract要約: データの実用性と開示リスクの計測方法に関するコンセンサスはない。ユーティリティと関連するリスクが明確に理解されている合成国勢調査マイクロデータを作成する能力は、よりタイムリーで広い範囲のマイクロデータへのアクセスが可能になることを意味している。本報告では, 合成データの有用性と開示リスクを, 異なるサンプル分画の原データのサンプルと比較し, 評価する枠組みを提案する。
参考スコア（独自算出の注目度）: 0.6445605125467572
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Most statistical agencies release randomly selected samples of Census microdata, usually with sample fractions under 10% and with other forms of statistical disclosure control (SDC) applied. An alternative to SDC is data synthesis, which has been attracting growing interest, yet there is no clear consensus on how to measure the associated utility and disclosure risk of the data. The ability to produce synthetic Census microdata, where the utility and associated risks are clearly understood, could mean that more timely and wider-ranging access to microdata would be possible. This paper follows on from previous work by the authors which mapped synthetic Census data on a risk-utility (R-U) map. The paper presents a framework to measure the utility and disclosure risk of synthetic data by comparing it to samples of the original data of varying sample fractions, thereby identifying the sample fraction which has equivalent utility and risk to the synthetic data. Three commonly used data synthesis packages are compared with some interesting results. Further work is needed in several directions but the methodology looks very promising.
Abstract（参考訳）: ほとんどの統計機関はランダムに選択されたCensus microdataのサンプルを放出し、通常10%未満のサンプル分画と他の種類の統計開示制御(SDC)を適用している。 SDCの代替手段はデータ合成であり、関心が高まりつつあるが、関連するユーティリティの測定方法やデータの開示リスクについて明確なコンセンサスはない。ユーティリティと関連するリスクを明確に理解した合成国勢調査マイクロデータを作成する能力は、よりタイムリーで幅広いマイクロデータへのアクセスを可能にする可能性がある。本論文は,リスク利用度マップ (r-u) 上で合成国勢調査データをマッピングした著者による先行研究から従う。本稿では, 種々の試料分画の原データのサンプルと比較することにより, 合成データの有用性と開示リスクを計測し, 合成データに等価な有効性とリスクを有する試料分画を同定する枠組みを提案する。 3つの一般的なデータ合成パッケージを興味深い結果と比較する。さらなる作業はいくつかの面で必要だが,方法論は非常に有望なようだ。

関連論文リスト

Amputation-imputation based generation of synthetic tabular data for ratemaking [0.0]
Actuarial ratemakingは高品質なデータに依存するが、そのようなデータへのアクセスは、新しいデータを取得するコストやプライバシー上の懸念などによって制限されることが多い。本稿では,これらの問題に対する潜在的な解決策として,合成データ生成について検討する。本稿では,オープンソースデータセットを用いて,変分オートエンコーダや条件付きタブララ生成支援ネットワークといった他の生成モデルと比較して,MICEに基づくモデルの評価を行う。
論文参考訳（メタデータ） (2025-09-02T10:23:04Z)
Data Distribution Valuation [56.71023681599737]
既存のデータバリュエーションメソッドは、離散データセットの値を定義します。多くのユースケースでは、ユーザはデータセットの値だけでなく、データセットがサンプリングされた分布の値にも興味を持っています。本稿では,理論的原理と実行可能なポリシを実現するための,MMDに基づく評価手法を提案する。
論文参考訳（メタデータ） (2024-10-06T07:56:53Z)
Inference With Combining Rules From Multiple Differentially Private Synthetic Datasets [0.0]
DIPSデータセットの分析にルールを組み合わせることによって,プロシージャの適用性を検討する。我々の経験的実験により、提案された組み合わせルールは、特定の状況において正確な推論を提供するが、すべての場合において正確な推論はできないことが示された。
論文参考訳（メタデータ） (2024-05-08T02:33:35Z)
Multi-objective evolutionary GAN for tabular data synthesis [0.873811641236639]
合成データは統計機関や他の統計データ生成装置によるデータ共有において重要な役割を果たしている。本稿では,SMOE-CTGAN(SMOE-CTGAN)を合成データとして提案する。以上の結果から,SMOE-CTGANは,複数の国勢調査データセットに対して,異なるリスクと実用レベルを持つ合成データセットを発見可能であることが示唆された。
論文参考訳（メタデータ） (2024-04-15T23:07:57Z)
Synthetic Census Data Generation via Multidimensional Multiset Sum [7.900694093691988]
我々は、Censusの統計データのみから合成マイクロデータを生成するツールを提供する。我々は,本手法が実際にうまく機能していることを示し,その性能を説明する理論的議論を行う。
論文参考訳（メタデータ） (2024-04-15T19:06:37Z)
Differentially Private Verification of Survey-Weighted Estimates [0.5985204759362747]
いくつかの公式統計機関は、公用マイクロデータファイルとして合成データを公開している。 1つのアプローチは、合成データを検証サーバと組み合わせることで、ユーザーは合成データと基礎となる機密データで計算された推定値の類似度を計測する。本稿では,差分プライバシーを満足し,基礎となる機密情報を複雑なサーベイ設計で収集する場合に利用できる検証尺度を提案する。
論文参考訳（メタデータ） (2024-04-03T07:12:18Z)
Benchmarking Private Population Data Release Mechanisms: Synthetic Data vs. TopDown [50.40020716418472]
本研究では、TopDownアルゴリズムとプライベート合成データ生成を比較し、クエリの複雑さによる精度への影響を判定する。この結果から,TopDownアルゴリズムは,分散クエリに対して,評価したどの合成データ手法よりもはるかに優れたプライバシー-忠実トレードオフを実現することがわかった。
論文参考訳（メタデータ） (2024-01-31T17:38:34Z)
DP-PQD: Privately Detecting Per-Query Gaps In Synthetic Data Generated By Black-Box Mechanisms [17.562365686511818]
本稿では,DP-PQDという新しいフレームワークを提案する。このフレームワークは,プライベートデータセットと合成データセットの問合せ回答が,ユーザの指定しきい値内にあるかどうかを検出する。提案手法は,クエリごとのクエリ数,総和,中央値のクエリに対してプライベートアルゴリズム群を提供し,その特性を分析し,実験的に評価する。
論文参考訳（メタデータ） (2023-09-15T17:38:59Z)
TSGM: A Flexible Framework for Generative Modeling of Synthetic Time Series [61.436361263605114]
時系列データは、研究者と産業組織間のデータの共有を妨げるため、しばしば不足または非常に敏感である。本稿では,合成時系列の生成モデリングのためのオープンソースフレームワークである時系列生成モデリング(TSGM)を紹介する。
論文参考訳（メタデータ） (2023-05-19T10:11:21Z)
Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文参考訳（メタデータ） (2023-05-16T07:30:29Z)
Membership Inference Attacks against Synthetic Data through Overfitting Detection [84.02632160692995]
我々は、攻撃者が基礎となるデータ分布についてある程度の知識を持っていると仮定する現実的なMIA設定について論じる。生成モデルの局所的なオーバーフィッティングをターゲットとして,メンバシップを推論することを目的とした密度ベースMIAモデルであるDOMIASを提案する。
論文参考訳（メタデータ） (2023-02-24T11:27:39Z)
Synthcity: facilitating innovative use cases of synthetic data in different data modalities [86.52703093858631]
Synthcityは、MLフェアネス、プライバシ、拡張における合成データの革新的なユースケースのための、オープンソースのソフトウェアパッケージである。 Synthcityは、実践者に対して、合成データにおける最先端の研究とツールへの単一のアクセスポイントを提供する。
論文参考訳（メタデータ） (2023-01-18T14:49:54Z)
Evaluating Synthetically Generated Data from Small Sample Sizes: An Experimental Study [0.0]
我々は、仮説テストに幾何、トポロジ、頑健な統計の組み合わせを用いて、生成されたデータの「妥当性」を評価する。また,この結果と,大規模なサンプルサイズデータについて文献で記述した卓越したグローバルな測定方法とを対比した。
論文参考訳（メタデータ） (2022-11-19T18:18:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。