論文の概要: Comparing the Utility and Disclosure Risk of Synthetic Data with Samples
of Microdata
- arxiv url: http://arxiv.org/abs/2207.03339v1
- Date: Sat, 2 Jul 2022 20:38:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-10 11:36:49.683750
- Title: Comparing the Utility and Disclosure Risk of Synthetic Data with Samples
of Microdata
- Title(参考訳): マイクロデータのサンプルと合成データの有用性と開示リスクの比較
- Authors: Claire Little, Mark Elliot, Richard Allmendinger
- Abstract要約: データの実用性と開示リスクの計測方法に関するコンセンサスはない。
ユーティリティと関連するリスクが明確に理解されている合成国勢調査マイクロデータを作成する能力は、よりタイムリーで広い範囲のマイクロデータへのアクセスが可能になることを意味している。
本報告では, 合成データの有用性と開示リスクを, 異なるサンプル分画の原データのサンプルと比較し, 評価する枠組みを提案する。
- 参考スコア(独自算出の注目度): 0.6445605125467572
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most statistical agencies release randomly selected samples of Census
microdata, usually with sample fractions under 10% and with other forms of
statistical disclosure control (SDC) applied. An alternative to SDC is data
synthesis, which has been attracting growing interest, yet there is no clear
consensus on how to measure the associated utility and disclosure risk of the
data. The ability to produce synthetic Census microdata, where the utility and
associated risks are clearly understood, could mean that more timely and
wider-ranging access to microdata would be possible.
This paper follows on from previous work by the authors which mapped
synthetic Census data on a risk-utility (R-U) map. The paper presents a
framework to measure the utility and disclosure risk of synthetic data by
comparing it to samples of the original data of varying sample fractions,
thereby identifying the sample fraction which has equivalent utility and risk
to the synthetic data. Three commonly used data synthesis packages are compared
with some interesting results. Further work is needed in several directions but
the methodology looks very promising.
- Abstract(参考訳): ほとんどの統計機関はランダムに選択されたCensus microdataのサンプルを放出し、通常10%未満のサンプル分画と他の種類の統計開示制御(SDC)を適用している。
SDCの代替手段はデータ合成であり、関心が高まりつつあるが、関連するユーティリティの測定方法やデータの開示リスクについて明確なコンセンサスはない。
ユーティリティと関連するリスクを明確に理解した合成国勢調査マイクロデータを作成する能力は、よりタイムリーで幅広いマイクロデータへのアクセスを可能にする可能性がある。
本論文は,リスク利用度マップ (r-u) 上で合成国勢調査データをマッピングした著者による先行研究から従う。
本稿では, 種々の試料分画の原データのサンプルと比較することにより, 合成データの有用性と開示リスクを計測し, 合成データに等価な有効性とリスクを有する試料分画を同定する枠組みを提案する。
3つの一般的なデータ合成パッケージを興味深い結果と比較する。
さらなる作業はいくつかの面で必要だが,方法論は非常に有望なようだ。
関連論文リスト
- Statistical properties and privacy guarantees of an original
distance-based fully synthetic data generation method [0.0]
この研究は、多段階のフレームワークを用いて、公開リリース可能な合成データを生成する技術的実現可能性を示す。
新たな多段階合成データ生成フレームワークを用いて生成したデータの質を評価することで,Open-CESPイニシアチブの技術的,概念的健全性を実証した。
論文 参考訳(メタデータ) (2023-10-10T12:29:57Z) - MargCTGAN: A "Marginally'' Better CTGAN for the Low Sample Regime [63.851085173614]
MargCTGANは、非相関な辺縁部の特徴マッチングを追加し、結果として、下流ユーティリティと合成データの統計的性質が一貫した改善をもたらす。
論文 参考訳(メタデータ) (2023-07-16T10:28:49Z) - TSGM: A Flexible Framework for Generative Modeling of Synthetic Time
Series [79.64785804590821]
時系列データは、研究者と産業組織間のデータの共有を妨げるため、しばしば不足または非常に敏感である。
本稿では,合成時系列の生成モデリングのためのオープンソースフレームワークである時系列生成モデリング(TSGM)を紹介する。
論文 参考訳(メタデータ) (2023-05-19T10:11:21Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Membership Inference Attacks against Synthetic Data through Overfitting
Detection [84.02632160692995]
我々は、攻撃者が基礎となるデータ分布についてある程度の知識を持っていると仮定する現実的なMIA設定について論じる。
生成モデルの局所的なオーバーフィッティングをターゲットとして,メンバシップを推論することを目的とした密度ベースMIAモデルであるDOMIASを提案する。
論文 参考訳(メタデータ) (2023-02-24T11:27:39Z) - Synthcity: facilitating innovative use cases of synthetic data in
different data modalities [86.52703093858631]
Synthcityは、MLフェアネス、プライバシ、拡張における合成データの革新的なユースケースのための、オープンソースのソフトウェアパッケージである。
Synthcityは、実践者に対して、合成データにおける最先端の研究とツールへの単一のアクセスポイントを提供する。
論文 参考訳(メタデータ) (2023-01-18T14:49:54Z) - An experimental study on Synthetic Tabular Data Evaluation [0.0]
文献で最もよく使われているグローバルメトリクスを評価した。
本稿では,データのトポロジカルシグネチャ解析に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2022-11-19T18:18:52Z) - Generative Adversarial Networks for Synthetic Data Generation: A
Comparative Study [1.0896567381206714]
データ合成の手段としてGAN(Generative Adversarial Networks)が注目されている。
本稿では,合成国勢調査マイクロデータの生成を目的としたGANの活用の可能性について考察する。
論文 参考訳(メタデータ) (2021-12-03T14:23:17Z) - Noise-Resistant Deep Metric Learning with Probabilistic Instance
Filtering [59.286567680389766]
ノイズラベルは現実世界のデータによく見られ、ディープニューラルネットワークの性能劣化を引き起こす。
DMLのための確率的ランク付けに基づくメモリを用いたインスタンス選択(PRISM)手法を提案する。
PRISMはラベルがクリーンである確率を計算し、潜在的にノイズの多いサンプルをフィルタリングする。
論文 参考訳(メタデータ) (2021-08-03T12:15:25Z) - Using Synthetic Data to Enhance the Accuracy of Fingerprint-Based
Localization: A Deep Learning Approach [1.6379393441314491]
合成データを用いた指紋ベースのローカリゼーションにおけるトレーニングデータ収集コストを削減するための新しいアプローチを紹介します。
GAN(Generative Adversarial Network)は、収集されたデータの限られたサンプルの分布を学習するために用いられる。
収集されたデータのフルセットを使用して得られるものと本質的に同様の位置決め精度を得ることができます。
論文 参考訳(メタデータ) (2021-05-05T07:36:01Z) - Measuring Utility and Privacy of Synthetic Genomic Data [3.635321290763711]
人工ゲノムデータを生成するための5つの最先端モデルの実用性とプライバシ保護を最初に評価する。
全体として、ボード全体でうまく機能する合成ゲノムデータを生成するための単一のアプローチは存在しない。
論文 参考訳(メタデータ) (2021-02-05T17:41:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。