論文の概要: Developing synthetic microdata through machine learning for firm-level business surveys
- arxiv url: http://arxiv.org/abs/2512.05948v1
- Date: Fri, 05 Dec 2025 18:44:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-13 22:40:57.142252
- Title: Developing synthetic microdata through machine learning for firm-level business surveys
- Title(参考訳): ファームレベルビジネスサーベイのための機械学習による合成マイクロデータの開発
- Authors: Jorge Cisneros Paz, Timothy Wojan, Matthew Williams, Jennifer Ozawa, Robert Chew, Kimberly Janda, Timothy Navarro, Michael Floyd, Christine Task, Damon Streat,
- Abstract要約: 計算能力の大幅な向上とビッグデータの可用性の向上により、匿名化データの再識別の可能性が劇的に高まった。
本稿では,年次ビジネスサーベイ(ABS)に基づく人工PUMS構築のための機械学習モデルについて概説する。
ABS PUMSは現在洗練されており、その結果は非公開であるが、2007年の調査のために開発された2つの総合PUMSを提示する。
- 参考スコア(独自算出の注目度): 0.9013730064892007
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Public-use microdata samples (PUMS) from the United States (US) Census Bureau on individuals have been available for decades. However, large increases in computing power and the greater availability of Big Data have dramatically increased the probability of re-identifying anonymized data, potentially violating the pledge of confidentiality given to survey respondents. Data science tools can be used to produce synthetic data that preserve critical moments of the empirical data but do not contain the records of any existing individual respondent or business. Developing public-use firm data from surveys presents unique challenges different from demographic data, because there is a lack of anonymity and certain industries can be easily identified in each geographic area. This paper briefly describes a machine learning model used to construct a synthetic PUMS based on the Annual Business Survey (ABS) and discusses various quality metrics. Although the ABS PUMS is currently being refined and results are confidential, we present two synthetic PUMS developed for the 2007 Survey of Business Owners, similar to the ABS business data. Econometric replication of a high impact analysis published in Small Business Economics demonstrates the verisimilitude of the synthetic data to the true data and motivates discussion of possible ABS use cases.
- Abstract(参考訳): 米国国勢調査局の個人に関する公共用マイクロデータサンプル(PUMS)は数十年前から利用可能である。
しかし、コンピューティング能力の大幅な増加とビッグデータの可用性の向上は、匿名化されたデータを再識別する確率を劇的に高め、調査回答者に与えられた機密性の誓約に違反している可能性がある。
データサイエンスツールは、経験的データの臨界モーメントを保存する合成データを生成するのに使用できるが、既存の個々の応答者やビジネスの記録は含まない。
調査から得られた公益法人データの開発は、匿名性が欠如しており、各地域において特定の産業を容易に特定できるため、人口統計とは異なる固有の課題を提示する。
本稿では,年次ビジネスサーベイ(ABS)に基づく人工PUMSの構築に使用される機械学習モデルについて概説し,様々な品質指標について考察する。
ABS PUMSは現在洗練されており、その結果は非公開であるが、2007年のビジネスオーナー調査のために開発された2つの総合PUMSは、ABS のビジネスデータに類似している。
スモールビジネス・エコノミクス(Small Business Economics)に掲載されたハイインパクト分析のエコノメトリによる再現は、合成データの真のデータへの妥当性を示し、ABSのユースケースに関する議論を動機付けている。
関連論文リスト
- How to DP-fy Your Data: A Practical Guide to Generating Synthetic Data With Differential Privacy [52.00934156883483]
Differential Privacy(DP)は、情報漏洩を推論し、制限するフレームワークである。
Differentially Private Synthetic Dataは、ソースデータの全体的なトレンドを保存する合成データを指す。
論文 参考訳(メタデータ) (2025-12-02T21:14:39Z) - Valid Inference with Imperfect Synthetic Data [39.10587411316875]
モーメントの一般化法に基づく新しい推定器を提案する。
合成データのモーメント残差と実データのモーメント間の相互作用は、対象パラメータの推定を大幅に改善できることがわかった。
論文 参考訳(メタデータ) (2025-08-08T18:32:52Z) - Synthetic Data Generation with Large Language Models for Personalized Community Question Answering [47.300506002171275]
既存のデータセットであるSE-PQAに基づいてSy-SE-PQAを構築します。
以上の結果から,LCMはユーザのニーズに合わせてデータを生成する可能性が高いことが示唆された。
合成データは、たとえ生成されたデータが誤った情報を含むとしても、人書きのトレーニングデータを置き換えることができる。
論文 参考訳(メタデータ) (2024-10-29T16:19:08Z) - Exploring the Potential of AI-Generated Synthetic Datasets: A Case Study
on Telematics Data with ChatGPT [0.0]
この研究は、OpenAIの強力な言語モデルであるChatGPTを活用して、特にテレマティクス分野における合成データセットの構築と利用に力を入れている。
このデータ作成プロセスを説明するために、合成テレマティクスデータセットの生成に焦点を当てたハンズオンケーススタディが実施されている。
論文 参考訳(メタデータ) (2023-06-23T15:15:13Z) - Continual Release of Differentially Private Synthetic Data from Longitudinal Data Collections [19.148874215745135]
本研究では,縦方向のデータ収集から微分プライベートな合成データを連続的に放出する問題について検討する。
各ステップごとに、各ステップが新しいデータ要素をレポートするモデルを導入します。
本稿では,2種類のクエリを連続的に保存する合成データ生成アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-13T16:22:08Z) - Beyond Privacy: Navigating the Opportunities and Challenges of Synthetic
Data [91.52783572568214]
合成データは、機械学習の世界において支配的な力となり、データセットを個々のニーズに合わせて調整できる未来を約束する。
合成データのより広範な妥当性と適用のために,コミュニティが克服すべき根本的な課題について論じる。
論文 参考訳(メタデータ) (2023-04-07T16:38:40Z) - Membership Inference Attacks against Synthetic Data through Overfitting
Detection [84.02632160692995]
我々は、攻撃者が基礎となるデータ分布についてある程度の知識を持っていると仮定する現実的なMIA設定について論じる。
生成モデルの局所的なオーバーフィッティングをターゲットとして,メンバシップを推論することを目的とした密度ベースMIAモデルであるDOMIASを提案する。
論文 参考訳(メタデータ) (2023-02-24T11:27:39Z) - Comparing the Utility and Disclosure Risk of Synthetic Data with Samples
of Microdata [0.6445605125467572]
データの実用性と開示リスクの計測方法に関するコンセンサスはない。
ユーティリティと関連するリスクが明確に理解されている合成国勢調査マイクロデータを作成する能力は、よりタイムリーで広い範囲のマイクロデータへのアクセスが可能になることを意味している。
本報告では, 合成データの有用性と開示リスクを, 異なるサンプル分画の原データのサンプルと比較し, 評価する枠組みを提案する。
論文 参考訳(メタデータ) (2022-07-02T20:38:29Z) - Lessons from the AdKDD'21 Privacy-Preserving ML Challenge [57.365745458033075]
W3Cの顕著な提案では、過去のディスプレイの集計された、差別化されたプライベートなレポートを通じてのみ広告信号を共有することができる。
この提案を広く研究するために、AdKDD'21でオープンなプライバシ保護機械学習チャレンジが行われた。
重要な発見は、大量の集約されたデータの小さな集合が存在する場合の学習モデルは驚くほど効率的で安価であることである。
論文 参考訳(メタデータ) (2022-01-31T11:09:59Z) - Measuring Utility and Privacy of Synthetic Genomic Data [3.635321290763711]
人工ゲノムデータを生成するための5つの最先端モデルの実用性とプライバシ保護を最初に評価する。
全体として、ボード全体でうまく機能する合成ゲノムデータを生成するための単一のアプローチは存在しない。
論文 参考訳(メタデータ) (2021-02-05T17:41:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。