論文の概要: Synthetic Census Data Generation via Multidimensional Multiset Sum
- arxiv url: http://arxiv.org/abs/2404.10095v1
- Date: Mon, 15 Apr 2024 19:06:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-17 20:48:29.942532
- Title: Synthetic Census Data Generation via Multidimensional Multiset Sum
- Title(参考訳): 多次元マルチセットサムによる合成センサデータ生成
- Authors: Cynthia Dwork, Kristjan Greenewald, Manish Raghavan,
- Abstract要約: 我々は、Censusの統計データのみから合成マイクロデータを生成するツールを提供する。
我々は,本手法が実際にうまく機能していることを示し,その性能を説明する理論的議論を行う。
- 参考スコア(独自算出の注目度): 7.900694093691988
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The US Decennial Census provides valuable data for both research and policy purposes. Census data are subject to a variety of disclosure avoidance techniques prior to release in order to preserve respondent confidentiality. While many are interested in studying the impacts of disclosure avoidance methods on downstream analyses, particularly with the introduction of differential privacy in the 2020 Decennial Census, these efforts are limited by a critical lack of data: The underlying "microdata," which serve as necessary input to disclosure avoidance methods, are kept confidential. In this work, we aim to address this limitation by providing tools to generate synthetic microdata solely from published Census statistics, which can then be used as input to any number of disclosure avoidance algorithms for the sake of evaluation and carrying out comparisons. We define a principled distribution over microdata given published Census statistics and design algorithms to sample from this distribution. We formulate synthetic data generation in this context as a knapsack-style combinatorial optimization problem and develop novel algorithms for this setting. While the problem we study is provably hard, we show empirically that our methods work well in practice, and we offer theoretical arguments to explain our performance. Finally, we verify that the data we produce are "close" to the desired ground truth.
- Abstract(参考訳): アメリカ十年国勢調査(US Decennial Census)は、研究目的と政策目的の両方に貴重なデータを提供している。
国勢調査データは、応答性の機密性を維持するために、リリース前に様々な開示回避手法が適用される。
開示回避法が下流分析に与える影響、特に2020年秋の国勢調査における差分プライバシーの導入について研究することに関心があるが、これらの取り組みはデータの欠如によって制限されている:開示回避法に必要な入力として機能する基盤となる“マイクロデータ”は機密保持されている。
本研究は,センサス統計のみから合成マイクロデータを生成するツールを提供することにより,この制限に対処することを目的としている。
我々は,この分布から標本化するためのセンサス統計と設計アルゴリズムを用いて,マイクロデータ上の原理分布を定義した。
我々は、この文脈における合成データ生成を、knapsackスタイルの組合せ最適化問題として定式化し、この設定のための新しいアルゴリズムを開発する。
研究の課題は証明しがたいほど難しいが,本手法が実際にうまく機能していることが実証的に示され,その性能を説明するための理論的議論が提示される。
最後に、私たちが生成するデータは、望ましい根拠の真理に「近い」ことを検証します。
関連論文リスト
- RASE: Efficient Privacy-preserving Data Aggregation against Disclosure Attacks for IoTs [2.1765174838950494]
センサデバイスが生み出すデータを収集・保護する新たなパラダイムについて検討する。
データアグリゲーションとプライバシ保護の共同設計に関するこれまでの研究は、信頼されたフュージョンセンターがプライバシ体制に準拠していることを前提としている。
本稿では,3段階の逐次手順,雑音付加,ランダムな置換,パラメータ推定に一般化可能な新しいパラダイム(RASE)を提案する。
論文 参考訳(メタデータ) (2024-05-31T15:21:38Z) - A Dataset for the Validation of Truth Inference Algorithms Suitable for Online Deployment [76.04306818209753]
実世界のクラウドソーシングプラットフォームから収集した,実質的なクラウドソーシングアノテーションデータセットを紹介する。
このデータセットは、約2万のワーカー、100万のタスク、600万のアノテーションで構成されている。
本データセットにおけるいくつかの代表的真理推論アルゴリズムの有効性を評価する。
論文 参考訳(メタデータ) (2024-03-10T16:00:41Z) - Benchmarking Private Population Data Release Mechanisms: Synthetic Data vs. TopDown [50.40020716418472]
本研究では、TopDownアルゴリズムとプライベート合成データ生成を比較し、クエリの複雑さによる精度への影響を判定する。
この結果から,TopDownアルゴリズムは,分散クエリに対して,評価したどの合成データ手法よりもはるかに優れたプライバシー-忠実トレードオフを実現することがわかった。
論文 参考訳(メタデータ) (2024-01-31T17:38:34Z) - Differentially Private Linear Regression with Linked Data [3.9325957466009203]
コンピュータ科学の数学的概念である差分プライバシーは、堅牢なプライバシー保証を提供する上昇するツールである。
最近の研究は、個々の統計および機械学習タスクの微分プライベートバージョンの開発に焦点を当てている。
相関データを用いた線形回帰のための2つの微分プライベートアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-08-01T21:00:19Z) - SoK: Privacy-Preserving Data Synthesis [72.92263073534899]
本稿では,プライバシ保護データ合成(PPDS)に注目し,その分野の総合的な概要,分析,議論を行う。
PPDSでは,統計的手法と深層学習(DL)に基づく手法の2つの顕著な研究を統一するマスターレシピを作成した。
論文 参考訳(メタデータ) (2023-07-05T08:29:31Z) - Differentially Private Synthetic Data Using KD-Trees [11.96971298978997]
ノイズ摂動とともに空間分割技術を活用し,直観的かつ透過的なアルゴリズムを実現する。
我々は、$epsilon$-differentially private synthesis data generationのためのデータ独立アルゴリズムとデータ依存アルゴリズムの両方を提案する。
先行研究に対して実証的な実用性向上を示すとともに,実データセット上の下流分類タスクにおけるアルゴリズムの性能について考察する。
論文 参考訳(メタデータ) (2023-06-19T17:08:32Z) - Membership Inference Attacks against Synthetic Data through Overfitting
Detection [84.02632160692995]
我々は、攻撃者が基礎となるデータ分布についてある程度の知識を持っていると仮定する現実的なMIA設定について論じる。
生成モデルの局所的なオーバーフィッティングをターゲットとして,メンバシップを推論することを目的とした密度ベースMIAモデルであるDOMIASを提案する。
論文 参考訳(メタデータ) (2023-02-24T11:27:39Z) - Private Set Generation with Discriminative Information [63.851085173614]
異なるプライベートなデータ生成は、データプライバシの課題に対する有望な解決策である。
既存のプライベートな生成モデルは、合成サンプルの有用性に苦慮している。
我々は,最先端アプローチのサンプルユーティリティを大幅に改善する,シンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2022-11-07T10:02:55Z) - Releasing survey microdata with exact cluster locations and additional
privacy safeguards [77.34726150561087]
本稿では,プライバシ保護を付加した独自のマイクロデータの有用性を活用した,代替的なマイクロデータ配信戦略を提案する。
当社の戦略は, 再識別の試みにおいても, 任意の属性に対する再識別リスクを60~80%削減する。
論文 参考訳(メタデータ) (2022-05-24T19:37:11Z) - Robust and Differentially Private Mean Estimation [40.323756738056616]
異なるプライバシーは、米国国勢調査から商用デバイスで収集されたデータまで、さまざまなアプリケーションで標準要件として浮上しています。
このようなデータベースの数は、複数のソースからのデータからなり、それらすべてが信頼できるわけではない。
これにより、既存のプライベート分析は、腐敗したデータを注入する敵による攻撃に弱い。
論文 参考訳(メタデータ) (2021-02-18T05:02:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。