論文の概要: Confidence-Ranked Reconstruction of Census Microdata from Published
Statistics
- arxiv url: http://arxiv.org/abs/2211.03128v1
- Date: Sun, 6 Nov 2022 14:08:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-08 19:16:02.870656
- Title: Confidence-Ranked Reconstruction of Census Microdata from Published
Statistics
- Title(参考訳): 統計データからのセンサス・マイクロデータの信頼性関連再構築
- Authors: Travis Dick, Cynthia Dwork, Michael Kearns, Terrance Liu, Aaron Roth,
Giuseppe Vietri, Zhiwei Steven Wu
- Abstract要約: プライベートデータセットに対する再構築攻撃は、データセットに関する公開アクセス情報を入力する。
我々の攻撃は、集約されたクエリ統計量$Q(D)Rmm$から全行を再構築できるだけでなく、その確率で確実に復元された行をランク付けできることを示す。
当社の攻撃は、公開ディストリビューションや、プライベートデータセットである$D$がサンプリングされた人口へのアクセスのみに基づく攻撃よりもはるかに優れています。
- 参考スコア(独自算出の注目度): 45.39928315344449
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A reconstruction attack on a private dataset $D$ takes as input some publicly
accessible information about the dataset and produces a list of candidate
elements of $D$. We introduce a new class of data reconstruction attacks based
on randomized methods for non-convex optimization. We empirically demonstrate
that our attacks can not only reconstruct full rows of $D$ from aggregate query
statistics $Q(D)\in \mathbb{R}^m$, but can do so in a way that reliably ranks
reconstructed rows by their odds of appearing in the private data, providing a
signature that could be used for prioritizing reconstructed rows for further
actions such as identify theft or hate crime. We also design a sequence of
baselines for evaluating reconstruction attacks. Our attacks significantly
outperform those that are based only on access to a public distribution or
population from which the private dataset $D$ was sampled, demonstrating that
they are exploiting information in the aggregate statistics $Q(D)$, and not
simply the overall structure of the distribution. In other words, the queries
$Q(D)$ are permitting reconstruction of elements of this dataset, not the
distribution from which $D$ was drawn. These findings are established both on
2010 U.S. decennial Census data and queries and Census-derived American
Community Survey datasets. Taken together, our methods and experiments
illustrate the risks in releasing numerically precise aggregate statistics of a
large dataset, and provide further motivation for the careful application of
provably private techniques such as differential privacy.
- Abstract(参考訳): プライベートデータセットに対するリコンストラクション攻撃は、データセットに関する公開アクセス情報として$D$を入力し、$D$の候補要素のリストを生成する。
非凸最適化のためのランダム化手法に基づく新しい種類のデータ再構成攻撃を提案する。
我々の攻撃は、集約クエリ統計から$d$の全行を再構築できるだけでなく、個人データに出現する確率によって再構築された行を確実にランク付けし、再建された行を優先順位付けして、盗難やヘイトクライムの特定などの追加アクションを行うことができることを実証する。
また,再建攻撃を評価するためのベースラインを設計する。
我々の攻撃は、公開ディストリビューションへのアクセスのみに基づくものや、プライベートデータセットの$D$がサンプリングされた集団にのみアクセスされたものよりもはるかに優れており、それらは分布の全体構造ではなく、集計統計の$Q(D)$の情報を活用していることを示している。
言い換えれば、$Q(D)$は、$D$が描かれた分布ではなく、このデータセットの要素の再構成を可能にする。
これらの結果は2010年のアメリカ合衆国国勢調査データとクェリ、および国勢調査から派生したアメリカコミュニティ調査データセットの両方で確立されている。
本手法と実験により,大規模データセットの数値的精度の高い集計統計を公表するリスクを明らかにし,差分プライバシーなどの実証可能なプライベート手法を慎重に適用する動機を与える。
関連論文リスト
- On Differentially Private U Statistics [25.683071759227293]
局所的なH'ajekプロジェクションを用いて、データの異なる部分集合を再重み付けする新しいしきい値に基づくアプローチを提案する。
これは、非退化U統計に対してほぼ最適なプライベート誤差をもたらし、退化U統計に対してほぼ最適であることを示す強い指標となる。
論文 参考訳(メタデータ) (2024-07-06T03:27:14Z) - Geometry-Aware Instrumental Variable Regression [56.16884466478886]
本稿では,データ導出情報によるデータ多様体の幾何を考慮した移動型IV推定器を提案する。
本手法のプラグイン・アンド・プレイ実装は,標準設定で関連する推定器と同等に動作する。
論文 参考訳(メタデータ) (2024-05-19T17:49:33Z) - Scaling Laws for Data Filtering -- Data Curation cannot be Compute Agnostic [99.3682210827572]
ビジョン言語モデル(VLM)は、慎重にキュレートされたWebデータセット上で数千のGPU時間でトレーニングされる。
データキュレーション戦略は通常、トレーニングに利用可能な計算を知らないように開発されている。
ウェブデータの非均一性を考慮したニューラルスケーリング法則を導入する。
論文 参考訳(メタデータ) (2024-04-10T17:27:54Z) - PRIMO: Private Regression in Multiple Outcomes [4.111899441919164]
複数アウトカムでプライベート回帰と呼ぶ新しい差分プライベート回帰設定を導入する。
第4条1$では、十分な統計摂動(SSP)に基づくテクニックを変更し、$l$への依存を大幅に改善する。
セクション5$では、1000 Genomesプロジェクトのデータを用いて、複数の表現型に対する個人のゲノムリスク予測のタスクにアルゴリズムを適用します。
論文 参考訳(メタデータ) (2023-03-07T19:32:13Z) - Membership Inference Attacks against Synthetic Data through Overfitting
Detection [84.02632160692995]
我々は、攻撃者が基礎となるデータ分布についてある程度の知識を持っていると仮定する現実的なMIA設定について論じる。
生成モデルの局所的なオーバーフィッティングをターゲットとして,メンバシップを推論することを目的とした密度ベースMIAモデルであるDOMIASを提案する。
論文 参考訳(メタデータ) (2023-02-24T11:27:39Z) - A Statistical Learning View of Simple Kriging [0.0]
統計的学習の観点から,簡単なKrigingタスクを解析する。
目標は、最小2次リスクで他の場所にある未知の値を予測することである。
我々は、真の最小化を模倣するプラグイン予測則の過剰なリスクに対して、$O_mathbbP (1/sqrtn)$の非漸近境界を証明した。
論文 参考訳(メタデータ) (2022-02-15T12:46:43Z) - Datamodels: Predicting Predictions from Training Data [86.66720175866415]
本稿では,モデルクラスの振る舞いを学習データの観点から分析するための概念的枠組みであるデータモデリングについて述べる。
単純な線形データモデルであっても、モデル出力をうまく予測できることが示される。
論文 参考訳(メタデータ) (2022-02-01T18:15:24Z) - Public Data-Assisted Mirror Descent for Private Model Training [23.717811604829148]
差分プライベート(DP)モデルトレーニングにおけるプライバシ/ユーティリティトレードオフを改善するために,公開データを使用することの問題点を再考する。
我々は,従来のDP-SGDやDP-FedAvgよりもDP-SGDやDP-FedAvgよりもDP-FedAvgの方が大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2021-12-01T00:21:40Z) - Strongly universally consistent nonparametric regression and
classification with privatised data [2.879036956042183]
非パラメトリック回帰の古典的問題を再考するが、局所的な差分プライバシー制約を課す。
我々は回帰関数の新しい推定器を設計し、よく研究された分割回帰推定器の民営版とみなすことができる。
論文 参考訳(メタデータ) (2020-10-31T09:00:43Z) - Identifying Statistical Bias in Dataset Replication [102.92137353938388]
モデルが(11-14%) の精度低下を示すImageNetデータセットの再現について検討した。
同定された統計バイアスを補正した後、推定3.6%のpm 1.5%の当初の11.7%のpm 1.0%の精度低下しか記録されていない。
論文 参考訳(メタデータ) (2020-05-19T17:48:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。