論文の概要: Generate-then-Verify: Reconstructing Data from Limited Published Statistics
- arxiv url: http://arxiv.org/abs/2504.21199v1
- Date: Tue, 29 Apr 2025 22:06:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-01 16:40:00.448566
- Title: Generate-then-Verify: Reconstructing Data from Limited Published Statistics
- Title(参考訳): Generate-then-Verify: 限られた統計データからデータを再構築する
- Authors: Terrance Liu, Eileen Xiao, Pratiksha Thaker, Adam Smith, Zhiwei Steven Wu,
- Abstract要約: 我々は、多くの可能なデータセットが公表された統計に一致し、プライベートデータセット全体を完璧に再構築することが不可能な体制に焦点を当てる。
まず、$textbfgenerates$一組のクレームを、次に$textbfverify$各クレームがすべての可能なデータセットに対して保持するかどうかを判断する、新しい整数プログラミング手法を導入します。
我々は、米国の十年国勢調査のリリースによる住宅レベルのマイクロデータに対する我々のアプローチを評価し、そのようなデータに関する情報が比較的少ない場合でも、プライバシー侵害は継続可能であることを実証した。
- 参考スコア(独自算出の注目度): 22.649631494395653
- License:
- Abstract: We study the problem of reconstructing tabular data from aggregate statistics, in which the attacker aims to identify interesting claims about the sensitive data that can be verified with 100% certainty given the aggregates. Successful attempts in prior work have conducted studies in settings where the set of published statistics is rich enough that entire datasets can be reconstructed with certainty. In our work, we instead focus on the regime where many possible datasets match the published statistics, making it impossible to reconstruct the entire private dataset perfectly (i.e., when approaches in prior work fail). We propose the problem of partial data reconstruction, in which the goal of the adversary is to instead output a $\textit{subset}$ of rows and/or columns that are $\textit{guaranteed to be correct}$. We introduce a novel integer programming approach that first $\textbf{generates}$ a set of claims and then $\textbf{verifies}$ whether each claim holds for all possible datasets consistent with the published aggregates. We evaluate our approach on the housing-level microdata from the U.S. Decennial Census release, demonstrating that privacy violations can still persist even when information published about such data is relatively sparse.
- Abstract(参考訳): 本研究では,集計データから表型データを再構築する問題について検討し,アタッカーがアタッカーに対して100%確実性で検証可能なセンシティブなデータに関する興味深いクレームを識別することを目的とする。
先行研究で成功した試みは、公表された統計の集合が十分にリッチで、データセット全体を確実に再構築できるような環境で研究されている。
我々の研究では、多くの可能なデータセットが公表された統計に一致し、プライベートデータセット全体を完璧に再構築することは不可能である(つまり、前の作業でアプローチが失敗する場合)。
そこで本研究では,行や列の$\textit{subset}$を$\textit{guaranteed to be correct}$として出力することを目的とする部分的データ再構成の問題を提案する。
最初に$\textbf{generates}$一組のクレームを持ち、次に$\textbf{verify}$各クレームが発行されたアグリゲーションと整合した全ての可能なデータセットに対して保持するかどうかを問う新しい整数プログラミング手法を導入する。
我々は、米国の十年国勢調査のリリースによる住宅レベルのマイクロデータに対する我々のアプローチを評価し、そのようなデータに関する情報が比較的少ない場合でも、プライバシー侵害は継続可能であることを実証した。
関連論文リスト
- Synthetic Census Data Generation via Multidimensional Multiset Sum [7.900694093691988]
我々は、Censusの統計データのみから合成マイクロデータを生成するツールを提供する。
我々は,本手法が実際にうまく機能していることを示し,その性能を説明する理論的議論を行う。
論文 参考訳(メタデータ) (2024-04-15T19:06:37Z) - Scaling Laws for Data Filtering -- Data Curation cannot be Compute Agnostic [99.3682210827572]
ビジョン言語モデル(VLM)は、慎重にキュレートされたWebデータセット上で数千のGPU時間でトレーニングされる。
データキュレーション戦略は通常、トレーニングに利用可能な計算を知らないように開発されている。
ウェブデータの非均一性を考慮したニューラルスケーリング法則を導入する。
論文 参考訳(メタデータ) (2024-04-10T17:27:54Z) - Efficient Approximate Recovery from Pooled Data Using Doubly Regular
Pooling Schemes [1.7403133838762448]
隠れたビットをグリーディーな方法で推定する近似再構成アルゴリズムを解析する。
我々の分析はノイズの度合いと$sigma$の空間性に一様である。
論文 参考訳(メタデータ) (2023-02-28T19:31:40Z) - Membership Inference Attacks against Synthetic Data through Overfitting
Detection [84.02632160692995]
我々は、攻撃者が基礎となるデータ分布についてある程度の知識を持っていると仮定する現実的なMIA設定について論じる。
生成モデルの局所的なオーバーフィッティングをターゲットとして,メンバシップを推論することを目的とした密度ベースMIAモデルであるDOMIASを提案する。
論文 参考訳(メタデータ) (2023-02-24T11:27:39Z) - Confidence-Ranked Reconstruction of Census Microdata from Published
Statistics [45.39928315344449]
プライベートデータセットに対する再構築攻撃は、データセットに関する公開アクセス情報を入力する。
我々の攻撃は、集約されたクエリ統計量$Q(D)Rmm$から全行を再構築できるだけでなく、その確率で確実に復元された行をランク付けできることを示す。
当社の攻撃は、公開ディストリビューションや、プライベートデータセットである$D$がサンプリングされた人口へのアクセスのみに基づく攻撃よりもはるかに優れています。
論文 参考訳(メタデータ) (2022-11-06T14:08:43Z) - Multi-Source Causal Inference Using Control Variates [81.57072928775509]
本稿では,複数のデータソースから因果効果を推定するアルゴリズムを提案する。
理論的には、これはATE推定値の分散を減少させる。
このフレームワークを結果選択バイアスの下で観測データからの推論に適用する。
論文 参考訳(メタデータ) (2021-03-30T21:20:51Z) - Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。
自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。
我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文 参考訳(メタデータ) (2020-10-03T03:18:52Z) - Identifying Statistical Bias in Dataset Replication [102.92137353938388]
モデルが(11-14%) の精度低下を示すImageNetデータセットの再現について検討した。
同定された統計バイアスを補正した後、推定3.6%のpm 1.5%の当初の11.7%のpm 1.0%の精度低下しか記録されていない。
論文 参考訳(メタデータ) (2020-05-19T17:48:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。