論文の概要: Leveraging Public Data for Practical Private Query Release
- arxiv url: http://arxiv.org/abs/2102.08598v1
- Date: Wed, 17 Feb 2021 06:19:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-18 14:26:21.228501
- Title: Leveraging Public Data for Practical Private Query Release
- Title(参考訳): パブリックデータを活用するPrivate Queryの実用的リリース
- Authors: Terrance Liu, Giuseppe Vietri, Thomas Steinke, Jonathan Ullman, Zhiwei
Steven Wu
- Abstract要約: 既存のベースラインとは異なり、PMWPubは、関連するディストリビューションから引き出された公開データを事前情報として利用します。
米国コミュニティサーベイ(ACS)およびADULTデータセットに関する理論的分析と実証的評価を提供します。
PMWPubは、多くの既存のメソッドを実行する高次元データドメインによくスケールする。
- 参考スコア(独自算出の注目度): 24.615338449313676
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In many statistical problems, incorporating priors can significantly improve
performance. However, the use of prior knowledge in differentially private
query release has remained underexplored, despite such priors commonly being
available in the form of public datasets, such as previous US Census releases.
With the goal of releasing statistics about a private dataset, we present
PMW^Pub, which -- unlike existing baselines -- leverages public data drawn from
a related distribution as prior information. We provide a theoretical analysis
and an empirical evaluation on the American Community Survey (ACS) and ADULT
datasets, which shows that our method outperforms state-of-the-art methods.
Furthermore, PMW^Pub scales well to high-dimensional data domains, where
running many existing methods would be computationally infeasible.
- Abstract(参考訳): 多くの統計的問題では、プリミティブを組み込むことでパフォーマンスが大幅に向上する。
しかし、差動的プライベートクエリリリースにおける事前知識の使用は、前回の米国国勢調査のような公開データセットの形で一般的に利用可能であるにもかかわらず、未調査のままである。
プライベートデータセットに関する統計を公開することを目的として、既存のベースラインとは異なり、PMW^Pubは、関連するディストリビューションから引き出された公開データを事前情報として活用する。
我々は,米国コミュニティ調査(acs)とアダルトデータセットの理論的解析と経験的評価を行い,その手法が最先端の手法よりも優れていることを示した。
さらに、PMW^Pubは高次元データ領域によくスケールし、既存の多くのメソッドを実行することは計算的に不可能である。
関連論文リスト
- Self-Comparison for Dataset-Level Membership Inference in Large (Vision-)Language Models [73.94175015918059]
本稿では,自己比較に基づくデータセットレベルのメンバシップ推定手法を提案する。
本手法では, 同一分布における地中構造データや非構造データへのアクセスは不要である。
論文 参考訳(メタデータ) (2024-10-16T23:05:59Z) - Federated Prediction-Powered Inference from Decentralized Data [40.84399531998246]
予測パワー推論(PPI)は信頼性が低いにもかかわらず統計的妥当性を確保するために提案されている。
Fed-PPIフレームワークは、プライベートデータ上でローカルモデルをトレーニングし、Federated Learning (FL)を通じてそれらを集約し、PPIを使用して信頼区間を導出する。
論文 参考訳(メタデータ) (2024-09-03T09:14:18Z) - Source-Free Domain-Invariant Performance Prediction [68.39031800809553]
本研究では,不確実性に基づく推定を主軸としたソースフリー手法を提案する。
オブジェクト認識データセットのベンチマーク実験により、既存のソースベースの手法は、限られたソースサンプルの可用性で不足していることが判明した。
提案手法は,現在の最先端のソースフリーおよびソースベース手法よりも優れており,ドメイン不変性能推定の有効性が確認されている。
論文 参考訳(メタデータ) (2024-08-05T03:18:58Z) - Uncertainty Quantification of Data Shapley via Statistical Inference [20.35973700939768]
データ市場の出現は、データバリュエーションの重要性の高まりを浮き彫りにしている。
機械学習の世界では、Data Shapleyはデータバリュエーションに広く受け入れられている方法だ。
本稿では,データ共有度と無限次U-統計量の関係について述べる。
論文 参考訳(メタデータ) (2024-07-28T02:54:27Z) - Synthetic Census Data Generation via Multidimensional Multiset Sum [7.900694093691988]
我々は、Censusの統計データのみから合成マイクロデータを生成するツールを提供する。
我々は,本手法が実際にうまく機能していることを示し,その性能を説明する理論的議論を行う。
論文 参考訳(メタデータ) (2024-04-15T19:06:37Z) - Query of CC: Unearthing Large Scale Domain-Specific Knowledge from
Public Corpora [104.16648246740543]
大規模言語モデルに基づく効率的なデータ収集手法を提案する。
この方法は、大きな言語モデルを通してシード情報をブートストラップし、公開コーパスから関連データを検索する。
特定のドメインに関する知識関連のデータを収集するだけでなく、潜在的な推論手順でデータを抽出する。
論文 参考訳(メタデータ) (2024-01-26T03:38:23Z) - The Impact of Differential Feature Under-reporting on Algorithmic Fairness [86.275300739926]
解析的に抽出可能な差分特徴のアンダーレポーティングモデルを提案する。
そして、この種のデータバイアスがアルゴリズムの公正性に与える影響を特徴づける。
我々の結果は、実世界のデータ設定では、アンダーレポートが典型的に格差を増大させることを示している。
論文 参考訳(メタデータ) (2024-01-16T19:16:22Z) - Optimal Locally Private Nonparametric Classification with Public Data [2.631955426232593]
本研究では,非パラメトリック分類に着目して,公共データを利用した非対話型局所微分プライベート(LDP)学習の問題点について検討する。
後方ドリフト仮定の下では, LDP制約による最小収束率を導出する。
そこで本研究では,極小最大収束率を達成できる新しい手法である局所微分プライベート分類木を提案する。
論文 参考訳(メタデータ) (2023-11-19T16:35:01Z) - A Unified View of Differentially Private Deep Generative Modeling [60.72161965018005]
プライバシー上の懸念のあるデータには、データアクセスとデータ共有を頻繁に禁止する厳格な規制が伴う。
これらの障害を克服することは、プライバシーに敏感なデータを含む多くの現実世界のアプリケーションシナリオにおいて、技術的進歩の鍵となる。
差分的プライベート(DP)データパブリッシングは、データの衛生化された形式のみを公開する、魅力的なソリューションを提供する。
論文 参考訳(メタデータ) (2023-09-27T14:38:16Z) - On PAC Learning Halfspaces in Non-interactive Local Privacy Model with
Public Unlabeled Data [18.820311737806456]
非インタラクティブ局所微分モデル(NLDP)におけるPAC学習ハーフスペースの問題について検討する。
本研究は,個人データと公開データの両方において,次元および他の用語でのみ線形なサンプル複素量を実現することができることを示す。
論文 参考訳(メタデータ) (2022-09-17T12:19:20Z) - Post-processing of Differentially Private Data: A Fairness Perspective [53.29035917495491]
本稿では,ポストプロセッシングが個人やグループに異なる影響を与えることを示す。
差分的にプライベートなデータセットのリリースと、ダウンストリームの決定にそのようなプライベートなデータセットを使用するという、2つの重要な設定を分析している。
それは、異なる公正度尺度の下で(ほぼ)最適である新しい後処理機構を提案する。
論文 参考訳(メタデータ) (2022-01-24T02:45:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。