論文の概要: Learning from Mixtures of Private and Public Populations
- arxiv url: http://arxiv.org/abs/2008.00331v1
- Date: Sat, 1 Aug 2020 20:11:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-04 00:19:04.223872
- Title: Learning from Mixtures of Private and Public Populations
- Title(参考訳): 個人人口と公共人口の混合から学ぶ
- Authors: Raef Bassily, Shay Moran and Anupama Nandi
- Abstract要約: プライバシー制約下での教師あり学習の新しいモデルについて検討する。
目標は、プライベートな例に限って、差分プライバシーを満たす学習アルゴリズムを設計することである。
- 参考スコア(独自算出の注目度): 25.365515662502784
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We initiate the study of a new model of supervised learning under privacy
constraints. Imagine a medical study where a dataset is sampled from a
population of both healthy and unhealthy individuals. Suppose healthy
individuals have no privacy concerns (in such case, we call their data
"public") while the unhealthy individuals desire stringent privacy protection
for their data. In this example, the population (data distribution) is a
mixture of private (unhealthy) and public (healthy) sub-populations that could
be very different.
Inspired by the above example, we consider a model in which the population
$\mathcal{D}$ is a mixture of two sub-populations: a private sub-population
$\mathcal{D}_{\sf priv}$ of private and sensitive data, and a public
sub-population $\mathcal{D}_{\sf pub}$ of data with no privacy concerns. Each
example drawn from $\mathcal{D}$ is assumed to contain a privacy-status bit
that indicates whether the example is private or public. The goal is to design
a learning algorithm that satisfies differential privacy only with respect to
the private examples.
Prior works in this context assumed a homogeneous population where private
and public data arise from the same distribution, and in particular designed
solutions which exploit this assumption. We demonstrate how to circumvent this
assumption by considering, as a case study, the problem of learning linear
classifiers in $\mathbb{R}^d$. We show that in the case where the privacy
status is correlated with the target label (as in the above example), linear
classifiers in $\mathbb{R}^d$ can be learned, in the agnostic as well as the
realizable setting, with sample complexity which is comparable to that of the
classical (non-private) PAC-learning. It is known that this task is impossible
if all the data is considered private.
- Abstract(参考訳): 我々は,プライバシー制約下での教師あり学習の新しいモデルの研究を開始する。
健康な人や不健康な人の集団からデータセットを採取する医療研究を想像してください。
健康な個人がプライバシーに懸念を抱いていない場合(そのような場合、データを「公開」と呼ぶ)、不健康な個人がデータに対する厳格なプライバシー保護を望んでいると仮定する。
この例では、人口(データ分布)は個人(不健康)と公共(健康)のサブ人口の混合であり、非常に異なる可能性がある。
上記の例に触発されて、人口の$\mathcal{d}$が2つのサブ人口の混合であるモデルを考える: プライベートなサブ人口の$\mathcal{d}_{\sf priv}$ プライベートでセンシティブなデータと、プライバシーの懸念のないパブリックなサブ人口の$\mathcal{d}_{\sf pub}$である。
$\mathcal{D}$から引き出された各例は、その例がプライベートかパブリックかを示すプライバシー統計ビットを含むと仮定される。
目標は、プライベートな例に対してのみ差分プライバシーを満たす学習アルゴリズムを設計することだ。
この文脈における先行研究は、プライベートおよびパブリックデータが同じ分布から生じる均質な集団を仮定し、特にこの仮定を利用する設計されたソリューションを仮定した。
本研究では, 線形分類器の学習問題である$\mathbb{r}^d$ を考えることにより, この仮定を回避できることを示す。
プライバシステータスがターゲットラベルと相関している場合(上述の例のように)、古典的(非プライベートな)PAC学習に匹敵する複雑さを持つ、非依存的かつ実現可能な設定において、$\mathbb{R}^d$の線形分類器が学習可能であることを示す。
すべてのデータをプライベートとみなすと、このタスクは不可能であることが知られている。
関連論文リスト
- Differentially Private Computation of Basic Reproduction Numbers in Networked Epidemic Models [3.1966459264817875]
本研究では,ネットワーク化流行モデルの再生数を,差分的にプライベートに計算し,解放するフレームワークを開発する。
実世界の条件下では、平均して7.6%の誤差を発生させながら、差分的にプライベートな方法でR_0$を計算することができる。
論文 参考訳(メタデータ) (2023-09-29T14:38:02Z) - Private Distribution Learning with Public Data: The View from Sample
Compression [15.626115475759713]
公共データへのアクセスによる個人分布学習の課題について検討する。
我々は,クラス$mathcal Q$のパブリックな学習性は,サンプル圧縮スキームの存在に関係していることを示す。
論文 参考訳(メタデータ) (2023-08-11T17:15:12Z) - Probing the Transition to Dataset-Level Privacy in ML Models Using an
Output-Specific and Data-Resolved Privacy Profile [23.05994842923702]
差分プライバシーメカニズムを用いてデータセットでトレーニングされたモデルが、近隣のデータセットでトレーニングされた結果の分布によってカバーされる範囲を定量化するプライバシー指標について検討する。
プライバシプロファイルは、近隣のディストリビューションで発生する不明瞭性への観察された遷移を、$epsilon$の減少として調査するために使用できることを示す。
論文 参考訳(メタデータ) (2023-06-27T20:39:07Z) - Learning across Data Owners with Joint Differential Privacy [13.531808240117645]
データ所有者は、共同微分プライバシーと呼ばれるプライバシー概念の下で、機械学習モデルを協調的に訓練する環境について検討する。
この設定では、各データ所有者のためにトレーニングされたモデルは、プライバシを考慮していない$j$のデータと、異なるプライバシを保証する他の所有者のデータを使用します。
本稿では,DP-SGDの変種であるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-05-25T05:11:40Z) - Membership Inference Attacks against Synthetic Data through Overfitting
Detection [84.02632160692995]
我々は、攻撃者が基礎となるデータ分布についてある程度の知識を持っていると仮定する現実的なMIA設定について論じる。
生成モデルの局所的なオーバーフィッティングをターゲットとして,メンバシップを推論することを目的とした密度ベースMIAモデルであるDOMIASを提案する。
論文 参考訳(メタデータ) (2023-02-24T11:27:39Z) - Analyzing Privacy Leakage in Machine Learning via Multiple Hypothesis
Testing: A Lesson From Fano [83.5933307263932]
本研究では,離散データに対するデータ再構成攻撃について検討し,仮説テストの枠組みの下で解析する。
基礎となるプライベートデータが$M$のセットから値を取ると、ターゲットのプライバシパラメータ$epsilon$が$O(log M)$になる。
論文 参考訳(メタデータ) (2022-10-24T23:50:12Z) - Smooth Anonymity for Sparse Graphs [69.1048938123063]
しかし、スパースデータセットを共有するという点では、差分プライバシーがプライバシのゴールドスタンダードとして浮上している。
本研究では、スムーズな$k$匿名性(スムーズな$k$匿名性)と、スムーズな$k$匿名性(スムーズな$k$匿名性)を提供する単純な大規模アルゴリズムを設計する。
論文 参考訳(メタデータ) (2022-07-13T17:09:25Z) - Individual Privacy Accounting for Differentially Private Stochastic Gradient Descent [69.14164921515949]
DP-SGDで訓練されたモデルをリリースする際の個々の事例に対するプライバシー保証を特徴付ける。
ほとんどの例では、最悪のケースよりも強力なプライバシー保証を享受しています。
これは、モデルユーティリティの観点からは守られないグループが同時に、より弱いプライバシー保証を経験することを意味する。
論文 参考訳(メタデータ) (2022-06-06T13:49:37Z) - Mixed Differential Privacy in Computer Vision [133.68363478737058]
AdaMixは、プライベートとパブリックの両方の画像データを使用して、ディープニューラルネットワーク分類器をトレーニングするための適応型微分プライベートアルゴリズムである。
プライベートデータを無視する数ショットあるいはゼロショットの学習ベースラインは、大規模なプライベートデータセットの微調整よりも優れています。
論文 参考訳(メタデータ) (2022-03-22T06:15:43Z) - On the Intrinsic Differential Privacy of Bagging [69.70602220716718]
我々は、Bagingが、同じプライバシー予算を持つ最先端の差分プライベート機械学習手法よりも、はるかに高い精度を達成することを示す。
実験結果から,Bagingは,同一のプライバシー予算を持つ最先端の差分プライベート機械学習手法よりも格段に高い精度を達成できることが示された。
論文 参考訳(メタデータ) (2020-08-22T14:17:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。