論文の概要: Privacy for Free: How does Dataset Condensation Help Privacy?
- arxiv url: http://arxiv.org/abs/2206.00240v1
- Date: Wed, 1 Jun 2022 05:39:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-02 13:08:30.688875
- Title: Privacy for Free: How does Dataset Condensation Help Privacy?
- Title(参考訳): privacy for free: データセットの凝縮はプライバシにどのように役立つのか?
- Authors: Tian Dong, Bo Zhao and Lingjuan Lyu
- Abstract要約: 私たちは、データセット凝縮(DC)が、プライベートデータ生成のために従来のデータジェネレータを置き換えるためのより良いソリューションであることも確認しています。
我々は、DC合成データの視覚的プライバシとメンバシップのプライバシを、損失ベースと最先端の可能性ベースのメンバシップ推論攻撃の両方を起動することによって実証的に検証する。
- 参考スコア(独自算出の注目度): 21.418263507735684
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To prevent unintentional data leakage, research community has resorted to
data generators that can produce differentially private data for model
training. However, for the sake of the data privacy, existing solutions suffer
from either expensive training cost or poor generalization performance.
Therefore, we raise the question whether training efficiency and privacy can be
achieved simultaneously. In this work, we for the first time identify that
dataset condensation (DC) which is originally designed for improving training
efficiency is also a better solution to replace the traditional data generators
for private data generation, thus providing privacy for free. To demonstrate
the privacy benefit of DC, we build a connection between DC and differential
privacy, and theoretically prove on linear feature extractors (and then
extended to non-linear feature extractors) that the existence of one sample has
limited impact ($O(m/n)$) on the parameter distribution of networks trained on
$m$ samples synthesized from $n (n \gg m)$ raw samples by DC. We also
empirically validate the visual privacy and membership privacy of
DC-synthesized data by launching both the loss-based and the state-of-the-art
likelihood-based membership inference attacks. We envision this work as a
milestone for data-efficient and privacy-preserving machine learning.
- Abstract(参考訳): 意図しないデータ漏洩を防止するため、研究コミュニティはモデルトレーニングのための差分プライベートデータを生成するデータジェネレータを活用している。
しかし、データプライバシのために、既存のソリューションは高価なトレーニングコストか、一般化性能の低下に苦しめられている。
したがって、トレーニング効率とプライバシを同時に達成できるかどうかという問題を提起する。
本研究では,トレーニング効率を向上させるために当初設計されていたデータセット凝縮(dc)が,従来のデータジェネレータをプライベートデータ生成に置き換え,プライバシを無償で提供するための優れたソリューションであることを示す。
DCのプライバシーの利点を実証するために、DCと差分プライバシーの接続を構築し、線形特徴抽出器(それから非線形特徴抽出器に拡張)で理論的に証明し、DCによって合成された$n (n \gg m)$のサンプルから合成された$m$でトレーニングされたネットワークのパラメータ分布に1つのサンプルが存在することを証明した(O(m/n)$)。
また,dc合成データの視覚的プライバシとメンバシッププライバシを,損失ベースと最先端の可能性に基づくメンバシップ推論攻撃の両方を起動することによって実証的に検証した。
データ効率とプライバシ保護機械学習のマイルストーンとして、この作業が期待されています。
関連論文リスト
- FT-PrivacyScore: Personalized Privacy Scoring Service for Machine Learning Participation [4.772368796656325]
実際には、制御されたデータアクセスは、多くの産業や研究環境でデータプライバシを保護する主要な方法である。
我々は,FT-PrivacyScoreのプロトタイプを開発し,モデル微調整作業に参加する際のプライバシーリスクを効率よく定量的に推定できることを実証した。
論文 参考訳(メタデータ) (2024-10-30T02:41:26Z) - Privacy Amplification for the Gaussian Mechanism via Bounded Support [64.86780616066575]
インスタンスごとの差分プライバシー(pDP)やフィッシャー情報損失(FIL)といったデータ依存のプライバシ会計フレームワークは、固定されたトレーニングデータセット内の個人に対してきめ細かいプライバシー保証を提供する。
本稿では,データ依存会計下でのプライバシ保証を向上することを示すとともに,バウンドサポートによるガウス機構の簡単な修正を提案する。
論文 参考訳(メタデータ) (2024-03-07T21:22:07Z) - Probing the Transition to Dataset-Level Privacy in ML Models Using an
Output-Specific and Data-Resolved Privacy Profile [23.05994842923702]
差分プライバシーメカニズムを用いてデータセットでトレーニングされたモデルが、近隣のデータセットでトレーニングされた結果の分布によってカバーされる範囲を定量化するプライバシー指標について検討する。
プライバシプロファイルは、近隣のディストリビューションで発生する不明瞭性への観察された遷移を、$epsilon$の減少として調査するために使用できることを示す。
論文 参考訳(メタデータ) (2023-06-27T20:39:07Z) - Differentially Private Synthetic Data Generation via
Lipschitz-Regularised Variational Autoencoders [3.7463972693041274]
生成モデルが個々のトレーニング記録の多くの詳細を記憶する傾向があることは、しばしば見落とされがちである。
本稿では,生成モデルにおける本質を直接活用するデータ生成手法について検討する。
論文 参考訳(メタデータ) (2023-04-22T07:24:56Z) - Private Set Generation with Discriminative Information [63.851085173614]
異なるプライベートなデータ生成は、データプライバシの課題に対する有望な解決策である。
既存のプライベートな生成モデルは、合成サンプルの有用性に苦慮している。
我々は,最先端アプローチのサンプルユーティリティを大幅に改善する,シンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2022-11-07T10:02:55Z) - No Free Lunch in "Privacy for Free: How does Dataset Condensation Help
Privacy" [75.98836424725437]
データプライバシを保護するために設計された新しい手法は、慎重に精査する必要がある。
プライバシ保護の失敗は検出し難いが,プライバシ保護法を実装したシステムが攻撃された場合,破滅的な結果につながる可能性がある。
論文 参考訳(メタデータ) (2022-09-29T17:50:23Z) - Smooth Anonymity for Sparse Graphs [69.1048938123063]
しかし、スパースデータセットを共有するという点では、差分プライバシーがプライバシのゴールドスタンダードとして浮上している。
本研究では、スムーズな$k$匿名性(スムーズな$k$匿名性)と、スムーズな$k$匿名性(スムーズな$k$匿名性)を提供する単純な大規模アルゴリズムを設計する。
論文 参考訳(メタデータ) (2022-07-13T17:09:25Z) - Individual Privacy Accounting for Differentially Private Stochastic Gradient Descent [69.14164921515949]
DP-SGDで訓練されたモデルをリリースする際の個々の事例に対するプライバシー保証を特徴付ける。
ほとんどの例では、最悪のケースよりも強力なプライバシー保証を享受しています。
これは、モデルユーティリティの観点からは守られないグループが同時に、より弱いプライバシー保証を経験することを意味する。
論文 参考訳(メタデータ) (2022-06-06T13:49:37Z) - Causally Constrained Data Synthesis for Private Data Release [36.80484740314504]
原データの特定の統計特性を反映した合成データを使用することで、原データのプライバシーが保護される。
以前の作業では、正式なプライバシ保証を提供するために、差分プライベートなデータリリースメカニズムを使用していました。
トレーニングプロセスに因果情報を導入し、上記のトレードオフを好意的に修正することを提案する。
論文 参考訳(メタデータ) (2021-05-27T13:46:57Z) - Differentially Private Federated Learning with Laplacian Smoothing [72.85272874099644]
フェデレートラーニングは、ユーザ間でプライベートデータを共有せずに、協調的にモデルを学習することで、データのプライバシを保護することを目的としている。
敵は、リリースしたモデルを攻撃することによって、プライベートトレーニングデータを推測することができる。
差別化プライバシは、トレーニングされたモデルの正確性や実用性を著しく低下させる価格で、このような攻撃に対する統計的保護を提供する。
論文 参考訳(メタデータ) (2020-05-01T04:28:38Z) - The Cost of Privacy in Asynchronous Differentially-Private Machine
Learning [17.707240607542236]
我々は、複数のプライベートデータセット上で機械学習モデルを協調訓練するための、微分プライベート非同期アルゴリズムを開発した。
中央学習者は、通信可能なときに、プライベートデータ所有者と1対1で対話する。
提案したプライバシ保存非同期アルゴリズムの性能を予測できることを実証する。
論文 参考訳(メタデータ) (2020-03-18T23:06:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。