論文の概要: SecretGen: Privacy Recovery on Pre-Trained Models via Distribution
Discrimination
- arxiv url: http://arxiv.org/abs/2207.12263v1
- Date: Mon, 25 Jul 2022 15:35:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-26 16:00:50.760611
- Title: SecretGen: Privacy Recovery on Pre-Trained Models via Distribution
Discrimination
- Title(参考訳): SecretGen: 分散識別による事前学習モデルのプライバシ回復
- Authors: Zhuowen Yuan, Fan Wu, Yunhui Long, Chaowei Xiao, Bo Li
- Abstract要約: 本研究では,新たなプライベートデータ再構築フレームワークであるSecretGenを提案する。
SecretGenは、真のクラスの予測に関する事前の知識を必要としない。
私たちはSecretGenが、そのような事前知識を活用するものと比較して、同様のパフォーマンスでプライベートデータを復元できることを示します。
- 参考スコア(独自算出の注目度): 17.916489394284284
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transfer learning through the use of pre-trained models has become a growing
trend for the machine learning community. Consequently, numerous pre-trained
models are released online to facilitate further research. However, it raises
extensive concerns on whether these pre-trained models would leak
privacy-sensitive information of their training data. Thus, in this work, we
aim to answer the following questions: "Can we effectively recover private
information from these pre-trained models? What are the sufficient conditions
to retrieve such sensitive information?" We first explore different statistical
information which can discriminate the private training distribution from other
distributions. Based on our observations, we propose a novel private data
reconstruction framework, SecretGen, to effectively recover private
information. Compared with previous methods which can recover private data with
the ground true prediction of the targeted recovery instance, SecretGen does
not require such prior knowledge, making it more practical. We conduct
extensive experiments on different datasets under diverse scenarios to compare
SecretGen with other baselines and provide a systematic benchmark to better
understand the impact of different auxiliary information and optimization
operations. We show that without prior knowledge about true class prediction,
SecretGen is able to recover private data with similar performance compared
with the ones that leverage such prior knowledge. If the prior knowledge is
given, SecretGen will significantly outperform baseline methods. We also
propose several quantitative metrics to further quantify the privacy
vulnerability of pre-trained models, which will help the model selection for
privacy-sensitive applications. Our code is available at:
https://github.com/AI-secure/SecretGen.
- Abstract(参考訳): 事前学習されたモデルの利用によるトランスファー学習は、機械学習コミュニティのトレンドになりつつある。
その結果、多くの事前訓練されたモデルがオンラインでリリースされ、さらなる研究が促進される。
しかし、これらの事前訓練されたモデルが、彼らのトレーニングデータのプライバシーに敏感な情報を漏洩するかどうかについて、大きな懸念を抱いている。
そこで,本稿では,「事前学習したモデルから効果的に個人情報を回収できるのか?そのような機密情報を回収するのに十分な条件は何か?」という問いに答える。
まず,プライベートなトレーニング分布と他の分布を区別できる異なる統計情報を探索する。
そこで本研究では,個人情報を効果的に復元する新しいデータ復元フレームワークであるsecretgenを提案する。
対象とするリカバリインスタンスの真の予測に基づいてプライベートデータをリカバリできる以前の方法と比較して、secretgenはそのような事前知識を必要としないため、より実用的になる。
さまざまなシナリオ下でさまざまなデータセットに対して広範な実験を行い、SecretGenを他のベースラインと比較し、異なる補助情報の影響をよりよく理解するための体系的なベンチマークと最適化操作を提供します。
真のクラス予測に関する事前知識がなければ、SecretGenは、そのような事前知識を利用するものと比較して、同様のパフォーマンスでプライベートデータを復元できることを示す。
事前の知識が与えられた場合、SecretGenはベースラインメソッドを大幅に上回る。
また,プライバシに敏感なアプリケーションのモデル選択を支援する,事前学習モデルのプライバシ脆弱性をさらに定量化するための定量的指標をいくつか提案する。
私たちのコードは、https://github.com/AI-Secure/SecretGen.comで利用可能です。
関連論文リスト
- DEPN: Detecting and Editing Privacy Neurons in Pretrained Language
Models [46.04803661300974]
大量のデータに基づいて事前訓練された大規模な言語モデルは、トレーニングデータ内の豊富な知識と情報をキャプチャする。
事前訓練された言語モデルにおけるデータ記憶と復活の能力は、以前の研究で明らかになったように、データ漏洩のリスクをもたらす。
本稿では,事前学習言語モデルにおけるプライバシニューロンの検出と編集のためのフレームワークDEPNを提案する。
論文 参考訳(メタデータ) (2023-10-31T03:09:36Z) - Fantastic Gains and Where to Find Them: On the Existence and Prospect of
General Knowledge Transfer between Any Pretrained Model [74.62272538148245]
事前訓練されたモデルの任意のペアリングに対して、一方のモデルは他方では利用できない重要なデータコンテキストを抽出する。
このような「補的」な知識を,性能劣化を伴わずに,あるモデルから別のモデルへ伝達できるかどうかを検討する。
論文 参考訳(メタデータ) (2023-10-26T17:59:46Z) - Segue: Side-information Guided Generative Unlearnable Examples for
Facial Privacy Protection in Real World [64.4289385463226]
生成不可能な例としては、Segue: Side-information guided Generative unlearnable Exampleを提案する。
転送性を向上させるために,真のラベルや擬似ラベルなどの側面情報を導入する。
JPEG圧縮、敵対的トレーニング、およびいくつかの標準的なデータ拡張に抵抗することができる。
論文 参考訳(メタデータ) (2023-10-24T06:22:37Z) - Approximate, Adapt, Anonymize (3A): a Framework for Privacy Preserving
Training Data Release for Machine Learning [3.29354893777827]
データリリースフレームワークである3A(Approximate, Adapt, Anonymize)を導入し、機械学習のデータユーティリティを最大化する。
本稿では,実データセットと民生データセットでトレーニングしたモデルの性能指標の相違が最小限に抑えられることを示す実験的な証拠を示す。
論文 参考訳(メタデータ) (2023-07-04T18:37:11Z) - Privacy Implications of Retrieval-Based Language Models [26.87950501433784]
本稿では,検索に基づくLM,特に$k$NN-LMにおけるプライバシリスクに関する最初の研究について述べる。
パラメトリックモデルよりも、$k$NN-LMsの方がプライベートデータストアから個人情報をリークする可能性が高いことがわかりました。
論文 参考訳(メタデータ) (2023-05-24T08:37:27Z) - Learning Differentially Private Probabilistic Models for
Privacy-Preserving Image Generation [67.47979276739144]
差分プライバシー保証付き高解像度画像を生成するために,差分プライベート確率モデルの学習を提案する。
我々のアプローチは、目立った視覚的品質とデータユーティリティで256x256までの画像を生成することができる。
論文 参考訳(メタデータ) (2023-05-18T02:51:17Z) - Differentially Private Synthetic Data Generation via
Lipschitz-Regularised Variational Autoencoders [3.7463972693041274]
生成モデルが個々のトレーニング記録の多くの詳細を記憶する傾向があることは、しばしば見落とされがちである。
本稿では,生成モデルにおける本質を直接活用するデータ生成手法について検討する。
論文 参考訳(メタデータ) (2023-04-22T07:24:56Z) - Considerations for Differentially Private Learning with Large-Scale
Public Pretraining [58.75893136929649]
大規模なWebスクレイプデータセットの使用は、差分プライバシ保存と見なすべきかどうかを疑問視する。
Webデータ上で事前訓練されたこれらのモデルを“プライベート”として公開することで、市民のプライバシーに対する信頼を意味のあるプライバシの定義として損なう可能性があることを警告します。
公的な事前学習がより普及し、強力になるにつれて、私的な学習分野への道のりを議論することで、我々は結論づける。
論文 参考訳(メタデータ) (2022-12-13T10:41:12Z) - Knowledge Unlearning for Mitigating Privacy Risks in Language Models [31.322818016245087]
言語モデルのプライバシーリスクを低減する代替手法として知識アンラーニングを提案する。
トークンシーケンスのターゲットに異種トレーニングの目的を単純に適用することは、それを忘れるのに効果的であることを示す。
抽出攻撃に脆弱なデータが先入観として知られているシナリオでは、アンラーニングがより強力な経験的プライバシ保証を与える可能性があることを示す。
論文 参考訳(メタデータ) (2022-10-04T10:18:11Z) - Knowledge-Enriched Distributional Model Inversion Attacks [49.43828150561947]
モデルインバージョン(MI)攻撃は、モデルパラメータからトレーニングデータを再構成することを目的としている。
本稿では,パブリックデータからプライベートモデルに対する攻撃を行うのに役立つ知識を抽出する,新しい反転型GANを提案する。
実験の結果,これらの手法を組み合わせることで,最先端MI攻撃の成功率を150%向上させることができることがわかった。
論文 参考訳(メタデータ) (2020-10-08T16:20:48Z) - TIPRDC: Task-Independent Privacy-Respecting Data Crowdsourcing Framework
for Deep Learning with Anonymized Intermediate Representations [49.20701800683092]
本稿では,匿名化中間表現を用いたタスク非依存型プライバシ参照データクラウドソーシングフレームワークTIPRDCを提案する。
このフレームワークの目的は、中間表現からプライバシー情報を隠蔽できる機能抽出器を学習することであり、データコレクターの生データに埋め込まれた元の情報を最大限に保持し、未知の学習タスクを達成することである。
論文 参考訳(メタデータ) (2020-05-23T06:21:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。