論文の概要: Privacy-Preserving Student Learning with Differentially Private Data-Free Distillation
- arxiv url: http://arxiv.org/abs/2409.12384v1
- Date: Thu, 19 Sep 2024 01:00:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 15:14:47.099802
- Title: Privacy-Preserving Student Learning with Differentially Private Data-Free Distillation
- Title(参考訳): 個人差分データフリー蒸留によるプライバシー保護学習
- Authors: Bochao Liu, Jianghu Lu, Pengju Wang, Junjie Zhang, Dan Zeng, Zhenxing Qian, Shiming Ge,
- Abstract要約: プライバシーを保護したディープラーニングモデルを学習するための効果的な教師学生学習手法を提案する。
データプライバシを公開することなく、モデルトレーニングのために大量の合成データを生成することができる。
学生は、プライベートレーベルの監督の下で、合成データに基づいて訓練される。
- 参考スコア(独自算出の注目度): 35.37005050907983
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning models can achieve high inference accuracy by extracting rich knowledge from massive well-annotated data, but may pose the risk of data privacy leakage in practical deployment. In this paper, we present an effective teacher-student learning approach to train privacy-preserving deep learning models via differentially private data-free distillation. The main idea is generating synthetic data to learn a student that can mimic the ability of a teacher well-trained on private data. In the approach, a generator is first pretrained in a data-free manner by incorporating the teacher as a fixed discriminator. With the generator, massive synthetic data can be generated for model training without exposing data privacy. Then, the synthetic data is fed into the teacher to generate private labels. Towards this end, we propose a label differential privacy algorithm termed selective randomized response to protect the label information. Finally, a student is trained on the synthetic data with the supervision of private labels. In this way, both data privacy and label privacy are well protected in a unified framework, leading to privacy-preserving models. Extensive experiments and analysis clearly demonstrate the effectiveness of our approach.
- Abstract(参考訳): ディープラーニングモデルは、大量の注釈付きデータから豊富な知識を抽出することで、高い推論精度を達成することができるが、実践的なデプロイメントにおいて、データのプライバシリークのリスクを生じさせる可能性がある。
本稿では,プライバシーを保護した深層学習モデルを,差分的にプライベートなデータフリー蒸留を用いて学習するための効果的な教師学習手法を提案する。
主なアイデアは、合成データを生成して、個人データでよく訓練された教師の能力を模倣できる学生を学ぶことだ。
このアプローチでは、教師を固定判別器として組み込むことにより、まずデータフリーで発電機を事前訓練する。
ジェネレータを使用すると、データのプライバシを公開することなく、モデルトレーニングのために大量の合成データを生成することができる。
そして、合成データを教師に供給し、プライベートラベルを生成する。
そこで我々は,ラベル情報を保護するために,選択ランダム化応答と呼ばれるラベル差分プライバシアルゴリズムを提案する。
最後に、学生は、プライベートレーベルの監督の下で、合成データに基づいて訓練される。
このように、データのプライバシとラベルのプライバシは、統一されたフレームワークで十分に保護されており、プライバシ保護モデルにつながります。
大規模な実験と分析は、我々のアプローチの有効性を明確に示している。
関連論文リスト
- FT-PrivacyScore: Personalized Privacy Scoring Service for Machine Learning Participation [4.772368796656325]
実際には、制御されたデータアクセスは、多くの産業や研究環境でデータプライバシを保護する主要な方法である。
我々は,FT-PrivacyScoreのプロトタイプを開発し,モデル微調整作業に参加する際のプライバシーリスクを効率よく定量的に推定できることを実証した。
論文 参考訳(メタデータ) (2024-10-30T02:41:26Z) - Learning Privacy-Preserving Student Networks via Discriminative-Generative Distillation [24.868697898254368]
ディープモデルは、実用デプロイメントにおいてプライバシー漏洩のリスクを引き起こす可能性がある。
本稿では,プライバシー保護深層モデル学習のための識別・生成蒸留手法を提案する。
提案手法は,プライベートデータに対するクエリコストと精度の低下を統一的に制御できる。
論文 参考訳(メタデータ) (2024-09-04T03:06:13Z) - LLM-based Privacy Data Augmentation Guided by Knowledge Distillation
with a Distribution Tutor for Medical Text Classification [67.92145284679623]
ノイズの多いプライベートディストリビューションをモデル化し,プライバシコストの低いサンプル生成を制御するDPベースのチュータを提案する。
理論的には、モデルのプライバシ保護を分析し、モデルを実証的に検証する。
論文 参考訳(メタデータ) (2024-02-26T11:52:55Z) - Approximate, Adapt, Anonymize (3A): a Framework for Privacy Preserving
Training Data Release for Machine Learning [3.29354893777827]
データリリースフレームワークである3A(Approximate, Adapt, Anonymize)を導入し、機械学習のデータユーティリティを最大化する。
本稿では,実データセットと民生データセットでトレーニングしたモデルの性能指標の相違が最小限に抑えられることを示す実験的な証拠を示す。
論文 参考訳(メタデータ) (2023-07-04T18:37:11Z) - Differentially Private Synthetic Data Generation via
Lipschitz-Regularised Variational Autoencoders [3.7463972693041274]
生成モデルが個々のトレーニング記録の多くの詳細を記憶する傾向があることは、しばしば見落とされがちである。
本稿では,生成モデルにおける本質を直接活用するデータ生成手法について検討する。
論文 参考訳(メタデータ) (2023-04-22T07:24:56Z) - Students Parrot Their Teachers: Membership Inference on Model
Distillation [54.392069096234074]
知識蒸留によるプライバシを,教師と学生のトレーニングセットの両方で研究する。
私たちの攻撃は、生徒セットと教師セットが類似している場合、または攻撃者が教師セットを毒できる場合、最強です。
論文 参考訳(メタデータ) (2023-03-06T19:16:23Z) - Position: Considerations for Differentially Private Learning with Large-Scale Public Pretraining [75.25943383604266]
大規模なWebスクレイプデータセットの使用は、差分プライバシ保存と見なすべきかどうかを疑問視する。
Webデータ上で事前訓練されたこれらのモデルを“プライベート”として公開することで、市民のプライバシーに対する信頼を意味のあるプライバシの定義として損なう可能性があることを警告します。
公的な事前学習がより普及し、強力になるにつれて、私的な学習分野への道のりを議論することで、我々は結論づける。
論文 参考訳(メタデータ) (2022-12-13T10:41:12Z) - SF-PATE: Scalable, Fair, and Private Aggregation of Teacher Ensembles [50.90773979394264]
本稿では、個人の機密情報のプライバシーを保護しつつ、差別的でない予測者の学習を可能にするモデルについて検討する。
提案モデルの主な特徴は、プライバシ保護とフェアモデルを作成するために、オフ・ザ・セルフと非プライベートフェアモデルの採用を可能にすることである。
論文 参考訳(メタデータ) (2022-04-11T14:42:54Z) - Private Knowledge Transfer via Model Distillation with Generative
Adversarial Networks [7.0202040971648705]
従来のディープラーニングモデルは、個人の機密情報を回復するプライバシー攻撃の傾向にある。
近年、プライバシー保証を提供する差分プライバシが提案され、トレーニングデータを保護するために、プライバシに制限された方法でニューラルネットワークをトレーニングしている。
そこで我々は,機密データに基づいて訓練された個人教師が一般に公開されていないが,学生に公開教育を施す,新たな私的知識伝達戦略を提案する。
論文 参考訳(メタデータ) (2020-04-05T12:55:01Z) - Differentially Private Deep Learning with Smooth Sensitivity [144.31324628007403]
プライバシーに関する懸念を、差分プライバシーのレンズを通して研究する。
このフレームワークでは、モデルのトレーニングに使用されるデータの詳細が曖昧になるようにモデルを摂動することで、一般的にプライバシー保証が得られます。
過去の研究で使われた最も重要なテクニックの1つは、教師モデルのアンサンブルであり、ノイズの多い投票手順に基づいて生徒に情報を返す。
本研究では,イミュータブルノイズArgMaxと呼ばれるスムーズな感性を有する新しい投票機構を提案する。これは,ある条件下では,学生に伝達される有用な情報に影響を与えることなく,教師から非常に大きなランダムノイズを発生させることができる。
論文 参考訳(メタデータ) (2020-03-01T15:38:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。