論文の概要: Considerations for Differentially Private Learning with Large-Scale
Public Pretraining
- arxiv url: http://arxiv.org/abs/2212.06470v1
- Date: Tue, 13 Dec 2022 10:41:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-14 14:21:42.094307
- Title: Considerations for Differentially Private Learning with Large-Scale
Public Pretraining
- Title(参考訳): 大規模公開事前学習による個人差分学習の考察
- Authors: Florian Tram\`er, Gautam Kamath, Nicholas Carlini
- Abstract要約: 大規模なWebスクレイプデータセットの使用は、差分プライバシ保存と見なすべきかどうかを疑問視する。
Webデータ上で事前訓練されたこれらのモデルを“プライベート”として公開することで、市民のプライバシーに対する信頼を意味のあるプライバシの定義として損なう可能性があることを警告します。
公的な事前学習がより普及し、強力になるにつれて、私的な学習分野への道のりを議論することで、我々は結論づける。
- 参考スコア(独自算出の注目度): 58.75893136929649
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The performance of differentially private machine learning can be boosted
significantly by leveraging the transfer learning capabilities of non-private
models pretrained on large public datasets. We critically review this approach.
We primarily question whether the use of large Web-scraped datasets should be
viewed as differential-privacy-preserving. We caution that publicizing these
models pretrained on Web data as "private" could lead to harm and erode the
public's trust in differential privacy as a meaningful definition of privacy.
Beyond the privacy considerations of using public data, we further question
the utility of this paradigm. We scrutinize whether existing machine learning
benchmarks are appropriate for measuring the ability of pretrained models to
generalize to sensitive domains, which may be poorly represented in public Web
data. Finally, we notice that pretraining has been especially impactful for the
largest available models -- models sufficiently large to prohibit end users
running them on their own devices. Thus, deploying such models today could be a
net loss for privacy, as it would require (private) data to be outsourced to a
more compute-powerful third party.
We conclude by discussing potential paths forward for the field of private
learning, as public pretraining becomes more popular and powerful.
- Abstract(参考訳): 大規模公開データセットで事前訓練された非プライベートモデルの転送学習能力を活用することで、差分プライベート機械学習の性能を大幅に向上させることができる。
このアプローチを批判的にレビューする。
主に、大規模なWebスクラッドデータセットの使用は、差分プライバシ保存と見なされるべきかどうかを問う。
Webデータ上で事前訓練されたこれらのモデルを“プライベート”として公開することで、市民のプライバシーに対する信頼を意味のあるプライバシー定義として損なう可能性があることを警告します。
公開データの利用に関するプライバシー上の考慮を超えて、このパラダイムの有用性をさらに疑問視する。
我々は、既存の機械学習ベンチマークが、事前訓練されたモデルが機密ドメインに一般化する能力を測定するのに適切かどうかを精査する。
最後に、プレトレーニングは、最も大きな利用可能なモデルに対して特に影響があることに気付きました -- エンドユーザーが自身のデバイスでそれらを実行するのを阻止するのに十分な大きさのモデルです。
したがって、今日ではそのようなモデルのデプロイは、(プライベートな)データをより計算力のあるサードパーティにアウトソースする必要があるため、プライバシーにとって純損失になる可能性がある。
公的な事前学習がより普及し、強力になるにつれて、私的な学習分野への道のりについて論じる。
関連論文リスト
- A Unified View of Differentially Private Deep Generative Modeling [60.72161965018005]
プライバシー上の懸念のあるデータには、データアクセスとデータ共有を頻繁に禁止する厳格な規制が伴う。
これらの障害を克服することは、プライバシーに敏感なデータを含む多くの現実世界のアプリケーションシナリオにおいて、技術的進歩の鍵となる。
差分的プライベート(DP)データパブリッシングは、データの衛生化された形式のみを公開する、魅力的なソリューションを提供する。
論文 参考訳(メタデータ) (2023-09-27T14:38:16Z) - Unlocking Accuracy and Fairness in Differentially Private Image
Classification [43.53494043189235]
差別化プライバシ(DP)は、プライバシ保護トレーニングのための金の標準フレームワークと考えられている。
DPを微調整した事前学習基礎モデルでは,非私的分類器と同様の精度が得られることを示す。
論文 参考訳(メタデータ) (2023-08-21T17:42:33Z) - Can Public Large Language Models Help Private Cross-device Federated
Learning? [51.78446908697249]
言語モデルのプライベート・フェデレーション・ラーニング(FL)について検討する。
提案手法は,プライベートなデータ分布に近い公開データをサンプリングするための理論的基盤を持つ新しい分布マッチングアルゴリズムである。
論文 参考訳(メタデータ) (2023-05-20T07:55:58Z) - Protecting User Privacy in Online Settings via Supervised Learning [69.38374877559423]
我々は、教師付き学習を活用する、オンラインプライバシ保護に対するインテリジェントなアプローチを設計する。
ユーザのプライバシを侵害する可能性のあるデータ収集を検出してブロックすることにより、ユーザに対してある程度のディジタルプライバシを復元することが可能になります。
論文 参考訳(メタデータ) (2023-04-06T05:20:16Z) - Why Is Public Pretraining Necessary for Private Model Training? [50.054565310457306]
公開データに対する事前トレーニングは、非プライベートな設定よりも顕著な利益をもたらすことを示す。
トレードオフは、アルゴリズムが2つのフェーズを通過する必要のある、より深い損失モデルかもしれない、と私たちは主張する。
直観によって導かれた理論的な構成は、公的な事前訓練なしでの私的分離を確実に実証するものである。
論文 参考訳(メタデータ) (2023-02-19T05:32:20Z) - A Survey on Differential Privacy with Machine Learning and Future
Outlook [0.0]
差分プライバシーは、あらゆる攻撃や脆弱性から機械学習モデルを保護するために使用される。
本稿では,2つのカテゴリに分類される差分プライベート機械学習アルゴリズムについて述べる。
論文 参考訳(メタデータ) (2022-11-19T14:20:53Z) - Mixed Differential Privacy in Computer Vision [133.68363478737058]
AdaMixは、プライベートとパブリックの両方の画像データを使用して、ディープニューラルネットワーク分類器をトレーニングするための適応型微分プライベートアルゴリズムである。
プライベートデータを無視する数ショットあるいはゼロショットの学習ベースラインは、大規模なプライベートデータセットの微調整よりも優れています。
論文 参考訳(メタデータ) (2022-03-22T06:15:43Z) - Personalized PATE: Differential Privacy for Machine Learning with
Individual Privacy Guarantees [1.2691047660244335]
トレーニングデータ内に、パーソナライズされたプライバシ保証の異なるMLモデルのトレーニングを支援する3つの新しい方法を提案する。
実験により, 個人化されたプライバシ手法は, 非個人化されたベースラインよりも高い精度のモデルが得られることがわかった。
論文 参考訳(メタデータ) (2022-02-21T20:16:27Z) - Security and Privacy Preserving Deep Learning [2.322461721824713]
ディープラーニングに必要な膨大なデータ収集は、明らかにプライバシーの問題を提示している。
写真や音声録音などの、個人的かつ高感度なデータは、収集する企業によって無期限に保持される。
深層ニューラルネットワークは、トレーニングデータに関する情報を記憶するさまざまな推論攻撃の影響を受けやすい。
論文 参考訳(メタデータ) (2020-06-23T01:53:46Z) - Private Knowledge Transfer via Model Distillation with Generative
Adversarial Networks [7.0202040971648705]
従来のディープラーニングモデルは、個人の機密情報を回復するプライバシー攻撃の傾向にある。
近年、プライバシー保証を提供する差分プライバシが提案され、トレーニングデータを保護するために、プライバシに制限された方法でニューラルネットワークをトレーニングしている。
そこで我々は,機密データに基づいて訓練された個人教師が一般に公開されていないが,学生に公開教育を施す,新たな私的知識伝達戦略を提案する。
論文 参考訳(メタデータ) (2020-04-05T12:55:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。