論文の概要: On the Benefits of Public Representations for Private Transfer Learning under Distribution Shift
- arxiv url: http://arxiv.org/abs/2312.15551v4
- Date: Mon, 2 Sep 2024 03:26:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-04 21:42:39.336399
- Title: On the Benefits of Public Representations for Private Transfer Learning under Distribution Shift
- Title(参考訳): 流通シフト下における私的移動学習のための公共表現のメリットについて
- Authors: Pratiksha Thaker, Amrith Setlur, Zhiwei Steven Wu, Virginia Smith,
- Abstract要約: 一般のプレトレーニングは、プライベートトレーニングをスクラッチから最大67%改善できることを示す。
この現象の理論的説明として、公開データとプライベートデータが低次元表現を共有している場合、公開表現は、プライベートトレーニングのサンプルの複雑さを改善することができることを示す。
- 参考スコア(独自算出の注目度): 40.553022057469285
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Public pretraining is a promising approach to improve differentially private model training. However, recent work has noted that many positive research results studying this paradigm only consider in-distribution tasks, and may not apply to settings where there is distribution shift between the pretraining and finetuning data -- a scenario that is likely when finetuning private tasks due to the sensitive nature of the data. In this work, we show empirically across three tasks that even in settings with large distribution shift, where both zero-shot performance from public data and training from scratch with private data give unusably weak results, public features can in fact improve private training accuracy by up to 67\% over private training from scratch. We provide a theoretical explanation for this phenomenon, showing that if the public and private data share a low-dimensional representation, public representations can improve the sample complexity of private training even if it is impossible to learn the private task from the public data alone. Altogether, our results provide evidence that public data can indeed make private training practical in realistic settings of extreme distribution shift.
- Abstract(参考訳): 公的な事前訓練は、微分プライベートモデルトレーニングを改善するための有望なアプローチである。
しかし、近年の研究では、このパラダイムを研究する多くの肯定的な研究成果は、分散タスクのみを考慮しており、事前学習データと微調整データの間に分散シフトがある設定には適用できない可能性がある、と指摘している。
本研究では、公開データからのゼロショットのパフォーマンスとプライベートデータによるゼロショットのトレーニングの両方が、不可能なほど弱い結果をもたらすような、大規模な分散シフトの設定においても、3つのタスクを経験的に比較し、パブリック機能は、スクラッチからプライベートトレーニングよりも最大67倍まで、プライベートトレーニングの精度を向上させることができることを示す。
この現象の理論的説明として、公開データとプライベートデータが低次元表現を共有している場合、公開データのみからプライベートタスクを学習できない場合でも、公開表現はプライベートトレーニングのサンプル複雑さを改善することができることを示す。
いずれにせよ,我々の結果は,公開データによって,極端分布シフトの現実的な設定において,私的なトレーニングを現実的に行うことができることを示すものである。
関連論文リスト
- Training generative models from privatized data [9.584000954415476]
ローカル差分プライバシーは、プライバシを保存するデータ収集の強力な方法である。
本研究では,GAN(Generative Adversarial Networks)を差分民営化データに基づいて学習するためのフレームワークを開発する。
論文 参考訳(メタデータ) (2023-06-15T23:28:45Z) - PILLAR: How to make semi-private learning more effective [12.292092677396347]
Semi-Supervised Semi-Private (SP)学習では、学習者は公開されていないラベル付きデータとプライベートラベル付きデータの両方にアクセスすることができる。
そこで本研究では,実世界のデータセット上で効率よく動作可能な,プライベートラベル付きサンプルの複雑さを著しく低減する計算効率のよいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-06T18:45:05Z) - Can Public Large Language Models Help Private Cross-device Federated Learning? [58.05449579773249]
言語モデルのプライベート・フェデレーション・ラーニング(FL)について検討する。
公開データは、大小両方の言語モデルのプライバシーとユーティリティのトレードオフを改善するために使われてきた。
提案手法は,プライベートなデータ分布に近い公開データをサンプリングするための理論的基盤を持つ新しい分布マッチングアルゴリズムである。
論文 参考訳(メタデータ) (2023-05-20T07:55:58Z) - Why Is Public Pretraining Necessary for Private Model Training? [50.054565310457306]
公開データに対する事前トレーニングは、非プライベートな設定よりも顕著な利益をもたらすことを示す。
トレードオフは、アルゴリズムが2つのフェーズを通過する必要のある、より深い損失モデルかもしれない、と私たちは主張する。
直観によって導かれた理論的な構成は、公的な事前訓練なしでの私的分離を確実に実証するものである。
論文 参考訳(メタデータ) (2023-02-19T05:32:20Z) - Position: Considerations for Differentially Private Learning with Large-Scale Public Pretraining [75.25943383604266]
大規模なWebスクレイプデータセットの使用は、差分プライバシ保存と見なすべきかどうかを疑問視する。
Webデータ上で事前訓練されたこれらのモデルを“プライベート”として公開することで、市民のプライバシーに対する信頼を意味のあるプライバシの定義として損なう可能性があることを警告します。
公的な事前学習がより普及し、強力になるにつれて、私的な学習分野への道のりを議論することで、我々は結論づける。
論文 参考訳(メタデータ) (2022-12-13T10:41:12Z) - Private Set Generation with Discriminative Information [63.851085173614]
異なるプライベートなデータ生成は、データプライバシの課題に対する有望な解決策である。
既存のプライベートな生成モデルは、合成サンプルの有用性に苦慮している。
我々は,最先端アプローチのサンプルユーティリティを大幅に改善する,シンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2022-11-07T10:02:55Z) - Mixed Differential Privacy in Computer Vision [133.68363478737058]
AdaMixは、プライベートとパブリックの両方の画像データを使用して、ディープニューラルネットワーク分類器をトレーニングするための適応型微分プライベートアルゴリズムである。
プライベートデータを無視する数ショットあるいはゼロショットの学習ベースラインは、大規模なプライベートデータセットの微調整よりも優れています。
論文 参考訳(メタデータ) (2022-03-22T06:15:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。