論文の概要: Leveraging Public Representations for Private Transfer Learning
- arxiv url: http://arxiv.org/abs/2312.15551v2
- Date: Tue, 16 Jan 2024 18:57:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 19:37:02.305547
- Title: Leveraging Public Representations for Private Transfer Learning
- Title(参考訳): プライベートトランスファー学習のための公開表現の活用
- Authors: Pratiksha Thaker, Amrith Setlur, Zhiwei Steven Wu, Virginia Smith
- Abstract要約: 公開データから学習した共有表現が、プライベートラーニングをどのように改善するかを検討する。
与えられた部分空間内の純粋に局所的な学習が同じ目的を達成するため、十分な公開データがあれば、ユーザーはプライベートなコーディネートを避けることができる。
- 参考スコア(独自算出の注目度): 44.30126328854419
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Motivated by the recent empirical success of incorporating public data into
differentially private learning, we theoretically investigate how a shared
representation learned from public data can improve private learning. We
explore two common scenarios of transfer learning for linear regression, both
of which assume the public and private tasks (regression vectors) share a
low-rank subspace in a high-dimensional space. In the first single-task
transfer scenario, the goal is to learn a single model shared across all users,
each corresponding to a row in a dataset. We provide matching upper and lower
bounds showing that our algorithm achieves the optimal excess risk within a
natural class of algorithms that search for the linear model within the given
subspace estimate. In the second scenario of multitask model personalization,
we show that with sufficient public data, users can avoid private coordination,
as purely local learning within the given subspace achieves the same utility.
Taken together, our results help to characterize the benefits of public data
across common regimes of private transfer learning.
- Abstract(参考訳): 公的なデータを差分プライベート学習に取り入れた最近の実証的な成功により、公的なデータから学習した共有表現がプライベート学習をどのように改善するか理論的に検討した。
線形回帰のための転置学習の2つの一般的なシナリオについて検討し,公開タスクとプライベートタスク(回帰ベクトル)が高次元空間における低ランク部分空間を共有することを仮定した。
最初のシングルタスク転送シナリオでは、データセットの行に対応するすべてのユーザ間で共有される単一のモデルを学ぶことが目標だ。
提案手法は,与えられた部分空間推定内で線形モデルを探索する自然アルゴリズムのクラスにおいて,最適過剰リスクを達成することを示す上下界と下界のマッチングを提供する。
マルチタスクモデルパーソナライゼーションの第2のシナリオでは、各サブスペース内の純粋に局所学習が同じ目的を達成するため、十分な公開データがあれば、ユーザーはプライベートコーディネートを避けることができる。
本研究の結果は,私的移動学習の共通体制における公共データのメリットを特徴づける上で有効である。
関連論文リスト
- Training generative models from privatized data [9.584000954415476]
ローカル差分プライバシーは、プライバシを保存するデータ収集の強力な方法である。
本研究では,GAN(Generative Adversarial Networks)を差分民営化データに基づいて学習するためのフレームワークを開発する。
論文 参考訳(メタデータ) (2023-06-15T23:28:45Z) - PILLAR: How to make semi-private learning more effective [12.292092677396347]
Semi-Supervised Semi-Private (SP)学習では、学習者は公開されていないラベル付きデータとプライベートラベル付きデータの両方にアクセスすることができる。
そこで本研究では,実世界のデータセット上で効率よく動作可能な,プライベートラベル付きサンプルの複雑さを著しく低減する計算効率のよいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-06T18:45:05Z) - Can Public Large Language Models Help Private Cross-device Federated Learning? [58.05449579773249]
言語モデルのプライベート・フェデレーション・ラーニング(FL)について検討する。
公開データは、大小両方の言語モデルのプライバシーとユーティリティのトレードオフを改善するために使われてきた。
提案手法は,プライベートなデータ分布に近い公開データをサンプリングするための理論的基盤を持つ新しい分布マッチングアルゴリズムである。
論文 参考訳(メタデータ) (2023-05-20T07:55:58Z) - Why Is Public Pretraining Necessary for Private Model Training? [50.054565310457306]
公開データに対する事前トレーニングは、非プライベートな設定よりも顕著な利益をもたらすことを示す。
トレードオフは、アルゴリズムが2つのフェーズを通過する必要のある、より深い損失モデルかもしれない、と私たちは主張する。
直観によって導かれた理論的な構成は、公的な事前訓練なしでの私的分離を確実に実証するものである。
論文 参考訳(メタデータ) (2023-02-19T05:32:20Z) - Position: Considerations for Differentially Private Learning with Large-Scale Public Pretraining [75.25943383604266]
大規模なWebスクレイプデータセットの使用は、差分プライバシ保存と見なすべきかどうかを疑問視する。
Webデータ上で事前訓練されたこれらのモデルを“プライベート”として公開することで、市民のプライバシーに対する信頼を意味のあるプライバシの定義として損なう可能性があることを警告します。
公的な事前学習がより普及し、強力になるにつれて、私的な学習分野への道のりを議論することで、我々は結論づける。
論文 参考訳(メタデータ) (2022-12-13T10:41:12Z) - Private Set Generation with Discriminative Information [63.851085173614]
異なるプライベートなデータ生成は、データプライバシの課題に対する有望な解決策である。
既存のプライベートな生成モデルは、合成サンプルの有用性に苦慮している。
我々は,最先端アプローチのサンプルユーティリティを大幅に改善する,シンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2022-11-07T10:02:55Z) - Mixed Differential Privacy in Computer Vision [133.68363478737058]
AdaMixは、プライベートとパブリックの両方の画像データを使用して、ディープニューラルネットワーク分類器をトレーニングするための適応型微分プライベートアルゴリズムである。
プライベートデータを無視する数ショットあるいはゼロショットの学習ベースラインは、大規模なプライベートデータセットの微調整よりも優れています。
論文 参考訳(メタデータ) (2022-03-22T06:15:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。