論文の概要: Selective Pre-training for Private Fine-tuning
- arxiv url: http://arxiv.org/abs/2305.13865v2
- Date: Tue, 6 Feb 2024 07:35:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 20:50:00.343655
- Title: Selective Pre-training for Private Fine-tuning
- Title(参考訳): プライベート微調整のための選択的事前学習
- Authors: Da Yu, Sivakanth Gopi, Janardhan Kulkarni, Zinan Lin, Saurabh Naik,
Tomasz Lukasz Religa, Jian Yin, Huishuai Zhang
- Abstract要約: パブリックデータセットのエムサブセットに対する注意深い事前学習が、小さなDP言語モデルのトレーニングに不可欠であることを示す。
我々のフレームワークはまた、注意深い事前トレーニングとプライベートな微調整によって、より小さなモデルの方がはるかに大きなモデルの性能にマッチすることを示している。
- 参考スコア(独自算出の注目度): 35.001566062691666
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Suppose we want to train text prediction models in email clients or word
processors. These models, which serve billions of predictions per hour, must
preserve the privacy of user data and adhere to specific model size constraints
to meet memory, inference time requirements, and to reduce inference cost.
Building small, fast, and private domain-specific language models is a thriving
area of research. In this work, we show that a careful pre-training on a {\em
subset} of the public dataset that is guided by the private dataset is crucial
to train small DP language models. On standard benchmarks, models trained with
our new framework achieve state-of-the-art performance, improving upon all the
baselines from the literature.
Besides performance improvements, our framework also shows that with careful
pre-training and private fine-tuning, smaller models can match the performance
of much larger models that do not have access to private data, highlighting the
promise of private learning as a tool for model compression and efficiency.
In many applications such as health care, finance, etc., private datasets are
usually of much higher quality than public datasets, and our work shows novel
ways of utilizing private datasets at all the stages of training pipe-line to
improve deep learning efficiency. Language models based on our framework have
been used in multiple real-world deployments serving billions of predictions
per day (and saving millions of dollars in terms of inference cost)
highlighting the general applicability of our framework beyond academic
benchmarks.
- Abstract(参考訳): 電子メールクライアントやワードプロセッサでテキスト予測モデルをトレーニングしたいとします。
これらのモデルは、1時間に数十億の予測を処理し、ユーザデータのプライバシを保持し、メモリ、推論時間要件を満たし、推論コストを削減するために、特定のモデルサイズ制約に準拠しなければならない。
小さく、速く、プライベートなドメイン固有言語モデルを構築することは、活発な研究分野である。
本稿では,プライベートデータセットに導かれる公開データセットの「emサブセット」上での注意深い事前トレーニングが,小さなdp言語モデルのトレーニングに不可欠であることを示す。
標準ベンチマークでは、我々の新しいフレームワークでトレーニングされたモデルは最先端のパフォーマンスを実現し、文献のすべてのベースラインを改善する。
パフォーマンスの改善に加えて、我々のフレームワークは、注意深い事前トレーニングとプライベートな微調整により、より小さなモデルは、プライベートデータにアクセスできないはるかに大きなモデルの性能と一致し、モデル圧縮と効率のツールとしてのプライベートラーニングの約束を強調します。
医療、金融など多くのアプリケーションでは、プライベートデータセットは通常、公開データセットよりもはるかに高品質であり、本研究は、パイプライントレーニングのすべての段階でプライベートデータセットを活用する新しい方法を示し、ディープラーニング効率を向上させる。
私たちのフレームワークをベースとした言語モデルは、1日に数十億ドルの予測(そして推論コストの面で数百万ドルを節約)を提供する複数の実世界のデプロイメントで使われてきました。
関連論文リスト
- Unsupervised Human Preference Learning [7.959043497459107]
大きな言語モデルは印象的な推論能力を示しているが、パーソナライズされたコンテンツを提供するのに苦労している。
文脈内学習やパラメータ効率のよい微調整といった既存の手法は、人間の嗜好の複雑さを捉えるには不十分である。
そこで本研究では,より大規模で事前学習されたモデルを示す自然言語規則を生成するために,小パラメータモデルを選好エージェントとして活用する手法を提案する。
論文 参考訳(メタデータ) (2024-09-30T17:51:01Z) - Forget to Flourish: Leveraging Machine-Unlearning on Pretrained Language Models for Privacy Leakage [12.892449128678516]
下流アプリケーション用のプライベートデータ上の微調整言語モデルは、重大なプライバシーリスクを生じさせる。
いくつかの人気のあるコミュニティプラットフォームが、様々な事前訓練されたモデルの便利な配布を提供している。
本稿では,モデル学習を攻撃ツールとして利用する新しい毒殺手法を提案する。
論文 参考訳(メタデータ) (2024-08-30T15:35:09Z) - Privacy Backdoors: Enhancing Membership Inference through Poisoning Pre-trained Models [112.48136829374741]
本稿では、プライバシーバックドア攻撃という新たな脆弱性を明らかにします。
被害者がバックドアモデルに微調整を行った場合、トレーニングデータは通常のモデルに微調整された場合よりも大幅に高い速度でリークされる。
我々の発見は、機械学習コミュニティにおける重要なプライバシー上の懸念を浮き彫りにし、オープンソースの事前訓練モデルの使用における安全性プロトコルの再評価を求めている。
論文 参考訳(メタデータ) (2024-04-01T16:50:54Z) - PrivacyMind: Large Language Models Can Be Contextual Privacy Protection Learners [81.571305826793]
コンテキストプライバシ保護言語モデル(PrivacyMind)を紹介する。
我々の研究はモデル設計に関する理論的分析を提供し、様々な手法をベンチマークする。
特に、肯定的な例と否定的な例の両方による命令チューニングは、有望な方法である。
論文 参考訳(メタデータ) (2023-10-03T22:37:01Z) - Approximate, Adapt, Anonymize (3A): a Framework for Privacy Preserving
Training Data Release for Machine Learning [3.29354893777827]
データリリースフレームワークである3A(Approximate, Adapt, Anonymize)を導入し、機械学習のデータユーティリティを最大化する。
本稿では,実データセットと民生データセットでトレーニングしたモデルの性能指標の相違が最小限に抑えられることを示す実験的な証拠を示す。
論文 参考訳(メタデータ) (2023-07-04T18:37:11Z) - Can Public Large Language Models Help Private Cross-device Federated Learning? [58.05449579773249]
言語モデルのプライベート・フェデレーション・ラーニング(FL)について検討する。
公開データは、大小両方の言語モデルのプライバシーとユーティリティのトレードオフを改善するために使われてきた。
提案手法は,プライベートなデータ分布に近い公開データをサンプリングするための理論的基盤を持つ新しい分布マッチングアルゴリズムである。
論文 参考訳(メタデータ) (2023-05-20T07:55:58Z) - Position: Considerations for Differentially Private Learning with Large-Scale Public Pretraining [75.25943383604266]
大規模なWebスクレイプデータセットの使用は、差分プライバシ保存と見なすべきかどうかを疑問視する。
Webデータ上で事前訓練されたこれらのモデルを“プライベート”として公開することで、市民のプライバシーに対する信頼を意味のあるプライバシの定義として損なう可能性があることを警告します。
公的な事前学習がより普及し、強力になるにつれて、私的な学習分野への道のりを議論することで、我々は結論づける。
論文 参考訳(メタデータ) (2022-12-13T10:41:12Z) - Just Fine-tune Twice: Selective Differential Privacy for Large Language
Models [69.66654761324702]
本稿では,大規模なトランスフォーマーベース言語モデルのためのSDPを実現するための,シンプルで効果的なジャストファイントゥンツースプライバシ機構を提案する。
実験により, カナリア挿入攻撃に対して頑健でありながら, 高い性能が得られた。
論文 参考訳(メタデータ) (2022-04-15T22:36:55Z) - Large Language Models Can Be Strong Differentially Private Learners [70.0317718115406]
Differentially Private(DP)学習は、テキストの大規模なディープラーニングモデルを構築する上で、限られた成功を収めている。
この性能低下は,大規模な事前学習モデルを用いることで緩和可能であることを示す。
本稿では,DP-SGDにおけるクリッピングを,サンプルごとの勾配をインスタンス化せずに実行可能にするメモリ節約手法を提案する。
論文 参考訳(メタデータ) (2021-10-12T01:45:27Z) - Differentially Private Language Models Benefit from Public Pre-training [1.2676356746752895]
品質とプライバシーの保護を同時に行う言語モデル学習の実現可能性について検討する。
DPの微調整により,プライベートドメインにおける言語モデルの性能が向上することがわかった。
論文 参考訳(メタデータ) (2020-09-13T00:50:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。