論文の概要: Selective Pre-training for Private Fine-tuning
- arxiv url: http://arxiv.org/abs/2305.13865v2
- Date: Tue, 6 Feb 2024 07:35:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 20:50:00.343655
- Title: Selective Pre-training for Private Fine-tuning
- Title(参考訳): プライベート微調整のための選択的事前学習
- Authors: Da Yu, Sivakanth Gopi, Janardhan Kulkarni, Zinan Lin, Saurabh Naik,
Tomasz Lukasz Religa, Jian Yin, Huishuai Zhang
- Abstract要約: パブリックデータセットのエムサブセットに対する注意深い事前学習が、小さなDP言語モデルのトレーニングに不可欠であることを示す。
我々のフレームワークはまた、注意深い事前トレーニングとプライベートな微調整によって、より小さなモデルの方がはるかに大きなモデルの性能にマッチすることを示している。
- 参考スコア(独自算出の注目度): 35.001566062691666
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Suppose we want to train text prediction models in email clients or word
processors. These models, which serve billions of predictions per hour, must
preserve the privacy of user data and adhere to specific model size constraints
to meet memory, inference time requirements, and to reduce inference cost.
Building small, fast, and private domain-specific language models is a thriving
area of research. In this work, we show that a careful pre-training on a {\em
subset} of the public dataset that is guided by the private dataset is crucial
to train small DP language models. On standard benchmarks, models trained with
our new framework achieve state-of-the-art performance, improving upon all the
baselines from the literature.
Besides performance improvements, our framework also shows that with careful
pre-training and private fine-tuning, smaller models can match the performance
of much larger models that do not have access to private data, highlighting the
promise of private learning as a tool for model compression and efficiency.
In many applications such as health care, finance, etc., private datasets are
usually of much higher quality than public datasets, and our work shows novel
ways of utilizing private datasets at all the stages of training pipe-line to
improve deep learning efficiency. Language models based on our framework have
been used in multiple real-world deployments serving billions of predictions
per day (and saving millions of dollars in terms of inference cost)
highlighting the general applicability of our framework beyond academic
benchmarks.
- Abstract(参考訳): 電子メールクライアントやワードプロセッサでテキスト予測モデルをトレーニングしたいとします。
これらのモデルは、1時間に数十億の予測を処理し、ユーザデータのプライバシを保持し、メモリ、推論時間要件を満たし、推論コストを削減するために、特定のモデルサイズ制約に準拠しなければならない。
小さく、速く、プライベートなドメイン固有言語モデルを構築することは、活発な研究分野である。
本稿では,プライベートデータセットに導かれる公開データセットの「emサブセット」上での注意深い事前トレーニングが,小さなdp言語モデルのトレーニングに不可欠であることを示す。
標準ベンチマークでは、我々の新しいフレームワークでトレーニングされたモデルは最先端のパフォーマンスを実現し、文献のすべてのベースラインを改善する。
パフォーマンスの改善に加えて、我々のフレームワークは、注意深い事前トレーニングとプライベートな微調整により、より小さなモデルは、プライベートデータにアクセスできないはるかに大きなモデルの性能と一致し、モデル圧縮と効率のツールとしてのプライベートラーニングの約束を強調します。
医療、金融など多くのアプリケーションでは、プライベートデータセットは通常、公開データセットよりもはるかに高品質であり、本研究は、パイプライントレーニングのすべての段階でプライベートデータセットを活用する新しい方法を示し、ディープラーニング効率を向上させる。
私たちのフレームワークをベースとした言語モデルは、1日に数十億ドルの予測(そして推論コストの面で数百万ドルを節約)を提供する複数の実世界のデプロイメントで使われてきました。
関連論文リスト
- A Split-and-Privatize Framework for Large Language Model Fine-Tuning [7.399324195843467]
パラメータ効率の良い微調整では、下流のデータセットでトレーニングされるのは、少数のモジュールのみである。
本研究では,既存の分割学習アーキテクチャを適応させることで,プライバシ問題を緩和するSAP(Split-and-Privatize)フレームワークを提案する。
その結果,1%モデルの性能劣化を犠牲にして,経験的プライバシを62%向上させることができることがわかった。
論文 参考訳(メタデータ) (2023-12-25T03:53:33Z) - Pushing the Limits of Pre-training for Time Series Forecasting in the
CloudOps Domain [54.67888148566323]
クラウドオペレーションドメインから,大規模時系列予測データセットを3つ導入する。
強力なゼロショットベースラインであり、モデルとデータセットサイズの両方において、さらなるスケーリングの恩恵を受けています。
これらのデータセットと結果を取得することは、古典的および深層学習のベースラインを事前訓練された方法と比較した総合的なベンチマーク結果の集合である。
論文 参考訳(メタデータ) (2023-10-08T08:09:51Z) - Large Language Models Can Be Good Privacy Protection Learners [53.07930843882592]
本稿では,プライバシ保護言語モデル(PPLM)を紹介する。
本研究は, コーパスキュレーション, ペナルティに基づくトレーニング損失の相違, 命令に基づくチューニングなど, モデル設計の理論的解析を行う。
特に、肯定的な例と否定的な例の両方による命令チューニングは、モデルの知識を高めながら、個人データを効果的に保護する、有望な方法として際立っている。
論文 参考訳(メタデータ) (2023-10-03T22:37:01Z) - Approximate, Adapt, Anonymize (3A): a Framework for Privacy Preserving
Training Data Release for Machine Learning [3.29354893777827]
データリリースフレームワークである3A(Approximate, Adapt, Anonymize)を導入し、機械学習のデータユーティリティを最大化する。
本稿では,実データセットと民生データセットでトレーニングしたモデルの性能指標の相違が最小限に抑えられることを示す実験的な証拠を示す。
論文 参考訳(メタデータ) (2023-07-04T18:37:11Z) - Can Public Large Language Models Help Private Cross-device Federated
Learning? [51.78446908697249]
言語モデルのプライベート・フェデレーション・ラーニング(FL)について検討する。
提案手法は,プライベートなデータ分布に近い公開データをサンプリングするための理論的基盤を持つ新しい分布マッチングアルゴリズムである。
論文 参考訳(メタデータ) (2023-05-20T07:55:58Z) - Synthetic Model Combination: An Instance-wise Approach to Unsupervised
Ensemble Learning [92.89846887298852]
ラベル付きデータのトレーニングセットから学ぶ機会のない、新しいテストデータに対する予測を検討する。
専門家モデルのセットと予測へのアクセスと、トレーニングに使用するデータセットに関する制限された情報を提供すること。
論文 参考訳(メタデータ) (2022-10-11T10:20:31Z) - Differentially Private Model Compression [21.97718614488461]
BERTやGPT-2のような大規模な事前学習言語モデル(LLM)は、プライベートデータに微調整することで、非プライベートモデルに匹敵するパフォーマンスを実現することができる。
数億のパラメータからなるこれらのモデルの推論コストは、違法に大きい可能性がある。
ほぼ完全なパフォーマンスを維持しつつ、50%の疎性レベルを達成するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-03T22:04:36Z) - Just Fine-tune Twice: Selective Differential Privacy for Large Language
Models [69.66654761324702]
本稿では,大規模なトランスフォーマーベース言語モデルのためのSDPを実現するための,シンプルで効果的なジャストファイントゥンツースプライバシ機構を提案する。
実験により, カナリア挿入攻撃に対して頑健でありながら, 高い性能が得られた。
論文 参考訳(メタデータ) (2022-04-15T22:36:55Z) - Personalization Improves Privacy-Accuracy Tradeoffs in Federated
Optimization [57.98426940386627]
局所的な学習とプライベートな集中学習の協調は、総合的に有用であり、精度とプライバシのトレードオフを改善していることを示す。
合成および実世界のデータセットに関する実験により理論的結果について述べる。
論文 参考訳(メタデータ) (2022-02-10T20:44:44Z) - Differentially Private Language Models Benefit from Public Pre-training [1.2676356746752895]
品質とプライバシーの保護を同時に行う言語モデル学習の実現可能性について検討する。
DPの微調整により,プライベートドメインにおける言語モデルの性能が向上することがわかった。
論文 参考訳(メタデータ) (2020-09-13T00:50:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。