論文の概要: Differentially Private Fine-tuning of Language Models
- arxiv url: http://arxiv.org/abs/2110.06500v1
- Date: Wed, 13 Oct 2021 05:15:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-14 12:54:55.124104
- Title: Differentially Private Fine-tuning of Language Models
- Title(参考訳): 言語モデルの個人差分微調整
- Authors: Da Yu, Saurabh Naik, Arturs Backurs, Sivakanth Gopi, Huseyin A. Inan,
Gautam Kamath, Janardhan Kulkarni, Yin Tat Lee, Andre Manoel, Lukas
Wutschitz, Sergey Yekhanin, Huishuai Zhang
- Abstract要約: 大規模事前学習型言語モデルの微分プライベート微調整のための,より単純でスペーサーで高速なアルゴリズムを提供する。
実験により、これらの手法の微分プライベート適応は、従来のプライベートアルゴリズムよりも3つの重要な次元で優れていることが示された。
全ての実験から、より大型のモデルがプライベートな微調整に適していることが示唆されている。
- 参考スコア(独自算出の注目度): 42.267310649880486
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We give simpler, sparser, and faster algorithms for differentially private
fine-tuning of large-scale pre-trained language models, which achieve the
state-of-the-art privacy versus utility tradeoffs on many standard NLP tasks.
We propose a meta-framework for this problem, inspired by the recent success of
highly parameter-efficient methods for fine-tuning. Our experiments show that
differentially private adaptations of these approaches outperform previous
private algorithms in three important dimensions: utility, privacy, and the
computational and memory cost of private training. On many commonly studied
datasets, the utility of private models approaches that of non-private models.
For example, on the MNLI dataset we achieve an accuracy of $87.8\%$ using
RoBERTa-Large and $83.5\%$ using RoBERTa-Base with a privacy budget of
$\epsilon = 6.7$. In comparison, absent privacy constraints, RoBERTa-Large
achieves an accuracy of $90.2\%$. Our findings are similar for natural language
generation tasks. Privately fine-tuning with DART, GPT-2-Small, GPT-2-Medium,
GPT-2-Large, and GPT-2-XL achieve BLEU scores of 38.5, 42.0, 43.1, and 43.8
respectively (privacy budget of $\epsilon = 6.8,\delta=$ 1e-5) whereas the
non-private baseline is $48.1$. All our experiments suggest that larger models
are better suited for private fine-tuning: while they are well known to achieve
superior accuracy non-privately, we find that they also better maintain their
accuracy when privacy is introduced.
- Abstract(参考訳): 多くの標準NLPタスクにおいて、最先端のプライバシ対ユーティリティトレードオフを実現するため、大規模事前訓練言語モデルのより単純で、スペーサーで、より高速なアルゴリズムを提供する。
本稿では,近年のパラメータ効率の高い微調整手法の成功に触発された,この問題に対するメタフレームワークを提案する。
実験の結果,これらの手法は,実用性,プライバシ,プライベートトレーニングの計算コスト,メモリコストという3つの重要な次元において,従来のプライベートアルゴリズムを上回っていることがわかった。
多くのよく研究されているデータセットにおいて、プライベートモデルの有用性は非プライベートモデルにアプローチする。
例えば、MNLIデータセットでは、RoBERTa-Largeを使用すると87.8\%、RoBERTa-Baseを使用すると83.5\%、プライバシー予算が$\epsilon = 6.7$となる。
一方、プライバシーの制約がないため、RoBERTa-Largeの精度は90.2\%である。
私たちの発見は自然言語生成タスクに似ています。
DART、GPT-2-Small、GPT-2-Medium、GPT-2-Large、GPT-2-XLはそれぞれ38.5、42.0、43.1、43.8(民間予算は$\epsilon = 6.8,\delta=$ 1e-5)のBLEUスコアを得る。
当社の実験はすべて、大きなモデルの方がプライベートな微調整に適していることを示唆しています。
関連論文リスト
- Privacy for Free in the Over-Parameterized Regime [19.261178173399784]
ディファレンシャル・プライベート勾配降下(DP-GD)は、トレーニングデータのプライバシを保証してディープラーニングモデルをトレーニングする一般的なアルゴリズムである。
本研究では,2次損失を持つ一般的なランダム特徴モデルにおいて,十分大きな$p$に対して,プライバシが無償で取得可能であること,すなわち$left|R_P right| = o(1)$,プライバシパラメータ$varepsilon$が一定の順序を持つ場合に限らず,強いプライベート設定$varepsilon = o(1)$ が得られることを示す。
論文 参考訳(メタデータ) (2024-10-18T18:01:11Z) - LMO-DP: Optimizing the Randomization Mechanism for Differentially Private Fine-Tuning (Large) Language Models [31.718398512438238]
本稿では,LMO-DP(Language Model-based Optimal Differential Privacy)機構を提案する。
これは、最適化された言語モデルの厳密な構成を、サブ最適DPメカニズムで実現するための第一歩である。
LMO-DPはまた、強力な差分プライバシー保証を持つLlama-2を正確に微調整する最初のソリューションでもある。
論文 参考訳(メタデータ) (2024-05-29T05:32:50Z) - Private Fine-tuning of Large Language Models with Zeroth-order Optimization [51.19403058739522]
差分的プライベート勾配降下(DP-SGD)により、モデルはプライバシ保護の方法でトレーニングできる。
DP-ZO(DP-ZO)は,ゼロオーダー最適化手法を民営化することで,大規模言語モデルのためのプライベートな微調整フレームワークである。
論文 参考訳(メタデータ) (2024-01-09T03:53:59Z) - TAN Without a Burn: Scaling Laws of DP-SGD [70.7364032297978]
近年、ディープニューラルネットワーク(DNN)を訓練するための微分プライベートな手法が進歩している。
プライバシ分析とノイズのあるトレーニングの実験的振る舞いを分離し、最小限の計算要件でトレードオフを探索する。
我々は,提案手法をCIFAR-10とImageNetに適用し,特にImageNetの最先端性を,上位1点の精度で向上させる。
論文 参考訳(メタデータ) (2022-10-07T08:44:35Z) - Individual Privacy Accounting for Differentially Private Stochastic Gradient Descent [69.14164921515949]
DP-SGDで訓練されたモデルをリリースする際の個々の事例に対するプライバシー保証を特徴付ける。
ほとんどの例では、最悪のケースよりも強力なプライバシー保証を享受しています。
これは、モデルユーティリティの観点からは守られないグループが同時に、より弱いプライバシー保証を経験することを意味する。
論文 参考訳(メタデータ) (2022-06-06T13:49:37Z) - Pre-trained Perceptual Features Improve Differentially Private Image
Generation [8.659595986100738]
差分降下勾配(DP-SGD)を用いた中等度生成モデルの訓練も困難である。
私たちは、情報のある公開データセット上に適切な、関連する表現を構築し、その表現でプライベートデータをモデル化することを学びます。
私たちの研究は、プライベートと非プライベートの深層生成モデルの間のギャップを減らすための、シンプルで強力な基盤を導入しています。
論文 参考訳(メタデータ) (2022-05-25T16:46:01Z) - Large Scale Transfer Learning for Differentially Private Image
Classification [51.10365553035979]
Differential Privacy(DP)は、個別のサンプルレベルのプライバシで機械学習モデルをトレーニングするための正式なフレームワークを提供する。
DP-SGDを用いたプライベートトレーニングは、個々のサンプル勾配にノイズを注入することで漏れを防ぐ。
この結果は非常に魅力的であるが,DP-SGDを用いた大規模モデルのトレーニングの計算コストは,非プライベートトレーニングよりもかなり高い。
論文 参考訳(メタデータ) (2022-05-06T01:22:20Z) - Do Not Let Privacy Overbill Utility: Gradient Embedding Perturbation for
Private Learning [74.73901662374921]
差分プライベートモデルは、モデルが多数のトレーニング可能なパラメータを含む場合、ユーティリティを劇的に劣化させる。
偏微分プライベート深層モデルの精度向上のためのアルゴリズムemphGradient Embedding Perturbation (GEP)を提案する。
論文 参考訳(メタデータ) (2021-02-25T04:29:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。