論文の概要: Large Language Models Can Be Strong Differentially Private Learners
- arxiv url: http://arxiv.org/abs/2110.05679v1
- Date: Tue, 12 Oct 2021 01:45:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-14 04:25:22.676262
- Title: Large Language Models Can Be Strong Differentially Private Learners
- Title(参考訳): 大規模言語モデルは強力な個人学習者になれる
- Authors: Xuechen Li, Florian Tram\`er, Percy Liang, Tatsunori Hashimoto
- Abstract要約: Differentially Private(DP)学習は、テキストの大規模なディープラーニングモデルを構築する上で、限られた成功を収めている。
この性能低下は,大規模な事前学習モデルを用いることで緩和可能であることを示す。
本稿では,DP-SGDにおけるクリッピングを,サンプルごとの勾配をインスタンス化せずに実行可能にするメモリ節約手法を提案する。
- 参考スコア(独自算出の注目度): 70.0317718115406
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Differentially Private (DP) learning has seen limited success for building
large deep learning models of text, and attempts at straightforwardly applying
Differentially Private Stochastic Gradient Descent (DP-SGD) to NLP tasks have
resulted in large performance drops and high computational overhead. We show
that this performance drop can be mitigated with (1) the use of large
pretrained models; (2) hyperparameters that suit DP optimization; and (3)
fine-tuning objectives aligned with the pretraining procedure. With these
factors set right, we obtain private NLP models that outperform
state-of-the-art private training approaches and strong non-private baselines
-- by directly fine-tuning pretrained models with DP optimization on
moderately-sized corpora. To address the computational challenge of running
DP-SGD with large Transformers, we propose a memory saving technique that
allows clipping in DP-SGD to run without instantiating per-example gradients
for any layer in the model. The technique enables privately training
Transformers with almost the same memory cost as non-private training at a
modest run-time overhead. Contrary to conventional wisdom that DP optimization
fails at learning high-dimensional models (due to noise that scales with
dimension) empirical results reveal that private learning with pretrained
models tends to not suffer from dimension-dependent performance degradation.
- Abstract(参考訳): Differentially Private (DP) 学習はテキストの大規模深層学習モデルの構築に限定的に成功しており、NLPタスクに微分プライベート確率勾配(DP-SGD)を直接適用しようとする試みは、大きなパフォーマンス低下と高い計算オーバーヘッドをもたらしている。
この性能低下は,(1)大規模事前学習モデルの利用,(2)dp最適化に適したハイパーパラメータ,(3)事前学習手順に適合した微調整目標によって軽減できることを示す。
これらの要因を適切に設定することで、中規模コーパス上でdp最適化を施した事前学習モデルを直接調整することで、最先端のプライベートトレーニングアプローチや強力な非プライベートベースラインを上回るプライベートnlpモデルを得る。
大規模トランスフォーマーを用いたdp-sgdの計算課題に対処するために,dp-sgdのクリップングをモデル内の任意の層に対して,サンプル毎の勾配をインスタンス化することなく実行できるメモリ節約手法を提案する。
この技術は、最小限のランタイムオーバーヘッドでプライベートトレーニングとほぼ同じメモリコストで、トランスフォーマーをプライベートにトレーニングすることを可能にする。
DP最適化は高次元モデル(次元に合わせてスケールするノイズのため)の学習に失敗するという従来の知恵とは対照的に、事前学習されたモデルによる私的な学習は次元に依存した性能劣化に悩まされない傾向にある。
関連論文リスト
- DiSK: Differentially Private Optimizer with Simplified Kalman Filter for Noise Reduction [57.83978915843095]
本稿では,微分プライベート勾配の性能を著しく向上する新しいフレームワークであるDiSKを紹介する。
大規模トレーニングの実用性を確保するため,Kalmanフィルタプロセスを簡素化し,メモリと計算要求を最小化する。
論文 参考訳(メタデータ) (2024-10-04T19:30:39Z) - Pre-training Differentially Private Models with Limited Public Data [54.943023722114134]
ディファレンシャルプライバシ(DP)は、モデルに提供されるセキュリティの度合いを測定するための重要な手法である。
DPはまだ、最初の事前訓練段階で使用されるデータのかなりの部分を保護することができない。
公共データの10%しか利用しない新しいDP継続事前学習戦略を開発した。
ImageNet-21kのDP精度は41.5%、非DP精度は55.7%、下流タスクのPlaces365とiNaturalist-2021では60.0%である。
論文 参考訳(メタデータ) (2024-02-28T23:26:27Z) - Private Fine-tuning of Large Language Models with Zeroth-order Optimization [51.19403058739522]
差分的プライベート勾配降下(DP-SGD)により、モデルはプライバシ保護の方法でトレーニングできる。
DP-ZO(DP-ZO)は,ゼロオーダー最適化手法を民営化することで,大規模言語モデルのためのプライベートな微調整フレームワークである。
論文 参考訳(メタデータ) (2024-01-09T03:53:59Z) - Sparsity-Preserving Differentially Private Training of Large Embedding
Models [67.29926605156788]
DP-SGDは、差分プライバシーと勾配降下を組み合わせたトレーニングアルゴリズムである。
DP-SGDをネーティブに埋め込みモデルに適用すると、勾配の間隔が破壊され、トレーニング効率が低下する。
我々は,大規模埋め込みモデルのプライベートトレーニングにおいて,勾配間隔を保ったDP-FESTとDP-AdaFESTの2つの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-11-14T17:59:51Z) - Equivariant Differentially Private Deep Learning: Why DP-SGD Needs
Sparser Models [7.49320945341034]
小型で効率的なアーキテクチャ設計は、計算要求がかなり少ない最先端のモデルよりも優れていることを示す。
私たちの結果は、パラメータを最適に活用する効率的なモデルアーキテクチャへの一歩です。
論文 参考訳(メタデータ) (2023-01-30T17:43:47Z) - Large Scale Transfer Learning for Differentially Private Image
Classification [51.10365553035979]
Differential Privacy(DP)は、個別のサンプルレベルのプライバシで機械学習モデルをトレーニングするための正式なフレームワークを提供する。
DP-SGDを用いたプライベートトレーニングは、個々のサンプル勾配にノイズを注入することで漏れを防ぐ。
この結果は非常に魅力的であるが,DP-SGDを用いた大規模モデルのトレーニングの計算コストは,非プライベートトレーニングよりもかなり高い。
論文 参考訳(メタデータ) (2022-05-06T01:22:20Z) - An Efficient DP-SGD Mechanism for Large Scale NLP Models [28.180412581994485]
自然言語理解(NLU)モデルを訓練するために使用されるデータは、住所や電話番号などのプライベート情報を含むことができる。
基礎となるモデルは、トレーニングデータに含まれるプライベート情報を公開しないことが望ましい。
プライバシ保護モデルを構築するメカニズムとして,DP-SGD(Fariially Private Gradient Descent)が提案されている。
論文 参考訳(メタデータ) (2021-07-14T15:23:27Z) - DPlis: Boosting Utility of Differentially Private Deep Learning via
Randomized Smoothing [0.0]
DPlis--Differentially Private Learning wIth Smoothingを提案します。
DPlisは,プライバシ予算の下でモデル品質とトレーニングの安定性を効果的に向上させることができることを示す。
論文 参考訳(メタデータ) (2021-03-02T06:33:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。