論文の概要: Large-Scale Differentially Private BERT
- arxiv url: http://arxiv.org/abs/2108.01624v1
- Date: Tue, 3 Aug 2021 16:51:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-04 14:05:51.934682
- Title: Large-Scale Differentially Private BERT
- Title(参考訳): 大規模微分プライベートベルト
- Authors: Rohan Anil, Badih Ghazi, Vineet Gupta, Ravi Kumar, Pasin Manurangsi
- Abstract要約: 本研究では,DP-SGDを用いたBERTラージの大規模事前学習について検討する。
本稿では, バッチサイズを数百万にスケールアップすることで, BERT のDP-SGD ステップの有用性が向上することを示す。
- 参考スコア(独自算出の注目度): 47.76054952193217
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we study the large-scale pretraining of BERT-Large with
differentially private SGD (DP-SGD). We show that combined with a careful
implementation, scaling up the batch size to millions (i.e., mega-batches)
improves the utility of the DP-SGD step for BERT; we also enhance its
efficiency by using an increasing batch size schedule. Our implementation
builds on the recent work of [SVK20], who demonstrated that the overhead of a
DP-SGD step is minimized with effective use of JAX [BFH+18, FJL18] primitives
in conjunction with the XLA compiler [XLA17]. Our implementation achieves a
masked language model accuracy of 60.5% at a batch size of 2M, for $\epsilon =
5.36$. To put this number in perspective, non-private BERT models achieve an
accuracy of $\sim$70%.
- Abstract(参考訳): 本研究では,DP-SGDを用いたBERT-Largeの大規模事前学習について検討する。
本稿では, バッチサイズを数百万(メガバッチ)にスケールアップすることで, BERT のDP-SGD ステップの有用性が向上し, バッチサイズの増加による効率の向上が図られている。
我々の実装は、XLAコンパイラ[XLA17]と協調してJAX[BFH+18, FJL18]プリミティブを有効利用することにより、DP-SGDステップのオーバーヘッドが最小化されることを実証した最近の[SVK20]の成果に基づいている。
実装では2mのバッチサイズで60.5%のマスキング言語モデル精度を実現し,$\epsilon = 5.36$ で実装した。
この数を観点で見ると、非プライベートなBERTモデルは$\sim$70%の精度が得られる。
関連論文リスト
- Towards Efficient and Scalable Training of Differentially Private Deep Learning [5.825410941577592]
微分プライベート勾配降下(DP-SGD)は、差分プライバシ(DP)の下で機械学習モデルを訓練するための標準アルゴリズムである。
Poissonサブサンプリングによる計算効率の良いDP-SGDの実装は簡単ではないため、多くの実装がこの要件を無視している。
本研究では,DP下でのディープラーニングモデルを学習する際の計算コストを定量化するための総合的な実証的研究を行う。
PyTorch の Opacus を用いた単純実装 DP-SGD は,SGD よりも2.6~8倍のスループットを持つことがわかった。
論文 参考訳(メタデータ) (2024-06-25T06:04:58Z) - Differentially Private Zeroth-Order Methods for Scalable Large Language Model Finetuning [0.0]
プリトレーニング済みLLMのDP微調整は、タスク固有のデータセットのプライバシ保護に広く用いられている。
DP-SGDのスケーラビリティを限界まで押し上げたにもかかわらず、DP-SGDベースの微調整法は残念ながらSGD固有の非効率性によって制限されている。
論文 参考訳(メタデータ) (2024-02-12T17:24:15Z) - Private Fine-tuning of Large Language Models with Zeroth-order Optimization [51.19403058739522]
差分的プライベート勾配降下(DP-SGD)により、モデルはプライバシ保護の方法でトレーニングできる。
DP-ZO(DP-ZO)は,ゼロオーダー最適化手法を民営化することで,大規模言語モデルのためのプライベートな微調整フレームワークである。
論文 参考訳(メタデータ) (2024-01-09T03:53:59Z) - Sparsity-Preserving Differentially Private Training of Large Embedding
Models [67.29926605156788]
DP-SGDは、差分プライバシーと勾配降下を組み合わせたトレーニングアルゴリズムである。
DP-SGDをネーティブに埋め込みモデルに適用すると、勾配の間隔が破壊され、トレーニング効率が低下する。
我々は,大規模埋め込みモデルのプライベートトレーニングにおいて,勾配間隔を保ったDP-FESTとDP-AdaFESTの2つの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-11-14T17:59:51Z) - Bias-Aware Minimisation: Understanding and Mitigating Estimator Bias in
Private SGD [56.01810892677744]
DP-SGDにおいて,サンプルごとの勾配ノルムとプライベート勾配オラクルの推定バイアスの関連性を示す。
BAM(Bias-Aware Minimisation)を提案する。
論文 参考訳(メタデータ) (2023-08-23T09:20:41Z) - Dynamic Masking Rate Schedules for MLM Pretraining [15.460110571876097]
本稿では,トレーニング期間中のマスキング率を動的に予測することを提案する。
予備訓練でマスク率を直線的に減少させると平均GLUE精度が0.46%、0.25%向上することがわかった。
論文 参考訳(メタデータ) (2023-05-24T12:24:12Z) - Large Scale Transfer Learning for Differentially Private Image
Classification [51.10365553035979]
Differential Privacy(DP)は、個別のサンプルレベルのプライバシで機械学習モデルをトレーニングするための正式なフレームワークを提供する。
DP-SGDを用いたプライベートトレーニングは、個々のサンプル勾配にノイズを注入することで漏れを防ぐ。
この結果は非常に魅力的であるが,DP-SGDを用いた大規模モデルのトレーニングの計算コストは,非プライベートトレーニングよりもかなり高い。
論文 参考訳(メタデータ) (2022-05-06T01:22:20Z) - DP-FP: Differentially Private Forward Propagation for Large Models [2.062295244789704]
DPフォワードプロパゲーション (DP-FP) に差分プライベートグラディエントDescenceを置き換えることにより, 性能低下を緩和する方法を示す。
われわれのDP-FPの平均精度は91.34%で、プライバシー予算は3未満であり、最先端のDP-SGDよりも3.81%パフォーマンスが向上した。
論文 参考訳(メタデータ) (2021-12-29T07:32:29Z) - CPM-2: Large-scale Cost-effective Pre-trained Language Models [71.59893315671997]
本稿では, PLM を用いた事前学習, 微調整, 推論の効率性問題に対処するための費用対効果技術について述べる。
我々は,既存のPLMをスクラッチからトレーニングする代わりに活用することで,事前学習プロセスの促進を目的とした知識継承を導入する。
計算資源が限られている大規模PLMに対して,新しい推論ツールキット,すなわちInfMoEを実装した。
論文 参考訳(メタデータ) (2021-06-20T15:43:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。