論文の概要: Large-Scale Differentially Private BERT
- arxiv url: http://arxiv.org/abs/2108.01624v1
- Date: Tue, 3 Aug 2021 16:51:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-04 14:05:51.934682
- Title: Large-Scale Differentially Private BERT
- Title(参考訳): 大規模微分プライベートベルト
- Authors: Rohan Anil, Badih Ghazi, Vineet Gupta, Ravi Kumar, Pasin Manurangsi
- Abstract要約: 本研究では,DP-SGDを用いたBERTラージの大規模事前学習について検討する。
本稿では, バッチサイズを数百万にスケールアップすることで, BERT のDP-SGD ステップの有用性が向上することを示す。
- 参考スコア(独自算出の注目度): 47.76054952193217
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we study the large-scale pretraining of BERT-Large with
differentially private SGD (DP-SGD). We show that combined with a careful
implementation, scaling up the batch size to millions (i.e., mega-batches)
improves the utility of the DP-SGD step for BERT; we also enhance its
efficiency by using an increasing batch size schedule. Our implementation
builds on the recent work of [SVK20], who demonstrated that the overhead of a
DP-SGD step is minimized with effective use of JAX [BFH+18, FJL18] primitives
in conjunction with the XLA compiler [XLA17]. Our implementation achieves a
masked language model accuracy of 60.5% at a batch size of 2M, for $\epsilon =
5.36$. To put this number in perspective, non-private BERT models achieve an
accuracy of $\sim$70%.
- Abstract(参考訳): 本研究では,DP-SGDを用いたBERT-Largeの大規模事前学習について検討する。
本稿では, バッチサイズを数百万(メガバッチ)にスケールアップすることで, BERT のDP-SGD ステップの有用性が向上し, バッチサイズの増加による効率の向上が図られている。
我々の実装は、XLAコンパイラ[XLA17]と協調してJAX[BFH+18, FJL18]プリミティブを有効利用することにより、DP-SGDステップのオーバーヘッドが最小化されることを実証した最近の[SVK20]の成果に基づいている。
実装では2mのバッチサイズで60.5%のマスキング言語モデル精度を実現し,$\epsilon = 5.36$ で実装した。
この数を観点で見ると、非プライベートなBERTモデルは$\sim$70%の精度が得られる。
関連論文リスト
- Sparsity-Preserving Differentially Private Training of Large Embedding
Models [67.29926605156788]
DP-SGDは、差分プライバシーと勾配降下を組み合わせたトレーニングアルゴリズムである。
DP-SGDをネーティブに埋め込みモデルに適用すると、勾配の間隔が破壊され、トレーニング効率が低下する。
我々は,大規模埋め込みモデルのプライベートトレーニングにおいて,勾配間隔を保ったDP-FESTとDP-AdaFESTの2つの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-11-14T17:59:51Z) - EELBERT: Tiny Models through Dynamic Embeddings [0.28675177318965045]
EELBERTは、変換器ベースのモデル(例えばBERT)の圧縮のためのアプローチである。
これは、入力されたモデルの埋め込み層を動的、すなわちオンザフライの埋め込み計算に置き換えることによって達成される。
UNO-EELBERTは,完全に訓練されたBERT-tinyの4%以内でGLUEスコアを達成できる最小モデルである。
論文 参考訳(メタデータ) (2023-10-31T03:28:08Z) - Bias-Aware Minimisation: Understanding and Mitigating Estimator Bias in
Private SGD [56.01810892677744]
DP-SGDにおいて,サンプルごとの勾配ノルムとプライベート勾配オラクルの推定バイアスの関連性を示す。
BAM(Bias-Aware Minimisation)を提案する。
論文 参考訳(メタデータ) (2023-08-23T09:20:41Z) - DPBERT: Efficient Inference for BERT based on Dynamic Planning [11.680840266488884]
既存の入力適応推論手法ではBERTの構造を十分に活用できない。
本稿では,BERTの推論過程を高速化する新しい微調整戦略であるBERTにおける動的計画法を提案する。
提案手法は,98%の精度を維持しながら遅延を75%まで低減し,最先端の入力適応方式に比べて高精度なトレードオフを実現する。
論文 参考訳(メタデータ) (2023-07-26T07:18:50Z) - Dynamic Masking Rate Schedules for MLM Pretraining [15.460110571876097]
本稿では,トレーニング期間中のマスキング率を動的に予測することを提案する。
予備訓練でマスク率を直線的に減少させると平均GLUE精度が0.46%、0.25%向上することがわかった。
論文 参考訳(メタデータ) (2023-05-24T12:24:12Z) - Quantized Neural Networks for Low-Precision Accumulation with Guaranteed
Overflow Avoidance [68.8204255655161]
本稿では,推定時のアキュムレータの精度を下げる際に,数値オーバーフローを回避する量子化学習アルゴリズムを提案する。
本手法は,浮動小数点点ベースラインに対するモデル精度を維持しつつ,アキュムレータの精度を低減できることを示す。
論文 参考訳(メタデータ) (2023-01-31T02:46:57Z) - Packing Privacy Budget Efficiently [10.51351125953885]
差分プライバシー(DP)は、その漏洩を所定の予算で束縛する厳格な方法を提供する。
このDP予算は、ユーザデータに基づいてトレーニングされた複数のMLモデルのワークロードにおいて、新しいタイプの計算リソースと見なすことができる。
我々は、プライバシースケジューリングを、DP予算効率を最大化する多次元クナップサック問題と呼ばれる新しいタイプの多次元クナップサック問題として定式化する。
論文 参考訳(メタデータ) (2022-12-26T17:25:02Z) - Large Scale Transfer Learning for Differentially Private Image
Classification [51.10365553035979]
Differential Privacy(DP)は、個別のサンプルレベルのプライバシで機械学習モデルをトレーニングするための正式なフレームワークを提供する。
DP-SGDを用いたプライベートトレーニングは、個々のサンプル勾配にノイズを注入することで漏れを防ぐ。
この結果は非常に魅力的であるが,DP-SGDを用いた大規模モデルのトレーニングの計算コストは,非プライベートトレーニングよりもかなり高い。
論文 参考訳(メタデータ) (2022-05-06T01:22:20Z) - DP-FP: Differentially Private Forward Propagation for Large Models [2.062295244789704]
DPフォワードプロパゲーション (DP-FP) に差分プライベートグラディエントDescenceを置き換えることにより, 性能低下を緩和する方法を示す。
われわれのDP-FPの平均精度は91.34%で、プライバシー予算は3未満であり、最先端のDP-SGDよりも3.81%パフォーマンスが向上した。
論文 参考訳(メタデータ) (2021-12-29T07:32:29Z) - CPM-2: Large-scale Cost-effective Pre-trained Language Models [71.59893315671997]
本稿では, PLM を用いた事前学習, 微調整, 推論の効率性問題に対処するための費用対効果技術について述べる。
我々は,既存のPLMをスクラッチからトレーニングする代わりに活用することで,事前学習プロセスの促進を目的とした知識継承を導入する。
計算資源が限られている大規模PLMに対して,新しい推論ツールキット,すなわちInfMoEを実装した。
論文 参考訳(メタデータ) (2021-06-20T15:43:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。