Fugu-MT 論文翻訳(概要): Large-Scale Differentially Private BERT

論文の概要: Large-Scale Differentially Private BERT

arxiv url: http://arxiv.org/abs/2108.01624v1
Date: Tue, 3 Aug 2021 16:51:36 GMT
ステータス: 翻訳完了
システム内更新日: 2021-08-04 14:05:51.934682
Title: Large-Scale Differentially Private BERT
Title（参考訳）: 大規模微分プライベートベルト
Authors: Rohan Anil, Badih Ghazi, Vineet Gupta, Ravi Kumar, Pasin Manurangsi
Abstract要約: 本研究では,DP-SGDを用いたBERTラージの大規模事前学習について検討する。本稿では, バッチサイズを数百万にスケールアップすることで, BERT のDP-SGD ステップの有用性が向上することを示す。
参考スコア（独自算出の注目度）: 47.76054952193217
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this work, we study the large-scale pretraining of BERT-Large with differentially private SGD (DP-SGD). We show that combined with a careful implementation, scaling up the batch size to millions (i.e., mega-batches) improves the utility of the DP-SGD step for BERT; we also enhance its efficiency by using an increasing batch size schedule. Our implementation builds on the recent work of [SVK20], who demonstrated that the overhead of a DP-SGD step is minimized with effective use of JAX [BFH+18, FJL18] primitives in conjunction with the XLA compiler [XLA17]. Our implementation achieves a masked language model accuracy of 60.5% at a batch size of 2M, for $\epsilon = 5.36$. To put this number in perspective, non-private BERT models achieve an accuracy of $\sim$70%.
Abstract（参考訳）: 本研究では,DP-SGDを用いたBERT-Largeの大規模事前学習について検討する。本稿では, バッチサイズを数百万(メガバッチ)にスケールアップすることで, BERT のDP-SGD ステップの有用性が向上し, バッチサイズの増加による効率の向上が図られている。我々の実装は、XLAコンパイラ[XLA17]と協調してJAX[BFH+18, FJL18]プリミティブを有効利用することにより、DP-SGDステップのオーバーヘッドが最小化されることを実証した最近の[SVK20]の成果に基づいている。実装では2mのバッチサイズで60.5%のマスキング言語モデル精度を実現し,$\epsilon = 5.36$ で実装した。この数を観点で見ると、非プライベートなBERTモデルは$\sim$70%の精度が得られる。

関連論文リスト

Privacy-Preserving Inference for Quantized BERT Models [13.36359444231145]
量子化は浮動小数点演算を低精度整数計算に変換することで有望な解を提供する。本研究では, 層単位での微細な量子化手法を提案し, 1ビットの重み付き全連結層をセキュアな設定で支持する。
論文参考訳（メタデータ） (2025-08-03T07:52:08Z)
Towards Efficient and Scalable Training of Differentially Private Deep Learning [5.825410941577592]
微分プライベート勾配降下(DP-SGD)は、差分プライバシ(DP)の下で機械学習モデルを訓練するための標準アルゴリズムである。 Poissonサブサンプリングによる計算効率の良いDP-SGDの実装は簡単ではないため、多くの実装がこの要件を無視している。本研究では,DP下でのディープラーニングモデルを学習する際の計算コストを定量化するための総合的な実証的研究を行う。 PyTorch の Opacus を用いた単純実装 DP-SGD は,SGD よりも2.6～8倍のスループットを持つことがわかった。
論文参考訳（メタデータ） (2024-06-25T06:04:58Z)
Differentially Private Zeroth-Order Methods for Scalable Large Language Model Finetuning [0.0]
プリトレーニング済みLLMのDP微調整は、タスク固有のデータセットのプライバシ保護に広く用いられている。 DP-SGDのスケーラビリティを限界まで押し上げたにもかかわらず、DP-SGDベースの微調整法は残念ながらSGD固有の非効率性によって制限されている。
論文参考訳（メタデータ） (2024-02-12T17:24:15Z)
Private Fine-tuning of Large Language Models with Zeroth-order Optimization [51.19403058739522]
差分的プライベート勾配降下(DP-SGD)により、モデルはプライバシ保護の方法でトレーニングできる。 DP-ZO(DP-ZO)は,ゼロオーダー最適化手法を民営化することで,大規模言語モデルのためのプライベートな微調整フレームワークである。
論文参考訳（メタデータ） (2024-01-09T03:53:59Z)
Sparsity-Preserving Differentially Private Training of Large Embedding Models [67.29926605156788]
DP-SGDは、差分プライバシーと勾配降下を組み合わせたトレーニングアルゴリズムである。 DP-SGDをネーティブに埋め込みモデルに適用すると、勾配の間隔が破壊され、トレーニング効率が低下する。我々は,大規模埋め込みモデルのプライベートトレーニングにおいて,勾配間隔を保ったDP-FESTとDP-AdaFESTの2つの新しいアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-11-14T17:59:51Z)
SG-Former: Self-guided Transformer with Evolving Token Reallocation [89.9363449724261]
本稿では,適応的な微粒化を伴う効果的なグローバル自己注意に向けて,自己誘導変換器と呼ばれる新しいモデルを提案する。我々は、細かな注意を得られるために、細かな領域により多くのトークンを割り当てる一方で、効率とグローバルな受容場と引き換えに、小さな領域に少ないトークンを割り当てる。提案したSG-Formerは,最先端技術よりも優れたパフォーマンスを実現している。我々のベースサイズモデルは,ImageNet-1K上のTop-1精度,textbf51.2mAP BBAP on CoCo, textbf52.7mIoU
論文参考訳（メタデータ） (2023-08-23T15:52:45Z)
Bias-Aware Minimisation: Understanding and Mitigating Estimator Bias in Private SGD [56.01810892677744]
DP-SGDにおいて,サンプルごとの勾配ノルムとプライベート勾配オラクルの推定バイアスの関連性を示す。 BAM(Bias-Aware Minimisation)を提案する。
論文参考訳（メタデータ） (2023-08-23T09:20:41Z)
Dynamic Masking Rate Schedules for MLM Pretraining [15.460110571876097]
本稿では,トレーニング期間中のマスキング率を動的に予測することを提案する。予備訓練でマスク率を直線的に減少させると平均GLUE精度が0.46%、0.25%向上することがわかった。
論文参考訳（メタデータ） (2023-05-24T12:24:12Z)
Large Scale Transfer Learning for Differentially Private Image Classification [51.10365553035979]
Differential Privacy(DP)は、個別のサンプルレベルのプライバシで機械学習モデルをトレーニングするための正式なフレームワークを提供する。 DP-SGDを用いたプライベートトレーニングは、個々のサンプル勾配にノイズを注入することで漏れを防ぐ。この結果は非常に魅力的であるが,DP-SGDを用いた大規模モデルのトレーニングの計算コストは,非プライベートトレーニングよりもかなり高い。
論文参考訳（メタデータ） (2022-05-06T01:22:20Z)
DP-FP: Differentially Private Forward Propagation for Large Models [2.062295244789704]
DPフォワードプロパゲーション (DP-FP) に差分プライベートグラディエントDescenceを置き換えることにより, 性能低下を緩和する方法を示す。われわれのDP-FPの平均精度は91.34%で、プライバシー予算は3未満であり、最先端のDP-SGDよりも3.81%パフォーマンスが向上した。
論文参考訳（メタデータ） (2021-12-29T07:32:29Z)
CPM-2: Large-scale Cost-effective Pre-trained Language Models [71.59893315671997]
本稿では, PLM を用いた事前学習, 微調整, 推論の効率性問題に対処するための費用対効果技術について述べる。我々は,既存のPLMをスクラッチからトレーニングする代わりに活用することで,事前学習プロセスの促進を目的とした知識継承を導入する。計算資源が限られている大規模PLMに対して,新しい推論ツールキット,すなわちInfMoEを実装した。
論文参考訳（メタデータ） (2021-06-20T15:43:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。