論文の概要: Differentially Private Zeroth-Order Methods for Scalable Large Language
Model Finetuning
- arxiv url: http://arxiv.org/abs/2402.07818v2
- Date: Wed, 21 Feb 2024 06:11:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-22 18:47:49.778999
- Title: Differentially Private Zeroth-Order Methods for Scalable Large Language
Model Finetuning
- Title(参考訳): 拡張性大言語モデルファインタニングのための微分プライベートゼロ階法
- Authors: Z Liu, J Lou, W Bao, Z Qin, K Ren
- Abstract要約: 事前訓練されたLLMの差分プライベート(DP)微調整は、タスク固有のデータセットのプライバシ保護に注目が集まっている。
DP-SGDのスケーラビリティを限界まで押し上げたにもかかわらず、DP-SGDベースの微調整法は残念ながらSGD固有の非効率性によって制限されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Finetuning on task-specific datasets is a widely-embraced paradigm of
harnessing the powerful capability of pretrained LLMs for various downstream
tasks. Due to the popularity of LLMs finetuning and its accompanying privacy
concerns, differentially private (DP) finetuning of pretrained LLMs has
garnered increasing attention to safeguarding the privacy of task-specific
datasets. Lying at the design core of DP LLM finetuning methods is the
satisfactory tradeoff between privacy, utility, and scalability. Most existing
methods build upon the seminal work of DP-SGD. Despite pushing the scalability
of DP-SGD to its limit, DP-SGD-based finetuning methods are unfortunately
limited by the inherent inefficiency of SGD. In this paper, we investigate the
potential of DP zeroth-order methods for LLM pretraining, which avoids the
scalability bottleneck of SGD by approximating the gradient with the more
efficient zeroth-order gradient. Rather than treating the zeroth-order method
as a drop-in replacement for SGD, this paper presents a comprehensive study
both theoretically and empirically. First, we propose the stagewise DP
zeroth-order method that dynamically schedules key hyperparameters. This design
is grounded on the synergy between DP random perturbation and the gradient
approximation error of the zeroth-order method, and its effect on finetuning
trajectory. Second, we further enhance the scalability by reducing the
trainable parameters that are identified by repurposing a data-free pruning
technique requiring no additional data or extra privacy budget. We provide
theoretical analysis for both proposed methods. We conduct extensive empirical
analysis on both encoder-only masked language model and decoder-only
autoregressive language model, achieving impressive results in terms of
scalability and utility.
- Abstract(参考訳): タスク固有のデータセットの微調整は、様々な下流タスクに事前学習されたLLMの強力な能力を活用する、広く採用されているパラダイムである。
LLMsファインタニングの人気とそれに伴うプライバシー上の懸念により、事前訓練されたLCMsの差分プライベート(DP)ファインタニングは、タスク固有のデータセットのプライバシ保護に注目が集まっている。
DP LLMファインタニングメソッドの設計コアに注目することは、プライバシ、ユーティリティ、スケーラビリティの間の十分なトレードオフである。
既存の手法のほとんどはDP-SGDの精巧な研究に基づいている。
DP-SGDのスケーラビリティを限界まで押し上げたにもかかわらず、DP-SGDベースの微調整法は残念ながらSGD固有の非効率性によって制限されている。
本稿では,より効率的なゼロ階勾配で勾配を近似することにより,SGDのスケーラビリティボトルネックを回避する,LCM事前学習のためのDPゼロ階法の可能性について検討する。
本稿では, ゼロオーダー法をSGDのドロップイン置換として扱うのではなく, 理論的, 実験的に総合的研究を行う。
まず,キーハイパーパラメータを動的にスケジュールするステージワイズdp零次法を提案する。
この設計は、dpランダム摂動と零次法の勾配近似誤差の相乗効果と、その微調整軌道への影響を基礎としている。
第2に,追加データや追加のプライバシ予算を必要とせず,データフリーな刈り取り手法を再提案することで識別可能なパラメータを削減し,スケーラビリティをさらに向上させる。
提案手法の理論的解析を行う。
我々は,エンコーダのみのマスク付き言語モデルとデコーダのみの自己回帰型言語モデルの両方について広範な実証分析を行い,スケーラビリティと実用性の観点から印象的な結果を得た。
関連論文リスト
- Private Fine-tuning of Large Language Models with Zeroth-order
Optimization [54.24600476755372]
DP-ZO(DP-ZO)は、ゼロオーダー最適化を民営化し、トレーニングデータのプライバシを保存する、大規模言語モデルを微調整する新しい手法である。
DP-ZOは、SQuADから1000のトレーニングサンプルにOPT-66Bを微調整すると、プライバシが1,10-5)$-DPになるため、わずか1.86%のパフォーマンス低下を示す。
論文 参考訳(メタデータ) (2024-01-09T03:53:59Z) - Differentially Private SGD Without Clipping Bias: An Error-Feedback
Approach [67.7315816158682]
Differentially Private Gradient Descent with gradient clipping (DPSGD-GC)は、ディープラーニングモデルをトレーニングするための強力なツールである。
DPノイズインジェクションと勾配クリッピングによるモデル性能劣化のコストがかかる。
DPSGD-GCに代わる新しいエラーフィードバック(EF)DPアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-11-24T17:56:44Z) - DPZero: Private Fine-Tuning of Language Models without Backpropagation [52.96184447403505]
DPZeroは、ほぼ次元に依存しない新しいゼロオーダーアルゴリズムである。
DPZeroのメモリ効率は、6つの下流タスクでプライベートに微調整されたRoBERTaで実証される。
論文 参考訳(メタデータ) (2023-10-14T18:42:56Z) - Differentially Private Learning with Per-Sample Adaptive Clipping [8.401653565794353]
非単調適応重み関数に基づくDP-PSACアルゴリズムを提案する。
DP-PSACは,複数のメインストリームビジョンや言語タスクにおいて,最先端の手法よりも優れ,あるいは適合していることを示す。
論文 参考訳(メタデータ) (2022-12-01T07:26:49Z) - DPIS: An Enhanced Mechanism for Differentially Private SGD with
Importance Sampling [19.59757201902467]
ディファレンシャルプライバシ(DP)は、プライバシ保護の十分に受け入れられた標準となり、ディープニューラルネットワーク(DNN)は、機械学習において非常に成功した。
この目的のための古典的なメカニズムはDP-SGDであり、これは訓練に一般的に使用される勾配降下(SGD)の微分プライベートバージョンである。
DPISは,DP-SGDのコアのドロップイン代替として使用できる,微分プライベートなSGDトレーニングのための新しいメカニズムである。
論文 参考訳(メタデータ) (2022-10-18T07:03:14Z) - Normalized/Clipped SGD with Perturbation for Differentially Private
Non-Convex Optimization [94.06564567766475]
DP-SGDとDP-NSGDは、センシティブなトレーニングデータを記憶する大規模モデルのリスクを軽減する。
DP-NSGD は DP-SGD よりも比較的チューニングが比較的容易であるのに対して,これらの2つのアルゴリズムは同様の精度を実現する。
論文 参考訳(メタデータ) (2022-06-27T03:45:02Z) - Automatic Clipping: Differentially Private Deep Learning Made Easier and
Stronger [39.93710312222771]
サンプルごとのクリッピングは、ディープラーニングモデルのための実用的な差分プライベート(DP)トレーニングを可能にするアルゴリズムの重要なステップである。
本稿では,任意のDPに対してRをチューニングする必要がなくなる自動クリッピング(automatic clipping)という,使い勝手の良い代替手法を提案する。
論文 参考訳(メタデータ) (2022-06-14T19:49:44Z) - Differentially Private Coordinate Descent for Composite Empirical Risk
Minimization [13.742100810492014]
機械学習モデルは、トレーニングに使用されるデータに関する情報をリークすることができる。
Differentially Private (DP) のGradient Descent (DP-SGD) のような最適化アルゴリズムは、これを緩和するために設計されている。
差分的私的リスク最小化法(DP-ERM: Differentially Private Coordinate Descent:DP-CD)を提案する。
論文 参考訳(メタデータ) (2021-10-22T10:22:48Z) - Large Language Models Can Be Strong Differentially Private Learners [70.0317718115406]
Differentially Private(DP)学習は、テキストの大規模なディープラーニングモデルを構築する上で、限られた成功を収めている。
この性能低下は,大規模な事前学習モデルを用いることで緩和可能であることを示す。
本稿では,DP-SGDにおけるクリッピングを,サンプルごとの勾配をインスタンス化せずに実行可能にするメモリ節約手法を提案する。
論文 参考訳(メタデータ) (2021-10-12T01:45:27Z) - Direction Matters: On the Implicit Bias of Stochastic Gradient Descent
with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。
SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文 参考訳(メタデータ) (2020-11-04T21:07:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。