論文の概要: Large Scale Private Learning via Low-rank Reparametrization
- arxiv url: http://arxiv.org/abs/2106.09352v1
- Date: Thu, 17 Jun 2021 10:14:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-18 15:39:00.905178
- Title: Large Scale Private Learning via Low-rank Reparametrization
- Title(参考訳): 低ランク再パラメータ化による大規模プライベートラーニング
- Authors: Da Yu, Huishuai Zhang, Wei Chen, Jian Yin, Tie-Yan Liu
- Abstract要約: 本稿では、大規模ニューラルネットワークに微分プライベートSGDを適用する際の課題を解決するために、再パラメータ化方式を提案する。
BERTモデルにディファレンシャルプライバシを適用し、4つの下流タスクで平均精度が8,3.9%に達するのはこれが初めてである。
- 参考スコア(独自算出の注目度): 77.38947817228656
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a reparametrization scheme to address the challenges of applying
differentially private SGD on large neural networks, which are 1) the huge
memory cost of storing individual gradients, 2) the added noise suffering
notorious dimensional dependence. Specifically, we reparametrize each weight
matrix with two \emph{gradient-carrier} matrices of small dimension and a
\emph{residual weight} matrix. We argue that such reparametrization keeps the
forward/backward process unchanged while enabling us to compute the projected
gradient without computing the gradient itself. To learn with differential
privacy, we design \emph{reparametrized gradient perturbation (RGP)} that
perturbs the gradients on gradient-carrier matrices and reconstructs an update
for the original weight from the noisy gradients. Importantly, we use
historical updates to find the gradient-carrier matrices, whose optimality is
rigorously justified under linear regression and empirically verified with deep
learning tasks. RGP significantly reduces the memory cost and improves the
utility. For example, we are the first able to apply differential privacy on
the BERT model and achieve an average accuracy of $83.9\%$ on four downstream
tasks with $\epsilon=8$, which is within $5\%$ loss compared to the non-private
baseline but enjoys much lower privacy leakage risk.
- Abstract(参考訳): 本研究では,1)個々の勾配を記憶する大きなメモリコスト,2)悪名高い次元依存に苦しむ付加ノイズといった,大きなニューラルネットワークに微分プライベートSGDを適用する際の課題に対処する再パラメータ化手法を提案する。
具体的には、各重み行列を2つの小さな次元の 'emph{gradient-carrier} 行列と \emph{residual weight} 行列で再パラメータ化する。
このような再パラメータ化は、勾配自体を計算せずに投影された勾配を計算できる一方で、前方/後方のプロセスを変更しないと主張している。
差分プライバシーを用いて学習するために、勾配キャリア行列の勾配を摂動させ、ノイズ勾配から元の重みの更新を再構築する \emph{reparametrized gradient perturbation (RGP) を設計する。
重要なのは,線形回帰の下での最適性が厳密に正当化され,深層学習タスクで実証的に検証される勾配キャリア行列を見つけるために,過去の更新を用いることである。
RGPはメモリコストを大幅に削減し、実用性を向上させる。
例えば、bertモデルに差分プライバシを適用して、4つのダウンストリームタスクで平均83.9\%$で$\epsilon=8$という、非プライベートベースラインに比べて5\%$の損失を被るが、プライバシリークのリスクははるかに低いという、最初の例です。
関連論文リスト
- Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - Sketchy: Memory-efficient Adaptive Regularization with Frequent
Directions [22.09320263962004]
ディープラーニング(DL)学習タスクにおけるKronecker-factored gradient covariance matrixのスペクトルは、小さなリード固有空間に集中している。
本稿では,行列プレコンディショナを維持するためのメモリと計算要求を低減させる汎用的手法について述べる。
ShampooやAdamと競合する手法で、第2の瞬間を追跡するにはサブ線形メモリしか必要ありません。
論文 参考訳(メタデータ) (2023-02-07T21:50:06Z) - M22: A Communication-Efficient Algorithm for Federated Learning Inspired
by Rate-Distortion [19.862336286338564]
連合学習では、通信制約による精度の損失を最小限に抑えるために、モデル更新を圧縮する必要がある。
本稿では、勾配圧縮に対する速度歪みに着想を得たEmph$bf M$-magnitudeed $L_bf 2$ distortion + $bf 2$ degrees of freedom' (M22)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-01-23T04:40:01Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - Scaling Forward Gradient With Local Losses [117.22685584919756]
フォワード学習は、ディープニューラルネットワークを学ぶためのバックプロップに代わる生物学的に妥当な代替手段である。
重みよりも活性化に摂動を適用することにより、前方勾配のばらつきを著しく低減できることを示す。
提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-07T03:52:27Z) - Do Not Let Privacy Overbill Utility: Gradient Embedding Perturbation for
Private Learning [74.73901662374921]
差分プライベートモデルは、モデルが多数のトレーニング可能なパラメータを含む場合、ユーティリティを劇的に劣化させる。
偏微分プライベート深層モデルの精度向上のためのアルゴリズムemphGradient Embedding Perturbation (GEP)を提案する。
論文 参考訳(メタデータ) (2021-02-25T04:29:58Z) - Understanding Gradient Clipping in Private SGD: A Geometric Perspective [68.61254575987013]
ディープラーニングモデルは、トレーニングデータが機密情報を含む可能性がある多くの機械学習アプリケーションで、ますます人気が高まっている。
多くの学習システムは、(異なる)プライベートSGDでモデルをトレーニングすることで、差分プライバシーを取り入れている。
各プライベートSGDアップデートにおける重要なステップは勾配クリッピングであり、L2ノルムがしきい値を超えると、個々の例の勾配を小さくする。
論文 参考訳(メタデータ) (2020-06-27T19:08:12Z) - The Impact of the Mini-batch Size on the Variance of Gradients in
Stochastic Gradient Descent [28.148743710421932]
ミニバッチ勾配勾配(SGD)アルゴリズムは機械学習モデルのトレーニングに広く用いられている。
線形回帰および2層線形ネットワーク下でのSGDダイナミクスについて検討し,より深い線形ネットワークへの拡張を容易にする。
論文 参考訳(メタデータ) (2020-04-27T20:06:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。