論文の概要: DP-SGD for non-decomposable objective functions
- arxiv url: http://arxiv.org/abs/2310.03104v1
- Date: Wed, 4 Oct 2023 18:48:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-06 20:43:15.929994
- Title: DP-SGD for non-decomposable objective functions
- Title(参考訳): 非分解性目的関数に対するDP-SGD
- Authors: William Kong, Andr\'es Mu\~noz Medina and M\'onica Ribero
- Abstract要約: 類似度に基づく損失関数の新しい変種を開発し、目的関数の勾配を新しい方法で操作し、バッチサイズ$n$に対して$O(1)$の合計勾配の感度を求める。
提案手法は,非プライベートモデルに近い性能を示し,コントラスト損失に対して直接適用したDP-SGDを上回っている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Unsupervised pre-training is a common step in developing computer vision
models and large language models. In this setting, the absence of labels
requires the use of similarity-based loss functions, such as contrastive loss,
that favor minimizing the distance between similar inputs and maximizing the
distance between distinct inputs. As privacy concerns mount, training these
models using differential privacy has become more important. However, due to
how inputs are generated for these losses, one of their undesirable properties
is that their $L_2$ sensitivity can grow with increasing batch size. This
property is particularly disadvantageous for differentially private training
methods, such as DP-SGD. To overcome this issue, we develop a new DP-SGD
variant for similarity based loss functions -- in particular the commonly used
contrastive loss -- that manipulates gradients of the objective function in a
novel way to obtain a senstivity of the summed gradient that is $O(1)$ for
batch size $n$. We test our DP-SGD variant on some preliminary CIFAR-10
pre-training and CIFAR-100 finetuning tasks and show that, in both tasks, our
method's performance comes close to that of a non-private model and generally
outperforms DP-SGD applied directly to the contrastive loss.
- Abstract(参考訳): 教師なし事前学習はコンピュータビジョンモデルと大規模言語モデルを開発する一般的なステップである。
この設定では、ラベルの欠如は、類似した入力間の距離を最小化し、異なる入力間の距離を最大化する、コントラスト的損失のような類似性に基づく損失関数の使用を必要とする。
プライバシーの懸念が高まるにつれ、ディファレンシャルプライバシを用いたモデルトレーニングがより重要になっている。
しかし、これらの損失に対して入力がどのように生成されるかによって、その好ましくない特性の1つは、バッチサイズが大きくなるにつれて、その$L_2$感度が増加することである。
この性質はDP-SGDのような差分プライベートな訓練手法には特に不利である。
この問題を解決するために、類似性に基づく損失関数(特によく使われるコントラスト損失)のための新しいDP-SGD変種を開発し、新しい方法で目的関数の勾配を演算し、バッチサイズ$n$に対して$O(1)$の累積勾配の感度を得る。
予備的な CIFAR-10 と CIFAR-100 の微調整タスクにおいて,DP-SGD の変種を試験し,本手法の性能が非プライベートモデルに近く,コントラスト損失に直接適用した DP-SGD よりも優れていることを示す。
関連論文リスト
- Sparsity-Preserving Differentially Private Training of Large Embedding
Models [67.29926605156788]
DP-SGDは、差分プライバシーと勾配降下を組み合わせたトレーニングアルゴリズムである。
DP-SGDをネーティブに埋め込みモデルに適用すると、勾配の間隔が破壊され、トレーニング効率が低下する。
我々は,大規模埋め込みモデルのプライベートトレーニングにおいて,勾配間隔を保ったDP-FESTとDP-AdaFESTの2つの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-11-14T17:59:51Z) - Bias-Aware Minimisation: Understanding and Mitigating Estimator Bias in
Private SGD [56.01810892677744]
DP-SGDにおいて,サンプルごとの勾配ノルムとプライベート勾配オラクルの推定バイアスの関連性を示す。
BAM(Bias-Aware Minimisation)を提案する。
論文 参考訳(メタデータ) (2023-08-23T09:20:41Z) - DPIS: An Enhanced Mechanism for Differentially Private SGD with
Importance Sampling [19.59757201902467]
ディファレンシャルプライバシ(DP)は、プライバシ保護の十分に受け入れられた標準となり、ディープニューラルネットワーク(DNN)は、機械学習において非常に成功した。
この目的のための古典的なメカニズムはDP-SGDであり、これは訓練に一般的に使用される勾配降下(SGD)の微分プライベートバージョンである。
DPISは,DP-SGDのコアのドロップイン代替として使用できる,微分プライベートなSGDトレーニングのための新しいメカニズムである。
論文 参考訳(メタデータ) (2022-10-18T07:03:14Z) - TAN Without a Burn: Scaling Laws of DP-SGD [70.7364032297978]
近年、ディープニューラルネットワーク(DNN)を訓練するための微分プライベートな手法が進歩している。
プライバシ分析とノイズのあるトレーニングの実験的振る舞いを分離し、最小限の計算要件でトレードオフを探索する。
我々は,提案手法をCIFAR-10とImageNetに適用し,特にImageNetの最先端性を,上位1点の精度で向上させる。
論文 参考訳(メタデータ) (2022-10-07T08:44:35Z) - Normalized/Clipped SGD with Perturbation for Differentially Private
Non-Convex Optimization [94.06564567766475]
DP-SGDとDP-NSGDは、センシティブなトレーニングデータを記憶する大規模モデルのリスクを軽減する。
DP-NSGD は DP-SGD よりも比較的チューニングが比較的容易であるのに対して,これらの2つのアルゴリズムは同様の精度を実現する。
論文 参考訳(メタデータ) (2022-06-27T03:45:02Z) - Large Scale Transfer Learning for Differentially Private Image
Classification [51.10365553035979]
Differential Privacy(DP)は、個別のサンプルレベルのプライバシで機械学習モデルをトレーニングするための正式なフレームワークを提供する。
DP-SGDを用いたプライベートトレーニングは、個々のサンプル勾配にノイズを注入することで漏れを防ぐ。
この結果は非常に魅力的であるが,DP-SGDを用いた大規模モデルのトレーニングの計算コストは,非プライベートトレーニングよりもかなり高い。
論文 参考訳(メタデータ) (2022-05-06T01:22:20Z) - DP-FP: Differentially Private Forward Propagation for Large Models [2.062295244789704]
DPフォワードプロパゲーション (DP-FP) に差分プライベートグラディエントDescenceを置き換えることにより, 性能低下を緩和する方法を示す。
われわれのDP-FPの平均精度は91.34%で、プライバシー予算は3未満であり、最先端のDP-SGDよりも3.81%パフォーマンスが向上した。
論文 参考訳(メタデータ) (2021-12-29T07:32:29Z) - Large Language Models Can Be Strong Differentially Private Learners [70.0317718115406]
Differentially Private(DP)学習は、テキストの大規模なディープラーニングモデルを構築する上で、限られた成功を収めている。
この性能低下は,大規模な事前学習モデルを用いることで緩和可能であることを示す。
本稿では,DP-SGDにおけるクリッピングを,サンプルごとの勾配をインスタンス化せずに実行可能にするメモリ節約手法を提案する。
論文 参考訳(メタデータ) (2021-10-12T01:45:27Z) - Differentially Private Variational Autoencoders with Term-wise Gradient
Aggregation [12.880889651679094]
差分プライバシー制約の下で,様々な相違点を持つ変分オートエンコーダの学習方法について検討する。
損失項の構成に合わせてランダム化勾配を2つの異なる方法で作成する項ワイズDP-SGDを提案する。
論文 参考訳(メタデータ) (2020-06-19T16:12:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。