論文の概要: Memory-Efficient Differentially Private Training with Gradient Random Projection
- arxiv url: http://arxiv.org/abs/2506.15588v1
- Date: Wed, 18 Jun 2025 16:05:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-19 19:35:51.733928
- Title: Memory-Efficient Differentially Private Training with Gradient Random Projection
- Title(参考訳): グラディエントランダムプロジェクションを用いたメモリ効率の良い差分プライベートトレーニング
- Authors: Alex Mulrooney, Devansh Gupta, James Flemings, Huanyu Zhang, Murali Annavaram, Meisam Razaviyayn, Xinwei Zhang,
- Abstract要約: 差分プライバシー(DP)は、ニューラルネットワークトレーニング中に機密データを保護します。
DP-Adamのような標準的なメソッドは、サンプルごとの勾配クリッピングによってメモリオーバーヘッドが高くなる。
本稿では,DP-GRAPE(Gradient RAndom ProjEction)を提案する。
- 参考スコア(独自算出の注目度): 23.309769734156383
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Differential privacy (DP) protects sensitive data during neural network training, but standard methods like DP-Adam suffer from high memory overhead due to per-sample gradient clipping, limiting scalability. We introduce DP-GRAPE (Gradient RAndom ProjEction), a DP training method that significantly reduces memory usage while maintaining utility on par with first-order DP approaches. Rather than directly applying DP to GaLore, DP-GRAPE introduces three key modifications: (1) gradients are privatized after projection, (2) random Gaussian matrices replace SVD-based subspaces, and (3) projection is applied during backpropagation. These contributions eliminate the need for costly SVD computations, enable substantial memory savings, and lead to improved utility. Despite operating in lower-dimensional subspaces, our theoretical analysis shows that DP-GRAPE achieves a privacy-utility trade-off comparable to DP-SGD. Our extensive empirical experiments show that DP-GRAPE can reduce the memory footprint of DP training without sacrificing accuracy or training time. In particular, DP-GRAPE reduces memory usage by over 63% when pre-training Vision Transformers and over 70% when fine-tuning RoBERTa-Large as compared to DP-Adam, while achieving similar performance. We further demonstrate that DP-GRAPE scales to fine-tuning large models such as OPT with up to 6.7 billion parameters.
- Abstract(参考訳): 差分プライバシー(DP)は、ニューラルネットワークトレーニング中に機密データを保護しますが、DP-Adamのような標準的な方法は、サンプルごとの勾配クリッピングによってメモリオーバーヘッドが高くなり、スケーラビリティが制限されます。
本稿では,DP-GRAPE(Gradient RAndom ProjEction)というDPトレーニング手法を導入する。
DP-GRAPE は GaLore に DP を直接適用するのではなく、(1) 勾配は射影後に民営化され、(2) ランダムガウス行列は SVD ベースの部分空間に置き換わり、(3) 投影はバックプロパゲーション中に適用される。
これらのコントリビューションは、コストのかかるSVD計算の必要性を排除し、メモリの大幅な節約を可能にし、実用性の向上につながる。
低次元のサブスペースで動作するにもかかわらず、DP-GRAPEはDP-SGDと同等のプライバシー利用トレードオフを達成している。
DP-GRAPEはDPトレーニングのメモリフットプリントを精度やトレーニング時間を犠牲にすることなく低減できることを示す。
特に、DP-GRAPEは、Vision Transformerの事前トレーニング時に63%以上、RoBERTa-Largeの微調整時に70%以上、DP-Adamと比較してメモリ使用量を63%以上削減する。
さらに、DP-GRAPEは最大670億のパラメータを持つOPTのような細調整された大型モデルにスケールすることを示した。
関連論文リスト
- Towards Efficient and Scalable Training of Differentially Private Deep Learning [5.825410941577592]
微分プライベート勾配降下(DP-SGD)は、差分プライバシ(DP)の下で機械学習モデルを訓練するための標準アルゴリズムである。
Poissonサブサンプリングによる計算効率の良いDP-SGDの実装は簡単ではないため、多くの実装がこの要件を無視している。
本研究では,DP下でのディープラーニングモデルを学習する際の計算コストを定量化するための総合的な実証的研究を行う。
PyTorch の Opacus を用いた単純実装 DP-SGD は,SGD よりも2.6~8倍のスループットを持つことがわかった。
論文 参考訳(メタデータ) (2024-06-25T06:04:58Z) - Pre-training Differentially Private Models with Limited Public Data [54.943023722114134]
ディファレンシャルプライバシ(DP)は、モデルに提供されるセキュリティの度合いを測定するための重要な手法である。
DPはまだ、最初の事前訓練段階で使用されるデータのかなりの部分を保護することができない。
公共データの10%しか利用しない新しいDP継続事前学習戦略を開発した。
ImageNet-21kのDP精度は41.5%、非DP精度は55.7%、下流タスクのPlaces365とiNaturalist-2021では60.0%である。
論文 参考訳(メタデータ) (2024-02-28T23:26:27Z) - Private Fine-tuning of Large Language Models with Zeroth-order Optimization [51.19403058739522]
差分的プライベート勾配降下(DP-SGD)により、モデルはプライバシ保護の方法でトレーニングできる。
DP-ZO(DP-ZO)は,ゼロオーダー最適化手法を民営化することで,大規模言語モデルのためのプライベートな微調整フレームワークである。
論文 参考訳(メタデータ) (2024-01-09T03:53:59Z) - Sparsity-Preserving Differentially Private Training of Large Embedding
Models [67.29926605156788]
DP-SGDは、差分プライバシーと勾配降下を組み合わせたトレーニングアルゴリズムである。
DP-SGDをネーティブに埋め込みモデルに適用すると、勾配の間隔が破壊され、トレーニング効率が低下する。
我々は,大規模埋め込みモデルのプライベートトレーニングにおいて,勾配間隔を保ったDP-FESTとDP-AdaFESTの2つの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-11-14T17:59:51Z) - DP-Forward: Fine-tuning and Inference on Language Models with Differential Privacy in Forward Pass [22.578388829171157]
DP-フォワードの摂動は言語モデルの前方通過に埋め込まれる。
ほぼ民間のベースラインに到達し、プライバシーレベルではDP-SGDを7.7ppまで上回っている。
論文 参考訳(メタデータ) (2023-09-13T06:37:53Z) - Automatic Clipping: Differentially Private Deep Learning Made Easier and
Stronger [39.93710312222771]
サンプルごとのクリッピングは、ディープラーニングモデルのための実用的な差分プライベート(DP)トレーニングを可能にするアルゴリズムの重要なステップである。
本稿では,任意のDPに対してRをチューニングする必要がなくなる自動クリッピング(automatic clipping)という,使い勝手の良い代替手法を提案する。
論文 参考訳(メタデータ) (2022-06-14T19:49:44Z) - Large Scale Transfer Learning for Differentially Private Image
Classification [51.10365553035979]
Differential Privacy(DP)は、個別のサンプルレベルのプライバシで機械学習モデルをトレーニングするための正式なフレームワークを提供する。
DP-SGDを用いたプライベートトレーニングは、個々のサンプル勾配にノイズを注入することで漏れを防ぐ。
この結果は非常に魅力的であるが,DP-SGDを用いた大規模モデルのトレーニングの計算コストは,非プライベートトレーニングよりもかなり高い。
論文 参考訳(メタデータ) (2022-05-06T01:22:20Z) - DP-FP: Differentially Private Forward Propagation for Large Models [2.062295244789704]
DPフォワードプロパゲーション (DP-FP) に差分プライベートグラディエントDescenceを置き換えることにより, 性能低下を緩和する方法を示す。
われわれのDP-FPの平均精度は91.34%で、プライバシー予算は3未満であり、最先端のDP-SGDよりも3.81%パフォーマンスが向上した。
論文 参考訳(メタデータ) (2021-12-29T07:32:29Z) - Large Language Models Can Be Strong Differentially Private Learners [70.0317718115406]
Differentially Private(DP)学習は、テキストの大規模なディープラーニングモデルを構築する上で、限られた成功を収めている。
この性能低下は,大規模な事前学習モデルを用いることで緩和可能であることを示す。
本稿では,DP-SGDにおけるクリッピングを,サンプルごとの勾配をインスタンス化せずに実行可能にするメモリ節約手法を提案する。
論文 参考訳(メタデータ) (2021-10-12T01:45:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。