論文の概要: FlashDP: Private Training Large Language Models with Efficient DP-SGD
- arxiv url: http://arxiv.org/abs/2507.01154v1
- Date: Tue, 01 Jul 2025 19:28:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:59.869639
- Title: FlashDP: Private Training Large Language Models with Efficient DP-SGD
- Title(参考訳): FlashDP: 効率的なDP-SGDを用いた大規模言語モデルのプライベートトレーニング
- Authors: Liangyu Wang, Junxiao Wang, Jie Ren, Zihang Xiang, David E. Keyes, Di Wang,
- Abstract要約: FlashDPは革新的なキャッシュフレンドリーなDP-SGDであり、必要な操作を単一のタスクに統合し、融合された方法で1回だけ勾配を計算する。
本稿では,必要な操作をひとつのタスクに統合し,一度だけグラデーションを計算する,革新的なキャッシュフレンドリーなDP-SGDであるFlashDPを紹介する。
- 参考スコア(独自算出の注目度): 11.39146065534273
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As large language models (LLMs) increasingly underpin technological advancements, the privacy of their training data emerges as a critical concern. Differential Privacy (DP) serves as a rigorous mechanism to protect this data, yet its integration via Differentially Private Stochastic Gradient Descent (DP-SGD) introduces substantial challenges, primarily due to the complexities of per-sample gradient clipping. Current explicit methods, such as Opacus, necessitate extensive storage for per-sample gradients, significantly inflating memory requirements. Conversely, implicit methods like GhostClip reduce storage needs by recalculating gradients multiple times, which leads to inefficiencies due to redundant computations. This paper introduces FlashDP, an innovative cache-friendly per-layer DP-SGD that consolidates necessary operations into a single task, calculating gradients only once in a fused manner. This approach not only diminishes memory movement by up to \textbf{50\%} but also cuts down redundant computations by \textbf{20\%}, compared to previous methods. Consequently, FlashDP does not increase memory demands and achieves a \textbf{90\%} throughput compared to the Non-DP method on a four-A100 system during the pre-training of the Llama-13B model, while maintaining parity with standard per-layer clipped DP-SGD in terms of accuracy. These advancements establish FlashDP as a pivotal development for efficient and privacy-preserving training of LLMs. FlashDP's code has been open-sourced in https://github.com/kaustpradalab/flashdp.
- Abstract(参考訳): 大規模言語モデル(LLM)が技術の進歩をますます支えているため、トレーニングデータのプライバシーが重要な懸念事項として浮上している。
差分プライバシー(DP)は、これらのデータを保護するための厳密なメカニズムとして機能するが、その統合は、主にサンプルごとの勾配クリッピングの複雑さによって、大きな課題をもたらす。
Opacusのような現在の明示的なメソッドでは、サンプル単位の勾配を広範囲に保存する必要がある。
逆に、GhostClipのような暗黙のメソッドは、グラデーションを何度も再計算することで、ストレージの必要性を減らす。
本稿では,必要な操作をひとつのタスクに統合し,一度だけグラデーションを計算する,革新的なキャッシュフレンドリーなDP-SGDであるFlashDPを紹介する。
このアプローチは、メモリの移動を最大で \textbf{50\%} で減少させるだけでなく、従来の方法と比較して、 \textbf{20\%} で冗長な計算を減らす。
その結果、FlashDPはメモリ要求を増大させず、Llama-13Bモデルの事前トレーニング中に4-A100システム上のNon-DP法と比較して、標準の1層カットされたDP-SGDと精度で同等を維持しながら、‘textbf{90\%’スループットを達成する。
これらの進歩は、LLMの効率的かつプライバシ保護トレーニングのための重要な開発としてFlashDPを確立している。
FlashDPのコードはhttps://github.com/kaustpradalab/flashdp.comでオープンソース化された。
関連論文リスト
- Dual-Priv Pruning : Efficient Differential Private Fine-Tuning in Multimodal Large Language Models [21.598534853947676]
MLLMにおける微分プライバシ(DP)微調整のための2つの補完的プルーニング機構を用いたフレームワークを提案する。
我々のアプローチは、標準のDP-SGDよりも少ないメモリを一貫して活用する。
我々の知る限りでは、我々はMLLMにおけるDPファインチューニングを初めて探求している。
論文 参考訳(メタデータ) (2025-06-08T10:33:01Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - Pre-training Differentially Private Models with Limited Public Data [54.943023722114134]
ディファレンシャルプライバシ(DP)は、モデルに提供されるセキュリティの度合いを測定するための重要な手法である。
DPはまだ、最初の事前訓練段階で使用されるデータのかなりの部分を保護することができない。
公共データの10%しか利用しない新しいDP継続事前学習戦略を開発した。
ImageNet-21kのDP精度は41.5%、非DP精度は55.7%、下流タスクのPlaces365とiNaturalist-2021では60.0%である。
論文 参考訳(メタデータ) (2024-02-28T23:26:27Z) - Private Fine-tuning of Large Language Models with Zeroth-order Optimization [51.19403058739522]
差分的プライベート勾配降下(DP-SGD)により、モデルはプライバシ保護の方法でトレーニングできる。
DP-ZO(DP-ZO)は,ゼロオーダー最適化手法を民営化することで,大規模言語モデルのためのプライベートな微調整フレームワークである。
論文 参考訳(メタデータ) (2024-01-09T03:53:59Z) - Sparsity-Preserving Differentially Private Training of Large Embedding
Models [67.29926605156788]
DP-SGDは、差分プライバシーと勾配降下を組み合わせたトレーニングアルゴリズムである。
DP-SGDをネーティブに埋め込みモデルに適用すると、勾配の間隔が破壊され、トレーニング効率が低下する。
我々は,大規模埋め込みモデルのプライベートトレーニングにおいて,勾配間隔を保ったDP-FESTとDP-AdaFESTの2つの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-11-14T17:59:51Z) - DPZero: Private Fine-Tuning of Language Models without Backpropagation [49.365749361283704]
DPZeroは、ほぼ次元に依存しない新しいゼロオーダーアルゴリズムである。
DPZeroのメモリ効率は、いくつかの下流タスクでプライベートに微調整されたRoBERTaとOPTで実証される。
論文 参考訳(メタデータ) (2023-10-14T18:42:56Z) - Automatic Clipping: Differentially Private Deep Learning Made Easier and
Stronger [39.93710312222771]
サンプルごとのクリッピングは、ディープラーニングモデルのための実用的な差分プライベート(DP)トレーニングを可能にするアルゴリズムの重要なステップである。
本稿では,任意のDPに対してRをチューニングする必要がなくなる自動クリッピング(automatic clipping)という,使い勝手の良い代替手法を提案する。
論文 参考訳(メタデータ) (2022-06-14T19:49:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。