論文の概要: Efficient DP-SGD for LLMs with Randomized Clipping
- arxiv url: http://arxiv.org/abs/2605.24879v1
- Date: Sun, 24 May 2026 05:44:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:18.49064
- Title: Efficient DP-SGD for LLMs with Randomized Clipping
- Title(参考訳): ランダムクリッピングによるLDMの効率的なDP-SGD
- Authors: Enayat Ullah, Sai Aparna Aketi, Devansh Gupta, Huanyu Zhang, Meisam Razaviyayn,
- Abstract要約: 大規模言語モデル(LLM)は、機密情報を含む可能性のある膨大なデータセットに基づいて訓練される。
本稿では,DP-SGD-RCを提案する。DP-SGDの新しい変種であるDP-SGD-RCは,メモリと計算の複雑さを低減できる。
本稿では,DP-SGD-RCが決定論的クリッピングと競合する雑音を実現することを示す厳密なプライバシー分析を行う。
- 参考スコア(独自算出の注目度): 28.00696116795116
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are trained on vast datasets that may contain sensitive information. Differential privacy (DP), the de facto standard for formal privacy guarantees, provides a principled framework for training LLMs with provable privacy protection. However, state-of-the-art DP training implementations rely on fast gradient clipping techniques with memory overhead $O(B \min\{T^2, d^2\})$, where $B$ is the batch size, $T$ is the sequence length, and $d$ is the model width. This becomes prohibitive as both model size and context length grow. We propose DP-SGD-RC, a novel variant of DP-SGD with randomized clipping that reduces memory and compute complexity. DP-SGD-RC leverages stochastic trace estimation methods, specifically Hutchinson's estimator[Hutchinson, 1989] and its improved variant, Hutch++[Meyer et al., 2021], to reduce the memory footprint of per-sample gradient norm estimation. We provide a tight privacy analysis showing that DP-SGD-RC achieves noise multipliers competitive with deterministic clipping. Experiments fine-tuning Llama~3.2-1B on long-context benchmarks spanning classification, question answering, and summarization tasks demonstrate that DP-SGD-RC matches baseline utility while significantly reducing memory and compute requirements.
- Abstract(参考訳): 大規模言語モデル(LLM)は、機密情報を含む可能性のある膨大なデータセットに基づいて訓練される。
正式なプライバシ保証のデファクトスタンダードである差分プライバシー(DP)は、証明可能なプライバシ保護でLLMをトレーニングするための原則的なフレームワークを提供する。
しかし、最先端のDPトレーニング実装では、メモリオーバーヘッドが$O(B \min\{T^2, d^2\})$で、$B$がバッチサイズ、$T$がシーケンス長、$d$がモデル幅である。
モデルのサイズとコンテキストの長さが大きくなるにつれて、これは禁止される。
本稿では,DP-SGD-RCを提案する。DP-SGDの新しい変種であるDP-SGD-RCは,メモリと計算の複雑さを低減できる。
DP-SGD-RCは確率的トレース推定手法、特にハッチンソンの推定器[Hutchinson, 1989]と改良された変種Hutch++[Meyer et al , 2021]を利用して、サンプルごとの勾配ノルム推定のメモリフットプリントを削減する。
本稿では,DP-SGD-RCが決定論的クリッピングと競合するノイズ乗数を達成することを示す厳密なプライバシー分析を行う。
Llama~3.2-1Bを分類、質問応答、要約タスクにまたがる長期コンテキストベンチマークで微調整した実験では、DP-SGD-RCがベースラインユーティリティと一致し、メモリと計算要求が大幅に減少することを示した。
関連論文リスト
- Memory-Efficient Differentially Private Training with Gradient Random Projection [23.309769734156383]
差分プライバシー(DP)は、ニューラルネットワークトレーニング中に機密データを保護します。
DP-Adamのような標準的なメソッドは、サンプルごとの勾配クリッピングによってメモリオーバーヘッドが高くなる。
本稿では,DP-GRAPE(Gradient RAndom ProjEction)を提案する。
論文 参考訳(メタデータ) (2025-06-18T16:05:09Z) - Differentially Private Zeroth-Order Methods for Scalable Large Language Model Finetuning [0.0]
プリトレーニング済みLLMのDP微調整は、タスク固有のデータセットのプライバシ保護に広く用いられている。
DP-SGDのスケーラビリティを限界まで押し上げたにもかかわらず、DP-SGDベースの微調整法は残念ながらSGD固有の非効率性によって制限されている。
論文 参考訳(メタデータ) (2024-02-12T17:24:15Z) - Private Fine-tuning of Large Language Models with Zeroth-order Optimization [51.19403058739522]
差分的プライベート勾配降下(DP-SGD)により、モデルはプライバシ保護の方法でトレーニングできる。
DP-ZO(DP-ZO)は,ゼロオーダー最適化手法を民営化することで,大規模言語モデルのためのプライベートな微調整フレームワークである。
論文 参考訳(メタデータ) (2024-01-09T03:53:59Z) - Differentially Private SGD Without Clipping Bias: An Error-Feedback Approach [62.000948039914135]
Differentially Private Gradient Descent with Gradient Clipping (DPSGD-GC) を使用して、差分プライバシ(DP)がモデルパフォーマンス劣化の犠牲となることを保証する。
DPSGD-GCに代わる新しいエラーフィードバック(EF)DPアルゴリズムを提案する。
提案アルゴリズムに対するアルゴリズム固有のDP解析を確立し,R'enyi DPに基づくプライバシ保証を提供する。
論文 参考訳(メタデータ) (2023-11-24T17:56:44Z) - DP-Forward: Fine-tuning and Inference on Language Models with Differential Privacy in Forward Pass [22.578388829171157]
DP-フォワードの摂動は言語モデルの前方通過に埋め込まれる。
ほぼ民間のベースラインに到達し、プライバシーレベルではDP-SGDを7.7ppまで上回っている。
論文 参考訳(メタデータ) (2023-09-13T06:37:53Z) - Normalized/Clipped SGD with Perturbation for Differentially Private
Non-Convex Optimization [94.06564567766475]
DP-SGDとDP-NSGDは、センシティブなトレーニングデータを記憶する大規模モデルのリスクを軽減する。
DP-NSGD は DP-SGD よりも比較的チューニングが比較的容易であるのに対して,これらの2つのアルゴリズムは同様の精度を実現する。
論文 参考訳(メタデータ) (2022-06-27T03:45:02Z) - Automatic Clipping: Differentially Private Deep Learning Made Easier and
Stronger [39.93710312222771]
サンプルごとのクリッピングは、ディープラーニングモデルのための実用的な差分プライベート(DP)トレーニングを可能にするアルゴリズムの重要なステップである。
本稿では,任意のDPに対してRをチューニングする必要がなくなる自動クリッピング(automatic clipping)という,使い勝手の良い代替手法を提案する。
論文 参考訳(メタデータ) (2022-06-14T19:49:44Z) - Large Scale Transfer Learning for Differentially Private Image
Classification [51.10365553035979]
Differential Privacy(DP)は、個別のサンプルレベルのプライバシで機械学習モデルをトレーニングするための正式なフレームワークを提供する。
DP-SGDを用いたプライベートトレーニングは、個々のサンプル勾配にノイズを注入することで漏れを防ぐ。
この結果は非常に魅力的であるが,DP-SGDを用いた大規模モデルのトレーニングの計算コストは,非プライベートトレーニングよりもかなり高い。
論文 参考訳(メタデータ) (2022-05-06T01:22:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。