論文の概要: Adaptive Token-Weighted Differential Privacy for LLMs: Not All Tokens Require Equal Protection
- arxiv url: http://arxiv.org/abs/2509.23246v1
- Date: Sat, 27 Sep 2025 10:51:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.121078
- Title: Adaptive Token-Weighted Differential Privacy for LLMs: Not All Tokens Require Equal Protection
- Title(参考訳): LLMの適応型トークン重み付き微分プライバシー:全てのトークンが平等な保護を必要とするわけではない
- Authors: Manjiang Yu, Priyanka Singh, Xue Li, Yang Cao,
- Abstract要約: 我々は、適応トークン重み付き微分プライバシー(ATDP)を通して、この知見を運用する。
ATDPは、異なる勾配重みを感度および非感度トークンに適応的に割り当てる。
既存のDPベースの微調整パイプラインにシームレスに統合できる。
- 参考スコア(独自算出の注目度): 12.047350336564193
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) frequently memorize sensitive or personal information, raising significant privacy concerns. Existing variants of differential privacy stochastic gradient descent (DPSGD) inject uniform noise into every gradient step, significantly extending training time and reducing model accuracy. We propose that concentrating noise primarily on gradients associated with sensitive tokens can substantially decrease DP training time, strengthen the protection of sensitive information, and simultaneously preserve the model's performance on non-sensitive data. We operationalize this insight through Adaptive Token-Weighted Differential Privacy (ATDP), a modification of vanilla DP-SGD that adaptively assigns different gradient weights to sensitive and non-sensitive tokens. By employing a larger noise scale at the early stage of training, ATDP rapidly disrupts memorization of sensitive content. As a result, ATDP only requires a few additional epochs of lightweight post-processing following standard fine-tuning, injecting targeted noise primarily on parameters corresponding to sensitive tokens, thus minimally affecting the model's general capabilities. ATDP can be seamlessly integrated into any existing DP-based fine-tuning pipeline or directly applied to non-private models as a fast privacy-enhancing measure. Additionally, combined with an initial redacted fine-tuning phase, ATDP forms a streamlined DP pipeline that achieves comparable canary protection to state-of-the-art DP-SGD methods, significantly reduces the computational overhead of DP fine-tuning, shortening training time by approximately 90 percent, while achieving comparable or superior privacy protection and minimal accuracy degradation.
- Abstract(参考訳): 大型言語モデル(LLM)は機密情報や個人情報を頻繁に記憶し、重要なプライバシー上の懸念を引き起こす。
既存の差分プライバシー確率勾配勾配(DPSGD)の変種は、各勾配ステップに均一ノイズを注入し、トレーニング時間を大幅に延長し、モデルの精度を低下させる。
感性トークンに関連する勾配に主に集中するノイズは、DPトレーニング時間を著しく短縮し、感性情報の保護を強化し、非感性データ上でのモデルの性能を同時に維持できる。
この知見は,バニラDP-SGDの修正であるAdaptive Token-Weighted Differential Privacy (ATDP)を用いて運用し,異なる勾配重みを感度および非感度トークンに適応的に割り当てる。
トレーニングの初期段階でより大きなノイズスケールを利用することで、ATDPはセンシティブなコンテンツの記憶を急速に破壊する。
結果として、ATDPは標準的な微調整に続く軽量な後処理のエポックを少しだけ必要としており、主に機密トークンに対応するパラメータにターゲットノイズを注入することで、モデルの一般的な機能に最小限の影響を及ぼす。
ATDPは、既存のDPベースの微調整パイプラインにシームレスに統合したり、高速なプライバシー保護対策として非プライベートモデルに直接適用することができる。
さらに、初期修正された微調整フェーズと組み合わせて、ATDPは、最先端のDP-SGDメソッドに匹敵するカナリア保護を達成し、DP微調整の計算オーバーヘッドを著しく低減し、トレーニング時間を約90%短縮し、同等または優れたプライバシー保護と最小の精度の劣化を実現する、合理化されたDPパイプラインを形成する。
関連論文リスト
- Privacy-Aware Decoding: Mitigating Privacy Leakage of Large Language Models in Retrieval-Augmented Generation [26.573578326262307]
プライバシ・アウェア・デコーディング(英: Privacy-Aware Decoding、PAD)は、ガウス雑音を発生時にトークンロジットに適応的に注入する軽量な推論時防御法である。
PADは信頼性ベースのスクリーニングを統合して、リスクの高いトークンを選択的に保護し、不要なノイズを最小限に抑える効率的な感度推定と、プライバシと生成品質のバランスをとるためのコンテキスト対応ノイズ校正を行う。
我々の研究は、機密ドメインにおける普遍的でスケーラブルなプライバシソリューションを実現するために、デコード戦略を通じて、RAGのプライバシリスクを軽減するための重要な一歩を踏み出しています。
論文 参考訳(メタデータ) (2025-08-05T05:22:13Z) - Enhancing DP-SGD through Non-monotonous Adaptive Scaling Gradient Weight [15.139854970044075]
我々はDP-PSASC(disferially Private Per-Sample Adaptive Scaling Clipping)を導入する。
このアプローチは、従来のクリッピングを非単調適応勾配スケーリングに置き換える。
DP-PSASCは勾配のプライバシーを保ち、多様なデータセットに優れた性能を提供する。
論文 参考訳(メタデータ) (2024-11-05T12:47:30Z) - DiSK: Differentially Private Optimizer with Simplified Kalman Filter for Noise Reduction [57.83978915843095]
本稿では,微分プライベート勾配の性能を著しく向上する新しいフレームワークであるDiSKを紹介する。
大規模トレーニングの実用性を確保するため,Kalmanフィルタプロセスを簡素化し,メモリと計算要求を最小化する。
論文 参考訳(メタデータ) (2024-10-04T19:30:39Z) - Revisiting Privacy-Utility Trade-off for DP Training with Pre-existing Knowledge [40.44144653519249]
異種雑音(DP-Hero)を有する一般微分プライバシーフレームワークを提案する。
DP-Heroでは、DP-SGDの異種バージョンをインスタンス化し、さらにフェデレーショントレーニングに拡張する。
提案するDP-Heroの有効性を検証・説明するための総合的な実験を行い,最新技術と比較するとトレーニング精度が向上した。
論文 参考訳(メタデータ) (2024-09-05T08:40:54Z) - DOPPLER: Differentially Private Optimizers with Low-pass Filter for Privacy Noise Reduction [47.65999101635902]
差分プライベート(DP)トレーニングは、トレーニングされた機械学習モデルから収集したトレーニングデータの機密情報の漏洩を防止する。
DOPPLERと呼ばれる新しいコンポーネントを開発し、この周波数領域内のDPノイズを効果的に増幅する。
実験の結果,低域通過フィルタを用いたDPは,試験精度で3%-10%向上した。
論文 参考訳(メタデータ) (2024-08-24T04:27:07Z) - Pre-training Differentially Private Models with Limited Public Data [54.943023722114134]
ディファレンシャルプライバシ(DP)は、モデルに提供されるセキュリティの度合いを測定するための重要な手法である。
DPはまだ、最初の事前訓練段階で使用されるデータのかなりの部分を保護することができない。
公共データの10%しか利用しない新しいDP継続事前学習戦略を開発した。
ImageNet-21kのDP精度は41.5%、非DP精度は55.7%、下流タスクのPlaces365とiNaturalist-2021では60.0%である。
論文 参考訳(メタデータ) (2024-02-28T23:26:27Z) - Differentially Private SGD Without Clipping Bias: An Error-Feedback Approach [62.000948039914135]
Differentially Private Gradient Descent with Gradient Clipping (DPSGD-GC) を使用して、差分プライバシ(DP)がモデルパフォーマンス劣化の犠牲となることを保証する。
DPSGD-GCに代わる新しいエラーフィードバック(EF)DPアルゴリズムを提案する。
提案アルゴリズムに対するアルゴリズム固有のDP解析を確立し,R'enyi DPに基づくプライバシ保証を提供する。
論文 参考訳(メタデータ) (2023-11-24T17:56:44Z) - Large Scale Transfer Learning for Differentially Private Image
Classification [51.10365553035979]
Differential Privacy(DP)は、個別のサンプルレベルのプライバシで機械学習モデルをトレーニングするための正式なフレームワークを提供する。
DP-SGDを用いたプライベートトレーニングは、個々のサンプル勾配にノイズを注入することで漏れを防ぐ。
この結果は非常に魅力的であるが,DP-SGDを用いた大規模モデルのトレーニングの計算コストは,非プライベートトレーニングよりもかなり高い。
論文 参考訳(メタデータ) (2022-05-06T01:22:20Z) - Dynamic Differential-Privacy Preserving SGD [19.273542515320372]
Differentially-Private Gradient Descent (DP-SGD)は、SGDトレーニング中にクリップされた勾配にノイズを加えることで、トレーニングデータのプライバシ侵害を防止する。
同じクリップ操作とトレーニングステップ間の付加ノイズにより、不安定な更新や、上昇期間も生じる。
更新時にDP-SGDよりも低いプライバシコストの動的DP-SGDを提案する。
論文 参考訳(メタデータ) (2021-10-30T04:45:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。