論文の概要: Privacy Auditing of Large Language Models
- arxiv url: http://arxiv.org/abs/2503.06808v1
- Date: Sun, 09 Mar 2025 23:32:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:52:43.830674
- Title: Privacy Auditing of Large Language Models
- Title(参考訳): 大規模言語モデルのプライバシー監査
- Authors: Ashwinee Panda, Xinyu Tang, Milad Nasr, Christopher A. Choquette-Choo, Prateek Mittal,
- Abstract要約: 我々は、脅威モデルの下で以前の作業で使われたものよりもはるかに効果的であるカナリアを開発する。
民間で訓練されていないLDMの記憶率を測定するため,設計したカナリアは従来の手法を超越した。
- 参考スコア(独自算出の注目度): 39.36184297797284
- License:
- Abstract: Current techniques for privacy auditing of large language models (LLMs) have limited efficacy -- they rely on basic approaches to generate canaries which leads to weak membership inference attacks that in turn give loose lower bounds on the empirical privacy leakage. We develop canaries that are far more effective than those used in prior work under threat models that cover a range of realistic settings. We demonstrate through extensive experiments on multiple families of fine-tuned LLMs that our approach sets a new standard for detection of privacy leakage. For measuring the memorization rate of non-privately trained LLMs, our designed canaries surpass prior approaches. For example, on the Qwen2.5-0.5B model, our designed canaries achieve $49.6\%$ TPR at $1\%$ FPR, vastly surpassing the prior approach's $4.2\%$ TPR at $1\%$ FPR. Our method can be used to provide a privacy audit of $\varepsilon \approx 1$ for a model trained with theoretical $\varepsilon$ of 4. To the best of our knowledge, this is the first time that a privacy audit of LLM training has achieved nontrivial auditing success in the setting where the attacker cannot train shadow models, insert gradient canaries, or access the model at every iteration.
- Abstract(参考訳): 大規模な言語モデル(LLM)のプライバシー監査の現在のテクニックは、有効性に制限がある。彼らはカナリアを生成するための基本的なアプローチに依存しており、それによってメンバシップ推論攻撃が弱くなり、結果として経験的なプライバシリークに緩やかな境界が与えられる。
私たちは、さまざまな現実的な設定をカバーする脅威モデルの下で、以前の作業で使われたものよりもはるかに効果的なカナリアを開発しています。
我々は,複数種類の微調整LDMのファミリーに関する広範な実験を通じて,プライバシリーク検出のための新しい標準を定めていることを実証する。
民間で訓練されていないLDMの記憶率を測定するため,設計したカナリアは従来の手法を超越した。
例えば、Qwen2.5-0.5Bモデルでは、我々の設計したカナリアは、FPRが49.6 %、FPRが1 %、以前のアプローチが4.2 %、FPRが1 %であるのを大幅に上回っている。
提案手法は,理論的な$\varepsilon$4でトレーニングされたモデルに対して,$\varepsilon \approx 1のプライバシ監査を行うために利用できる。
私たちの知る限り、LLMトレーニングのプライバシ監査が、攻撃者がシャドウモデルをトレーニングしたり、勾配カナリアを挿入したり、イテレーション毎にモデルにアクセスできないような環境で、非自明な監査に成功したのは、これが初めてです。
関連論文リスト
- Adversarial Sample-Based Approach for Tighter Privacy Auditing in Final Model-Only Scenarios [5.116399056871577]
追加の仮定を伴わずにより厳密な経験的下限を実現する新しい監査手法を提案する。
我々のアプローチは従来のカナリアベースの逆数を超え、最終的なモデルのみのシナリオで有効である。
論文 参考訳(メタデータ) (2024-12-02T17:52:16Z) - Privacy Backdoors: Enhancing Membership Inference through Poisoning Pre-trained Models [112.48136829374741]
本稿では、プライバシーバックドア攻撃という新たな脆弱性を明らかにします。
被害者がバックドアモデルに微調整を行った場合、トレーニングデータは通常のモデルに微調整された場合よりも大幅に高い速度でリークされる。
我々の発見は、機械学習コミュニティにおける重要なプライバシー上の懸念を浮き彫りにし、オープンソースの事前訓練モデルの使用における安全性プロトコルの再評価を求めている。
論文 参考訳(メタデータ) (2024-04-01T16:50:54Z) - Epsilon*: Privacy Metric for Machine Learning Models [7.461284823977013]
Epsilon*は、単一のモデルインスタンスのプライバシリスクを、プライバシ緩和戦略の展開前、またはデプロイ後、測定するための新しい指標である。
モデル予測へのブラックボックスアクセスのみを必要とし、トレーニングデータの再サンプリングやモデル再トレーニングを必要とせず、差分プライバシでトレーニングされていないモデルのプライバシリスクを測定するために使用できる。
論文 参考訳(メタデータ) (2023-07-21T00:49:07Z) - Gaussian Membership Inference Privacy [22.745970468274173]
我々は、$f$-Membership Inference Privacy(f$-MIP)という新しい実用的なプライバシー概念を提案する。
我々は、比例比に基づく勾配降下(SGD)に対する会員推測攻撃を理論的に分析することにより、$mu$-Gaussian Membership Inference Privacy(mu$-GMIP)と呼ばれる、$f$-MIPの家族を導出する。
論文 参考訳(メタデータ) (2023-06-12T17:57:05Z) - Tight Auditing of Differentially Private Machine Learning [77.38590306275877]
プライベート機械学習では、既存の監査メカニズムは厳格である。
彼らは不確実な最悪の仮定の下でのみ厳密な見積もりを行う。
我々は、自然(逆向きではない)データセットの厳密なプライバシー推定を得られる改善された監査スキームを設計する。
論文 参考訳(メタデータ) (2023-02-15T21:40:33Z) - Privately Fine-Tuning Large Language Models with Differential Privacy [10.485556506301549]
事前訓練された大規模言語モデル(LLM)は、複雑なAIタスクにおいてブレークスルーパフォーマンスをもたらす現代のAIの不可欠な部分である。
差分プライバシー(DP)は、トレーニングや微調整 LLM のプロセスにノイズを加えることができる厳格なフレームワークを提供する。
We present ewtune, a DP framework for fine-tuning LLMs based on Edgeworth accountant with finite-sample privacy guarantees。
論文 参考訳(メタデータ) (2022-10-26T21:18:31Z) - CANIFE: Crafting Canaries for Empirical Privacy Measurement in Federated
Learning [77.27443885999404]
Federated Learning(FL)は、分散環境で機械学習モデルをトレーニングするための設定である。
本稿では,訓練ラウンドの経験的プライバシを評価するために,強敵による慎重なサンプル作成手法であるCANIFEを提案する。
論文 参考訳(メタデータ) (2022-10-06T13:30:16Z) - Individual Privacy Accounting for Differentially Private Stochastic Gradient Descent [69.14164921515949]
DP-SGDで訓練されたモデルをリリースする際の個々の事例に対するプライバシー保証を特徴付ける。
ほとんどの例では、最悪のケースよりも強力なプライバシー保証を享受しています。
これは、モデルユーティリティの観点からは守られないグループが同時に、より弱いプライバシー保証を経験することを意味する。
論文 参考訳(メタデータ) (2022-06-06T13:49:37Z) - Just Fine-tune Twice: Selective Differential Privacy for Large Language
Models [69.66654761324702]
本稿では,大規模なトランスフォーマーベース言語モデルのためのSDPを実現するための,シンプルで効果的なジャストファイントゥンツースプライバシ機構を提案する。
実験により, カナリア挿入攻撃に対して頑健でありながら, 高い性能が得られた。
論文 参考訳(メタデータ) (2022-04-15T22:36:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。