論文の概要: Provably Protecting Fine-Tuned LLMs from Training Data Extraction
- arxiv url: http://arxiv.org/abs/2602.00688v1
- Date: Sat, 31 Jan 2026 12:18:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.338502
- Title: Provably Protecting Fine-Tuned LLMs from Training Data Extraction
- Title(参考訳): 訓練データ抽出による微調整LDMの保護の可能性
- Authors: Tom Segal, Asaf Shabtai, Yuval Elovici,
- Abstract要約: センシティブデータセット上の微調整された大きな言語モデル(LLM)は、プライバシの懸念を提起する。
SCP-$_r$は,相対確率に基づくNAF(Near Access Freeness)に基づくアルゴリズムである。
SCP-$_r$は、既存のNAF法よりも理論境界のオーダーオブマグニチュードを達成する。
- 参考スコア(独自算出の注目度): 27.190752375819972
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fine-tuning large language models (LLMs) on sensitive datasets raises privacy concerns, as training data extraction (TDE) attacks can expose highly confidential information. Existing defenses against such attacks either lack formal privacy guarantees or incur substantial utility degradation. We observe that fine-tuning induces widespread probability shifts, yet preserving only a small subset of influential token-level deviations is sufficient; the remaining shifts can be aggressively smoothed with minimal impact on utility. Motivated by this insight, we propose SCP-$Δ_r$, a Near Access Freeness (NAF)-based algorithm that operates on relative probabilities and explicitly smooths low-impact tokens using a base model. SCP-$Δ_r$ achieves orders-of-magnitude better theoretical bounds than existing NAF based methods and provides strong empirical protection against TDE attacks with minimal performance loss.
- Abstract(参考訳): センシティブデータセット上の微調整された大きな言語モデル(LLM)は、トレーニングデータ抽出(TDE)攻撃によって機密性の高い情報を公開できるため、プライバシ上の懸念を提起する。
このような攻撃に対する既存の防御策は、正式なプライバシー保証を欠いているか、実質的なユーティリティ劣化を引き起こすかのいずれかである。
微調整は広範囲な確率シフトを引き起こすが、影響のあるトークンレベルの偏差の小さな部分だけを保存しておくだけで十分であり、残りのシフトは実用性への影響を最小限に抑えて積極的に平滑化することができる。
この知見に触発されて,比較的高い確率で動作し,ベースモデルを用いた低インパクトトークンを明示的に平滑化する,近接アクセス自由度(NAF)ベースのアルゴリズムであるSCP-$Δ_r$を提案する。
SCP-$Δ_r$は、既存のNAF法よりも精度の高い理論境界を達成し、パフォーマンス損失を最小限に抑えたTDE攻撃に対する強力な実証的防御を提供する。
関連論文リスト
- Adaptive Defense against Harmful Fine-Tuning for Large Language Models via Bayesian Data Scheduler [67.24175911858312]
有害な微調整は、大規模な言語モデルのための微調整・アズ・ア・サービスに重大な安全性のリスクをもたらす。
Bayesian Data Scheduler (BDS) は、アタックシミュレーションを必要としない適応型チューニングステージ防衛戦略である。
BDSは、微調整データセットとアライメントデータセットに基づいて、各データポイントの安全属性の後方分布を学習する。
論文 参考訳(メタデータ) (2025-10-31T04:49:37Z) - Secure Distributed Learning for CAVs: Defending Against Gradient Leakage with Leveled Homomorphic Encryption [0.0]
ホモモルフィック暗号化(HE)は、差分プライバシー(DP)とセキュアマルチパーティ計算(SMPC)に代わる有望な代替手段を提供する
資源制約のある環境において,フェデレートラーニング(FL)に最も適したHE方式の評価を行った。
我々は、モデル精度を維持しながら、Gradients (DLG)攻撃からのDeep Leakageを効果的に軽減するHEベースのFLパイプラインを開発した。
論文 参考訳(メタデータ) (2025-06-09T16:12:18Z) - Discriminative Finetuning of Generative Large Language Models without Reward Models and Human Preference Data [73.04828796123581]
Supervised Fine-tuning (SFT) は、事前訓練された大規模言語モデル (LLM) を整列するための重要なステップとなっている。
本稿では,SFTの改良版であるDFT(Driminative Fine-Tuning)を紹介する。
i) 入力された全ての可能な出力のうち、解答の判別可能性を明示的にモデル化することにより、微調整LDMの判別確率フレームワーク、(ii) この判別可能性を最適化するための効率的なアルゴリズム、(iii) DFTの有効性を実証する広範な実験を含む。
論文 参考訳(メタデータ) (2025-02-25T22:38:55Z) - PEFT-as-an-Attack! Jailbreaking Language Models during Federated Parameter-Efficient Fine-Tuning [8.61459170031022]
本稿では,PEFT-as-an-Attack(PaaA)と呼ばれる新たなセキュリティ脅威をFedPEFTに導入する。
PaaAの評価では、モデルのパラメータの1%未満がトレーニング可能であり、クライアントの少数のサブセットが悪意を持って行動しているため、LoRAなどの代表PEFT手法を用いて攻撃成功率が約80%に達することが判明した。
この結果から,FedPEFTパラダイムの安全性確保と性能維持を同時に行う,より効果的な防衛機構の必要性が示唆された。
論文 参考訳(メタデータ) (2024-11-28T19:05:01Z) - Efficient and Private: Memorisation under differentially private parameter-efficient fine-tuning in language models [2.3281513013731145]
特定のタスクのための微調整された大型言語モデル(LLM)は、不注意に記憶し、センシティブなトレーニングデータを漏洩する可能性があるため、プライバシのリスクをもたらす。
差分プライバシー(DP)は、これらのリスクを軽減するソリューションを提供するが、重大な計算とパフォーマンスのトレードオフをもたらす。
PEFT法は,パラメータを少なくし,プライバシリークを著しく低減しつつ,標準的な微調整に匹敵する性能を実現する。
論文 参考訳(メタデータ) (2024-11-24T13:17:36Z) - Impact of Dataset Properties on Membership Inference Vulnerability of Deep Transfer Learning [9.366691198320261]
メンバーシップ推論攻撃(MIA)は、機械学習モデルの実用的なプライバシをテストするために使用される。
固定された偽陽性率で攻撃者が有利である場合の非DPモデルの脆弱性は、単純な電力法則に従って減少することを示す。
論文 参考訳(メタデータ) (2024-02-07T14:23:01Z) - Doubly Robust Instance-Reweighted Adversarial Training [107.40683655362285]
本稿では,2重のインスタンス再重み付き対向フレームワークを提案する。
KL偏差正規化損失関数の最適化により重みを求める。
提案手法は, 平均ロバスト性能において, 最先端のベースライン法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-08-01T06:16:18Z) - Learning, compression, and leakage: Minimising classification error via
meta-universal compression principles [87.054014983402]
学習シナリオのための圧縮技法の有望なグループは、正規化極大(NML)符号化である。
ここでは,教師付き分類問題に対するNMLに基づく意思決定戦略を検討し,多種多様なモデルに適用した場合にPAC学習を実現することを示す。
本手法の誤分類率は,プライバシに敏感なシナリオにおいて,データ漏洩の可能性を定量化するための指標である最大リークによって上限づけられていることを示す。
論文 参考訳(メタデータ) (2020-10-14T20:03:58Z) - Differentially Private Federated Learning with Laplacian Smoothing [72.85272874099644]
フェデレートラーニングは、ユーザ間でプライベートデータを共有せずに、協調的にモデルを学習することで、データのプライバシを保護することを目的としている。
敵は、リリースしたモデルを攻撃することによって、プライベートトレーニングデータを推測することができる。
差別化プライバシは、トレーニングされたモデルの正確性や実用性を著しく低下させる価格で、このような攻撃に対する統計的保護を提供する。
論文 参考訳(メタデータ) (2020-05-01T04:28:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。