論文の概要: PreCurious: How Innocent Pre-Trained Language Models Turn into Privacy Traps
- arxiv url: http://arxiv.org/abs/2403.09562v3
- Date: Sat, 14 Sep 2024 22:43:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-18 02:45:24.248563
- Title: PreCurious: How Innocent Pre-Trained Language Models Turn into Privacy Traps
- Title(参考訳): PreCurious: 未学習の言語モデルがいかにプライバシトラップに変わるか
- Authors: Ruixuan Liu, Tianhao Wang, Yang Cao, Li Xiong,
- Abstract要約: 我々は,攻撃者が事前訓練したモデルをリリースする新たな攻撃面を明らかにするために,PreCuriousフレームワークを提案する。
PreCuriousは、メンバーシップ推論とデータ抽出の両方の一般的なプライバシーリスクを微調整データセット上でエスカレートすることを目的としている。
- 参考スコア(独自算出の注目度): 13.547526990125775
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The pre-training and fine-tuning paradigm has demonstrated its effectiveness and has become the standard approach for tailoring language models to various tasks. Currently, community-based platforms offer easy access to various pre-trained models, as anyone can publish without strict validation processes. However, a released pre-trained model can be a privacy trap for fine-tuning datasets if it is carefully designed. In this work, we propose PreCurious framework to reveal the new attack surface where the attacker releases the pre-trained model and gets a black-box access to the final fine-tuned model. PreCurious aims to escalate the general privacy risk of both membership inference and data extraction on the fine-tuning dataset. The key intuition behind PreCurious is to manipulate the memorization stage of the pre-trained model and guide fine-tuning with a seemingly legitimate configuration. While empirical and theoretical evidence suggests that parameter-efficient and differentially private fine-tuning techniques can defend against privacy attacks on a fine-tuned model, PreCurious demonstrates the possibility of breaking up this invulnerability in a stealthy manner compared to fine-tuning on a benign pre-trained model. While DP provides some mitigation for membership inference attack, by further leveraging a sanitized dataset, PreCurious demonstrates potential vulnerabilities for targeted data extraction even under differentially private tuning with a strict privacy budget e.g. $\epsilon=0.05$. Thus, PreCurious raises warnings for users on the potential risks of downloading pre-trained models from unknown sources, relying solely on tutorials or common-sense defenses, and releasing sanitized datasets even after perfect scrubbing.
- Abstract(参考訳): 事前学習と微調整のパラダイムは、その効果を示し、言語モデルを様々なタスクに合わせるための標準的なアプローチとなっている。
現在、コミュニティベースのプラットフォームは、厳格な検証プロセスなしで公開できるため、トレーニング済みのさまざまなモデルに簡単にアクセスできる。
しかし、事前トレーニングされたモデルのリリースは、慎重に設計されている場合、微調整データセットのプライバシトラップになる可能性がある。
本研究では,攻撃者が事前訓練されたモデルをリリースし,最終調整されたモデルにブラックボックスでアクセスできる新たな攻撃面を明らかにするためのPreCuriousフレームワークを提案する。
PreCuriousは、メンバーシップ推論とデータ抽出の両方の一般的なプライバシーリスクを微調整データセット上でエスカレートすることを目的としている。
PreCuriousの背後にある重要な直感は、事前訓練されたモデルの記憶段階を操作し、正当な構成で微調整をガイドすることである。
パラメータ効率および微分プライベートな微調整技術が、微調整されたモデルにおけるプライバシー攻撃に対して防御できるという実証的および理論的証拠はあるが、PreCuriousは、良心的な事前訓練されたモデルにおける微調整と比較して、この不規則性をステルス的に分割する可能性を実証している。
DPはメンバーシップ推論攻撃を緩和する一方で、さらに衛生化されたデータセットを活用することで、PreCuriousは、厳格なプライバシー予算(例えば$\epsilon=0.05$)で差分プライベートチューニングの下でも、ターゲットデータ抽出の潜在的な脆弱性を示す。
このように、PreCuriousは、トレーニング済みのモデルを未知のソースからダウンロードし、チュートリアルや常識的な防御にのみ依存し、完全にスクラブした後でも衛生化されたデータセットをリリースするという潜在的なリスクについて、ユーザに警告を発している。
関連論文リスト
- Pseudo-Probability Unlearning: Towards Efficient and Privacy-Preserving Machine Unlearning [59.29849532966454]
本稿では,PseudoProbability Unlearning (PPU)を提案する。
提案手法は,最先端の手法に比べて20%以上の誤りを忘れる改善を実現している。
論文 参考訳(メタデータ) (2024-11-04T21:27:06Z) - Forget to Flourish: Leveraging Machine-Unlearning on Pretrained Language Models for Privacy Leakage [12.892449128678516]
下流アプリケーション用のプライベートデータ上の微調整言語モデルは、重大なプライバシーリスクを生じさせる。
いくつかの人気のあるコミュニティプラットフォームが、様々な事前訓練されたモデルの便利な配布を提供している。
本稿では,モデル学習を攻撃ツールとして利用する新しい毒殺手法を提案する。
論文 参考訳(メタデータ) (2024-08-30T15:35:09Z) - Privacy Backdoors: Enhancing Membership Inference through Poisoning Pre-trained Models [112.48136829374741]
本稿では、プライバシーバックドア攻撃という新たな脆弱性を明らかにします。
被害者がバックドアモデルに微調整を行った場合、トレーニングデータは通常のモデルに微調整された場合よりも大幅に高い速度でリークされる。
我々の発見は、機械学習コミュニティにおける重要なプライバシー上の懸念を浮き彫りにし、オープンソースの事前訓練モデルの使用における安全性プロトコルの再評価を求めている。
論文 参考訳(メタデータ) (2024-04-01T16:50:54Z) - Privacy Backdoors: Stealing Data with Corrupted Pretrained Models [23.54726973460633]
実践者は、オープンリポジトリからトレーニング済みの機械学習モデルをダウンロードして、特定のアプリケーションに適合するように微調整する。
このプラクティスによって、プライバシーバックドアの新たなリスクがもたらされることが示されています。
トランスフォーマーを含む、さまざまなモデルのプライバシバックドアを構築する方法を紹介します。
論文 参考訳(メタデータ) (2024-03-30T20:43:53Z) - Which Pretrain Samples to Rehearse when Finetuning Pretrained Models? [60.59376487151964]
特定のタスクに関する微調整済みモデルが、テキストとビジョンタスクの事実上のアプローチになった。
このアプローチの落とし穴は、微調整中に起こる事前学習の知識を忘れることである。
本研究では,実際に忘れられているサンプルを識別・優先順位付けする新しいサンプリング手法であるmix-cdを提案する。
論文 参考訳(メタデータ) (2024-02-12T22:32:12Z) - CANIFE: Crafting Canaries for Empirical Privacy Measurement in Federated
Learning [77.27443885999404]
Federated Learning(FL)は、分散環境で機械学習モデルをトレーニングするための設定である。
本稿では,訓練ラウンドの経験的プライバシを評価するために,強敵による慎重なサンプル作成手法であるCANIFEを提案する。
論文 参考訳(メタデータ) (2022-10-06T13:30:16Z) - Self-Distillation for Further Pre-training of Transformers [83.84227016847096]
我々は、さらなる事前学習段階の正則化として自己蒸留を提案する。
画像およびテキスト分類タスクのための様々なベンチマークデータセットにおける自己蒸留の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2022-09-30T02:25:12Z) - Weight Poisoning Attacks on Pre-trained Models [103.19413805873585]
本研究は, バックドアを微調整した後に, バックドアを露出する脆弱性を伴って, 事前訓練した重量を注入した場合に, 重量中毒を発生させることが可能であることを示す。
感情分類,毒性検出,スパム検出に関する実験により,この攻撃は広く適用可能であり,深刻な脅威となることが示された。
論文 参考訳(メタデータ) (2020-04-14T16:51:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。