論文の概要: PreCurious: How Innocent Pre-Trained Language Models Turn into Privacy Traps
- arxiv url: http://arxiv.org/abs/2403.09562v1
- Date: Thu, 14 Mar 2024 16:54:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-17 13:28:07.641765
- Title: PreCurious: How Innocent Pre-Trained Language Models Turn into Privacy Traps
- Title(参考訳): PreCurious: 未学習の言語モデルがいかにプライバシトラップに変わるか
- Authors: Ruixuan Liu, Tianhao Wang, Yang Cao, Li Xiong,
- Abstract要約: PreCuriousは、会員推測とデータ抽出の両方の一般的なプライバシーリスクを増大させることを目指している。
PreCuriousは、良性モデルで微調整するよりも、ステルス的な方法で陰性化の可能性を実証している。
- 参考スコア(独自算出の注目度): 13.547526990125775
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The pre-training and fine-tuning paradigm has demonstrated its effectiveness and has become the standard approach for tailoring language models to various tasks. Currently, community-based platforms offer easy access to various pre-trained models, as anyone can publish without strict validation processes. However, a released pre-trained model can be a privacy trap for fine-tuning datasets if it is carefully designed. In this work, we propose PreCurious framework to reveal the new attack surface where the attacker releases the pre-trained model and gets a black-box access to the final fine-tuned model. PreCurious aims to escalate the general privacy risk of both membership inference and data extraction. The key intuition behind PreCurious is to manipulate the memorization stage of the pre-trained model and guide fine-tuning with a seemingly legitimate configuration. The effectiveness of defending against privacy attacks on a fine-tuned model seems promising, as empirical and theoretical evidence suggests that parameter-efficient and differentially private fine-tuning techniques are invulnerable to privacy attacks. But PreCurious demonstrates the possibility of breaking up invulnerability in a stealthy manner compared to fine-tuning on a benign model. By further leveraging a sanitized dataset, PreCurious can extract originally unexposed secrets under differentially private fine-tuning. Thus, PreCurious raises warnings for users who download pre-trained models from unknown sources, rely solely on tutorials or common-sense defenses, and previously release sanitized datasets even after perfect scrubbing.
- Abstract(参考訳): 事前学習と微調整のパラダイムは、その効果を示し、言語モデルを様々なタスクに合わせるための標準的なアプローチとなっている。
現在、コミュニティベースのプラットフォームは、厳格な検証プロセスなしで公開できるため、トレーニング済みのさまざまなモデルに簡単にアクセスできる。
しかし、事前トレーニングされたモデルのリリースは、慎重に設計されている場合、微調整データセットのプライバシトラップになる可能性がある。
本研究では,攻撃者が事前訓練されたモデルをリリースし,最終調整されたモデルにブラックボックスでアクセスできる新たな攻撃面を明らかにするためのPreCuriousフレームワークを提案する。
PreCuriousは、会員推測とデータ抽出の両方の一般的なプライバシーリスクを増大させることを目指している。
PreCuriousの背後にある重要な直感は、事前訓練されたモデルの記憶段階を操作し、正当な構成で微調整をガイドすることである。
パラメータ効率と差分的にプライベートな微調整技術がプライバシー攻撃に悪影響があることを実証的および理論的証拠が示しているように、微調整モデルに対するプライバシー攻撃に対する防御の有効性は有望であるように思われる。
しかしPreCuriousは、良心的なモデルで微調整するのと比べて、忍び寄る可能性を秘めている。
衛生データセットのさらなる活用により、PreCuriousは、もともと公開されていない秘密を、差分的にプライベートな微調整の下で抽出することができる。
このように、PreCuriousは、トレーニング済みのモデルを未知のソースからダウンロードし、チュートリアルや常識的な防御にのみ依存するユーザに対して警告を発し、完全なスクラブ後にも前もってサニタイズされたデータセットをリリースする。
関連論文リスト
- Pseudo-Probability Unlearning: Towards Efficient and Privacy-Preserving Machine Unlearning [59.29849532966454]
本稿では,PseudoProbability Unlearning (PPU)を提案する。
提案手法は,最先端の手法に比べて20%以上の誤りを忘れる改善を実現している。
論文 参考訳(メタデータ) (2024-11-04T21:27:06Z) - Forget to Flourish: Leveraging Machine-Unlearning on Pretrained Language Models for Privacy Leakage [12.892449128678516]
下流アプリケーション用のプライベートデータ上の微調整言語モデルは、重大なプライバシーリスクを生じさせる。
いくつかの人気のあるコミュニティプラットフォームが、様々な事前訓練されたモデルの便利な配布を提供している。
本稿では,モデル学習を攻撃ツールとして利用する新しい毒殺手法を提案する。
論文 参考訳(メタデータ) (2024-08-30T15:35:09Z) - Privacy Backdoors: Enhancing Membership Inference through Poisoning Pre-trained Models [112.48136829374741]
本稿では、プライバシーバックドア攻撃という新たな脆弱性を明らかにします。
被害者がバックドアモデルに微調整を行った場合、トレーニングデータは通常のモデルに微調整された場合よりも大幅に高い速度でリークされる。
我々の発見は、機械学習コミュニティにおける重要なプライバシー上の懸念を浮き彫りにし、オープンソースの事前訓練モデルの使用における安全性プロトコルの再評価を求めている。
論文 参考訳(メタデータ) (2024-04-01T16:50:54Z) - Privacy Backdoors: Stealing Data with Corrupted Pretrained Models [23.54726973460633]
実践者は、オープンリポジトリからトレーニング済みの機械学習モデルをダウンロードして、特定のアプリケーションに適合するように微調整する。
このプラクティスによって、プライバシーバックドアの新たなリスクがもたらされることが示されています。
トランスフォーマーを含む、さまざまなモデルのプライバシバックドアを構築する方法を紹介します。
論文 参考訳(メタデータ) (2024-03-30T20:43:53Z) - Which Pretrain Samples to Rehearse when Finetuning Pretrained Models? [60.59376487151964]
特定のタスクに関する微調整済みモデルが、テキストとビジョンタスクの事実上のアプローチになった。
このアプローチの落とし穴は、微調整中に起こる事前学習の知識を忘れることである。
本研究では,実際に忘れられているサンプルを識別・優先順位付けする新しいサンプリング手法であるmix-cdを提案する。
論文 参考訳(メタデータ) (2024-02-12T22:32:12Z) - CANIFE: Crafting Canaries for Empirical Privacy Measurement in Federated
Learning [77.27443885999404]
Federated Learning(FL)は、分散環境で機械学習モデルをトレーニングするための設定である。
本稿では,訓練ラウンドの経験的プライバシを評価するために,強敵による慎重なサンプル作成手法であるCANIFEを提案する。
論文 参考訳(メタデータ) (2022-10-06T13:30:16Z) - Self-Distillation for Further Pre-training of Transformers [83.84227016847096]
我々は、さらなる事前学習段階の正則化として自己蒸留を提案する。
画像およびテキスト分類タスクのための様々なベンチマークデータセットにおける自己蒸留の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2022-09-30T02:25:12Z) - Weight Poisoning Attacks on Pre-trained Models [103.19413805873585]
本研究は, バックドアを微調整した後に, バックドアを露出する脆弱性を伴って, 事前訓練した重量を注入した場合に, 重量中毒を発生させることが可能であることを示す。
感情分類,毒性検出,スパム検出に関する実験により,この攻撃は広く適用可能であり,深刻な脅威となることが示された。
論文 参考訳(メタデータ) (2020-04-14T16:51:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。