論文の概要: Forget to Flourish: Leveraging Machine-Unlearning on Pretrained Language Models for Privacy Leakage
- arxiv url: http://arxiv.org/abs/2408.17354v1
- Date: Fri, 30 Aug 2024 15:35:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-02 14:56:23.993879
- Title: Forget to Flourish: Leveraging Machine-Unlearning on Pretrained Language Models for Privacy Leakage
- Title(参考訳): Forget to Flourish: プライバシリークのための事前学習型言語モデルを活用した機械学習
- Authors: Md Rafi Ur Rashid, Jing Liu, Toshiaki Koike-Akino, Shagufta Mehnaz, Ye Wang,
- Abstract要約: 下流アプリケーション用のプライベートデータ上の微調整言語モデルは、重大なプライバシーリスクを生じさせる。
いくつかの人気のあるコミュニティプラットフォームが、様々な事前訓練されたモデルの便利な配布を提供している。
本稿では,モデル学習を攻撃ツールとして利用する新しい毒殺手法を提案する。
- 参考スコア(独自算出の注目度): 12.892449128678516
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fine-tuning large language models on private data for downstream applications poses significant privacy risks in potentially exposing sensitive information. Several popular community platforms now offer convenient distribution of a large variety of pre-trained models, allowing anyone to publish without rigorous verification. This scenario creates a privacy threat, as pre-trained models can be intentionally crafted to compromise the privacy of fine-tuning datasets. In this study, we introduce a novel poisoning technique that uses model-unlearning as an attack tool. This approach manipulates a pre-trained language model to increase the leakage of private data during the fine-tuning process. Our method enhances both membership inference and data extraction attacks while preserving model utility. Experimental results across different models, datasets, and fine-tuning setups demonstrate that our attacks significantly surpass baseline performance. This work serves as a cautionary note for users who download pre-trained models from unverified sources, highlighting the potential risks involved.
- Abstract(参考訳): ダウンストリームアプリケーション用のプライベートデータに微調整された大きな言語モデルは、潜在的に機密性の高い情報に対して重大なプライバシー上のリスクをもたらす。
いくつかの人気のあるコミュニティプラットフォームは、様々な事前訓練されたモデルの便利な配布を提供しており、厳密な検証なしに誰でも公開することができる。
このシナリオは、事前トレーニングされたモデルが、微調整データセットのプライバシを侵害するために意図的に作成されるため、プライバシの脅威を生じさせる。
本研究では,モデル・アンラーニングを攻撃ツールとして利用する新しい毒殺手法を提案する。
このアプローチは、訓練済みの言語モデルを操作して、微調整プロセス中にプライベートデータの漏洩を増大させる。
本手法は,モデルユーティリティを保ちながら,メンバシップ推論とデータ抽出攻撃を両立させる。
異なるモデル、データセット、微調整のセットアップにまたがる実験結果から、攻撃がベースラインのパフォーマンスを大幅に上回っていることが分かる。
この研究は、未検証のソースから事前訓練済みのモデルをダウンロードしたユーザに対して、潜在的なリスクを強調した注意書きとして役立ちます。
関連論文リスト
- Privacy Backdoors: Enhancing Membership Inference through Poisoning Pre-trained Models [112.48136829374741]
本稿では、プライバシーバックドア攻撃という新たな脆弱性を明らかにします。
被害者がバックドアモデルに微調整を行った場合、トレーニングデータは通常のモデルに微調整された場合よりも大幅に高い速度でリークされる。
我々の発見は、機械学習コミュニティにおける重要なプライバシー上の懸念を浮き彫りにし、オープンソースの事前訓練モデルの使用における安全性プロトコルの再評価を求めている。
論文 参考訳(メタデータ) (2024-04-01T16:50:54Z) - PreCurious: How Innocent Pre-Trained Language Models Turn into Privacy Traps [13.547526990125775]
我々は,攻撃者が事前訓練したモデルをリリースする新たな攻撃面を明らかにするために,PreCuriousフレームワークを提案する。
PreCuriousは、メンバーシップ推論とデータ抽出の両方の一般的なプライバシーリスクを微調整データセット上でエスカレートすることを目的としている。
論文 参考訳(メタデータ) (2024-03-14T16:54:17Z) - PrivacyMind: Large Language Models Can Be Contextual Privacy Protection Learners [81.571305826793]
コンテキストプライバシ保護言語モデル(PrivacyMind)を紹介する。
我々の研究はモデル設計に関する理論的分析を提供し、様々な手法をベンチマークする。
特に、肯定的な例と否定的な例の両方による命令チューニングは、有望な方法である。
論文 参考訳(メタデータ) (2023-10-03T22:37:01Z) - Synthetic Model Combination: An Instance-wise Approach to Unsupervised
Ensemble Learning [92.89846887298852]
ラベル付きデータのトレーニングセットから学ぶ機会のない、新しいテストデータに対する予測を検討する。
専門家モデルのセットと予測へのアクセスと、トレーニングに使用するデータセットに関する制限された情報を提供すること。
論文 参考訳(メタデータ) (2022-10-11T10:20:31Z) - CANIFE: Crafting Canaries for Empirical Privacy Measurement in Federated
Learning [77.27443885999404]
Federated Learning(FL)は、分散環境で機械学習モデルをトレーニングするための設定である。
本稿では,訓練ラウンドの経験的プライバシを評価するために,強敵による慎重なサンプル作成手法であるCANIFEを提案する。
論文 参考訳(メタデータ) (2022-10-06T13:30:16Z) - You Are What You Write: Preserving Privacy in the Era of Large Language
Models [2.3431670397288005]
本稿では,様々な人気モデルを用いて,事前学習された表現に符号化された個人情報の範囲について,実証的研究を行う。
モデルの複雑さ,事前学習に使用するデータ量,およびデータ漏洩との間には,正の相関関係を示す。
論文 参考訳(メタデータ) (2022-04-20T11:12:53Z) - Just Fine-tune Twice: Selective Differential Privacy for Large Language
Models [69.66654761324702]
本稿では,大規模なトランスフォーマーベース言語モデルのためのSDPを実現するための,シンプルで効果的なジャストファイントゥンツースプライバシ機構を提案する。
実験により, カナリア挿入攻撃に対して頑健でありながら, 高い性能が得られた。
論文 参考訳(メタデータ) (2022-04-15T22:36:55Z) - Training Data Leakage Analysis in Language Models [6.843491191969066]
本稿では,強大かつ現実的な脅威モデルの下で漏洩する可能性のあるトレーニングデータ中のユーザコンテンツを識別する手法を提案する。
本研究では,トレーニングデータに固有の文断片を生成するモデルの能力を測定することにより,ユーザレベルのデータ漏洩を定量化する2つの指標を提案する。
論文 参考訳(メタデータ) (2021-01-14T00:57:32Z) - Knowledge-Enriched Distributional Model Inversion Attacks [49.43828150561947]
モデルインバージョン(MI)攻撃は、モデルパラメータからトレーニングデータを再構成することを目的としている。
本稿では,パブリックデータからプライベートモデルに対する攻撃を行うのに役立つ知識を抽出する,新しい反転型GANを提案する。
実験の結果,これらの手法を組み合わせることで,最先端MI攻撃の成功率を150%向上させることができることがわかった。
論文 参考訳(メタデータ) (2020-10-08T16:20:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。