論文の概要: Privacy Backdoors: Enhancing Membership Inference through Poisoning Pre-trained Models
- arxiv url: http://arxiv.org/abs/2404.01231v1
- Date: Mon, 1 Apr 2024 16:50:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-03 21:46:03.115984
- Title: Privacy Backdoors: Enhancing Membership Inference through Poisoning Pre-trained Models
- Title(参考訳): プライバシバックドア:事前訓練されたモデルによるメンバーシップ推論の強化
- Authors: Yuxin Wen, Leo Marchyok, Sanghyun Hong, Jonas Geiping, Tom Goldstein, Nicholas Carlini,
- Abstract要約: 本稿では、プライバシーバックドア攻撃という新たな脆弱性を明らかにします。
被害者がバックドアモデルに微調整を行った場合、トレーニングデータは通常のモデルに微調整された場合よりも大幅に高い速度でリークされる。
我々の発見は、機械学習コミュニティにおける重要なプライバシー上の懸念を浮き彫りにし、オープンソースの事前訓練モデルの使用における安全性プロトコルの再評価を求めている。
- 参考スコア(独自算出の注目度): 112.48136829374741
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It is commonplace to produce application-specific models by fine-tuning large pre-trained models using a small bespoke dataset. The widespread availability of foundation model checkpoints on the web poses considerable risks, including the vulnerability to backdoor attacks. In this paper, we unveil a new vulnerability: the privacy backdoor attack. This black-box privacy attack aims to amplify the privacy leakage that arises when fine-tuning a model: when a victim fine-tunes a backdoored model, their training data will be leaked at a significantly higher rate than if they had fine-tuned a typical model. We conduct extensive experiments on various datasets and models, including both vision-language models (CLIP) and large language models, demonstrating the broad applicability and effectiveness of such an attack. Additionally, we carry out multiple ablation studies with different fine-tuning methods and inference strategies to thoroughly analyze this new threat. Our findings highlight a critical privacy concern within the machine learning community and call for a reevaluation of safety protocols in the use of open-source pre-trained models.
- Abstract(参考訳): 小さなbespokeデータセットを使用して、大規模で事前訓練されたモデルを微調整することで、アプリケーション固有のモデルを作成するのが一般的である。
Web上でファンデーションモデルチェックポイントが広く利用できるようになると、バックドア攻撃に対する脆弱性など、かなりのリスクが生じる。
本稿では、プライバシーバックドア攻撃という新たな脆弱性を明らかにします。
このブラックボックスのプライバシー攻撃は、モデルの微調整時に発生するプライバシー漏洩を増幅することを目的としている。被害者がバックドアモデルの微調整を行うと、トレーニングデータが通常のモデルに微調整された場合よりも大幅に高いレートでリークされる。
我々は、視覚言語モデル(CLIP)と大規模言語モデルの両方を含む様々なデータセットやモデルに対して広範な実験を行い、そのような攻撃の適用可能性と効果を実証した。
さらに、異なる微調整方法と推論戦略を用いて複数のアブレーション研究を行い、この新たな脅威を徹底的に分析する。
我々の発見は、機械学習コミュニティにおける重要なプライバシー上の懸念を浮き彫りにし、オープンソースの事前訓練モデルの使用における安全性プロトコルの再評価を求めている。
関連論文リスト
- Forget to Flourish: Leveraging Machine-Unlearning on Pretrained Language Models for Privacy Leakage [12.892449128678516]
下流アプリケーション用のプライベートデータ上の微調整言語モデルは、重大なプライバシーリスクを生じさせる。
いくつかの人気のあるコミュニティプラットフォームが、様々な事前訓練されたモデルの便利な配布を提供している。
本稿では,モデル学習を攻撃ツールとして利用する新しい毒殺手法を提案する。
論文 参考訳(メタデータ) (2024-08-30T15:35:09Z) - Privacy Backdoors: Stealing Data with Corrupted Pretrained Models [23.54726973460633]
実践者は、オープンリポジトリからトレーニング済みの機械学習モデルをダウンロードして、特定のアプリケーションに適合するように微調整する。
このプラクティスによって、プライバシーバックドアの新たなリスクがもたらされることが示されています。
トランスフォーマーを含む、さまざまなモデルのプライバシバックドアを構築する方法を紹介します。
論文 参考訳(メタデータ) (2024-03-30T20:43:53Z) - SoK: Reducing the Vulnerability of Fine-tuned Language Models to
Membership Inference Attacks [1.03590082373586]
我々は,大規模言語モデルのメンバシップ推論攻撃に対する脆弱性について,初めて体系的なレビューを行った。
これらの攻撃に対して最高のプライバシー保護を実現するために、差分プライバシーと低ランク適応器を組み合わせることで、いくつかのトレーニング手法がプライバシーリスクを著しく低減することを発見した。
論文 参考訳(メタデータ) (2024-03-13T12:46:51Z) - Membership Inference Attacks and Privacy in Topic Modeling [3.503833571450681]
トレーニングデータのメンバーを確実に識別できるトピックモデルに対する攻撃を提案する。
本稿では,DP語彙選択を前処理ステップとして組み込んだプライベートトピックモデリングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-07T12:43:42Z) - SecurityNet: Assessing Machine Learning Vulnerabilities on Public Models [74.58014281829946]
本研究では, モデル盗難攻撃, メンバーシップ推論攻撃, パブリックモデルにおけるバックドア検出など, いくつかの代表的な攻撃・防御の有効性を解析する。
実験により,これらの攻撃・防御性能は,自己学習モデルと比較して,公共モデルによって大きく異なることが示された。
論文 参考訳(メタデータ) (2023-10-19T11:49:22Z) - Improved Membership Inference Attacks Against Language Classification Models [0.0]
分類モデルに対するメンバシップ推論攻撃を実行するための新しいフレームワークを提案する。
本手法は,単一攻撃モデルやクラスラベル毎の攻撃モデルよりも精度が高いことを示す。
論文 参考訳(メタデータ) (2023-10-11T06:09:48Z) - Shared Adversarial Unlearning: Backdoor Mitigation by Unlearning Shared
Adversarial Examples [67.66153875643964]
バックドア攻撃は、機械学習モデルに対する深刻なセキュリティ脅威である。
本稿では,小さなクリーンデータセットを用いて,バックドアモデルの浄化作業について検討する。
バックドアリスクと敵的リスクの関連性を確立することにより、バックドアリスクに対する新たな上限を導出する。
論文 参考訳(メタデータ) (2023-07-20T03:56:04Z) - CANIFE: Crafting Canaries for Empirical Privacy Measurement in Federated
Learning [77.27443885999404]
Federated Learning(FL)は、分散環境で機械学習モデルをトレーニングするための設定である。
本稿では,訓練ラウンドの経験的プライバシを評価するために,強敵による慎重なサンプル作成手法であるCANIFEを提案する。
論文 参考訳(メタデータ) (2022-10-06T13:30:16Z) - Just Fine-tune Twice: Selective Differential Privacy for Large Language
Models [69.66654761324702]
本稿では,大規模なトランスフォーマーベース言語モデルのためのSDPを実現するための,シンプルで効果的なジャストファイントゥンツースプライバシ機構を提案する。
実験により, カナリア挿入攻撃に対して頑健でありながら, 高い性能が得られた。
論文 参考訳(メタデータ) (2022-04-15T22:36:55Z) - Knowledge-Enriched Distributional Model Inversion Attacks [49.43828150561947]
モデルインバージョン(MI)攻撃は、モデルパラメータからトレーニングデータを再構成することを目的としている。
本稿では,パブリックデータからプライベートモデルに対する攻撃を行うのに役立つ知識を抽出する,新しい反転型GANを提案する。
実験の結果,これらの手法を組み合わせることで,最先端MI攻撃の成功率を150%向上させることができることがわかった。
論文 参考訳(メタデータ) (2020-10-08T16:20:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。