論文の概要: Privacy Backdoors: Stealing Data with Corrupted Pretrained Models
- arxiv url: http://arxiv.org/abs/2404.00473v1
- Date: Sat, 30 Mar 2024 20:43:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 03:30:20.170682
- Title: Privacy Backdoors: Stealing Data with Corrupted Pretrained Models
- Title(参考訳): プライバシバックドア - 事前トレーニングされたモデルでデータをステアリングする
- Authors: Shanglun Feng, Florian Tramèr,
- Abstract要約: 実践者は、オープンリポジトリからトレーニング済みの機械学習モデルをダウンロードして、特定のアプリケーションに適合するように微調整する。
このプラクティスによって、プライバシーバックドアの新たなリスクがもたらされることが示されています。
トランスフォーマーを含む、さまざまなモデルのプライバシバックドアを構築する方法を紹介します。
- 参考スコア(独自算出の注目度): 23.54726973460633
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Practitioners commonly download pretrained machine learning models from open repositories and finetune them to fit specific applications. We show that this practice introduces a new risk of privacy backdoors. By tampering with a pretrained model's weights, an attacker can fully compromise the privacy of the finetuning data. We show how to build privacy backdoors for a variety of models, including transformers, which enable an attacker to reconstruct individual finetuning samples, with a guaranteed success! We further show that backdoored models allow for tight privacy attacks on models trained with differential privacy (DP). The common optimistic practice of training DP models with loose privacy guarantees is thus insecure if the model is not trusted. Overall, our work highlights a crucial and overlooked supply chain attack on machine learning privacy.
- Abstract(参考訳): 実践者は、オープンリポジトリからトレーニング済みの機械学習モデルをダウンロードして、特定のアプリケーションに適合するように微調整する。
このプラクティスによって、プライバシーバックドアの新たなリスクがもたらされることが示されています。
事前訓練されたモデルの重みを改ざんすることで、攻撃者は微調整データのプライバシーを完全に侵害することができる。
攻撃者が個々の微調整サンプルを再構築できるトランスフォーマーなど、さまざまなモデルのプライバシバックドアを構築する方法を紹介します。
さらに、バックドアモデルにより、差分プライバシ(DP)でトレーニングされたモデルに対して、厳密なプライバシ攻撃が可能であることを示す。
プライバシー保証の緩いDPモデルをトレーニングする一般的な楽観的な慣行は、モデルが信頼されていない場合、安全ではない。
私たちの研究は全体として、機械学習のプライバシに対する重要なサプライチェーンの攻撃を強調しています。
関連論文リスト
- Forget to Flourish: Leveraging Machine-Unlearning on Pretrained Language Models for Privacy Leakage [12.892449128678516]
下流アプリケーション用のプライベートデータ上の微調整言語モデルは、重大なプライバシーリスクを生じさせる。
いくつかの人気のあるコミュニティプラットフォームが、様々な事前訓練されたモデルの便利な配布を提供している。
本稿では,モデル学習を攻撃ツールとして利用する新しい毒殺手法を提案する。
論文 参考訳(メタデータ) (2024-08-30T15:35:09Z) - No Vandalism: Privacy-Preserving and Byzantine-Robust Federated Learning [18.1129191782913]
フェデレートされた学習により、複数のクライアントがプライベートデータを共有せずに1つの機械学習モデルを共同でトレーニングし、プライバシ保護を提供する。
従来の連合学習は、毒性攻撃に弱いため、モデルの性能を低下させるだけでなく、悪意のあるバックドアを埋め込むこともできる。
本稿では,悪意ある参加者からの攻撃に対して,有害行為(NoV)のない環境を提供するために,プライバシ保護とビザンチン損なうフェデレーション・ラーニング・スキームを構築することを目的とする。
論文 参考訳(メタデータ) (2024-06-03T07:59:10Z) - Mitigating Backdoor Attack by Injecting Proactive Defensive Backdoor [63.84477483795964]
データ中毒のバックドア攻撃は、機械学習モデルにとって深刻なセキュリティ上の脅威である。
本稿では,トレーニング中のバックドアディフェンスに着目し,データセットが有害になりうる場合でもクリーンなモデルをトレーニングすることを目的とした。
PDB(Proactive Defensive Backdoor)と呼ばれる新しい防衛手法を提案する。
論文 参考訳(メタデータ) (2024-05-25T07:52:26Z) - Privacy Backdoors: Enhancing Membership Inference through Poisoning Pre-trained Models [112.48136829374741]
本稿では、プライバシーバックドア攻撃という新たな脆弱性を明らかにします。
被害者がバックドアモデルに微調整を行った場合、トレーニングデータは通常のモデルに微調整された場合よりも大幅に高い速度でリークされる。
我々の発見は、機械学習コミュニティにおける重要なプライバシー上の懸念を浮き彫りにし、オープンソースの事前訓練モデルの使用における安全性プロトコルの再評価を求めている。
論文 参考訳(メタデータ) (2024-04-01T16:50:54Z) - PreCurious: How Innocent Pre-Trained Language Models Turn into Privacy Traps [13.547526990125775]
我々は,攻撃者が事前訓練したモデルをリリースする新たな攻撃面を明らかにするために,PreCuriousフレームワークを提案する。
PreCuriousは、メンバーシップ推論とデータ抽出の両方の一般的なプライバシーリスクを微調整データセット上でエスカレートすることを目的としている。
論文 参考訳(メタデータ) (2024-03-14T16:54:17Z) - Can Language Models be Instructed to Protect Personal Information? [30.187731765653428]
シミュレーションシナリオにおいて、モデルが特定の個人情報のカテゴリを保護するように指示されたとき、プライバシ/ユーティリティトレードオフを評価するためのベンチマークであるPrivQAを紹介します。
我々は,テキストや画像入力による単純なジェイルブレイク手法により,敵が容易にこれらの保護を回避できることを見出した。
PrivQAは、プライバシー保護を改善した新しいモデルの開発と、これらの保護の敵意的な堅牢性をサポートする可能性があると考えています。
論文 参考訳(メタデータ) (2023-10-03T17:30:33Z) - Privacy Side Channels in Machine Learning Systems [87.53240071195168]
プライバシサイドチャネルは、システムレベルのコンポーネントを利用してプライベート情報を抽出する攻撃である。
例えば、差分プライベートなトレーニングを適用する前にトレーニングデータを重複させることで、保証可能なプライバシ保証を完全に無効にするサイドチャネルが生成されることを示す。
さらに,学習データセットに含まれる秘密鍵を抽出するために,言語モデルを学習データ再生からブロックするシステムを利用することを示す。
論文 参考訳(メタデータ) (2023-09-11T16:49:05Z) - Just Fine-tune Twice: Selective Differential Privacy for Large Language
Models [69.66654761324702]
本稿では,大規模なトランスフォーマーベース言語モデルのためのSDPを実現するための,シンプルで効果的なジャストファイントゥンツースプライバシ機構を提案する。
実験により, カナリア挿入攻撃に対して頑健でありながら, 高い性能が得られた。
論文 参考訳(メタデータ) (2022-04-15T22:36:55Z) - On the Effectiveness of Adversarial Training against Backdoor Attacks [111.8963365326168]
バックドアモデルは、事前に定義されたトリガーパターンが存在する場合、常にターゲットクラスを予測する。
一般的には、敵の訓練はバックドア攻撃に対する防御であると信じられている。
本稿では,様々なバックドア攻撃に対して良好な堅牢性を提供するハイブリッド戦略を提案する。
論文 参考訳(メタデータ) (2022-02-22T02:24:46Z) - Defending against Reconstruction Attacks with R\'enyi Differential
Privacy [72.1188520352079]
レコンストラクション攻撃により、敵は訓練されたモデルのみにアクセスすることで、トレーニングセットのデータサンプルを再生することができる。
差別化プライバシはこのような攻撃に対する既知の解決策であるが、比較的大きなプライバシ予算で使用されることが多い。
また、同機構により、従来の文献よりも優れた復元攻撃に対するプライバシー保証を導出できることを示す。
論文 参考訳(メタデータ) (2022-02-15T18:09:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。