論文の概要: Defending Our Privacy With Backdoors
- arxiv url: http://arxiv.org/abs/2310.08320v4
- Date: Tue, 23 Jul 2024 14:39:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-24 23:33:02.433893
- Title: Defending Our Privacy With Backdoors
- Title(参考訳): バックドアでプライバシーを守る
- Authors: Dominik Hintersdorf, Lukas Struppek, Daniel Neider, Kristian Kersting,
- Abstract要約: 本稿では,視覚言語モデルから個人情報を除去するためのバックドア攻撃に基づく,容易かつ効果的な防御手法を提案する。
具体的には, テキストエンコーダにバックドアを戦略的に挿入することにより, センシティブなフレーズの埋め込みを, 人名ではなく「人」の言葉と整合させる。
このアプローチは、バックドア攻撃に対する新たな"デュアルユース"な視点を提供し、未計算のWebスクラッドデータでトレーニングされたモデル内の個人のプライバシを高めるための、有望な道を示す。
- 参考スコア(独自算出の注目度): 29.722113621868978
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The proliferation of large AI models trained on uncurated, often sensitive web-scraped data has raised significant privacy concerns. One of the concerns is that adversaries can extract information about the training data using privacy attacks. Unfortunately, the task of removing specific information from the models without sacrificing performance is not straightforward and has proven to be challenging. We propose a rather easy yet effective defense based on backdoor attacks to remove private information, such as names and faces of individuals, from vision-language models by fine-tuning them for only a few minutes instead of re-training them from scratch. Specifically, by strategically inserting backdoors into text encoders, we align the embeddings of sensitive phrases with those of neutral terms-"a person" instead of the person's actual name. For image encoders, we map individuals' embeddings to be removed from the model to a universal, anonymous embedding. The results of our extensive experimental evaluation demonstrate the effectiveness of our backdoor-based defense on CLIP by assessing its performance using a specialized privacy attack for zero-shot classifiers. Our approach provides a new "dual-use" perspective on backdoor attacks and presents a promising avenue to enhance the privacy of individuals within models trained on uncurated web-scraped data.
- Abstract(参考訳): 未処理で、しばしばセンシティブなWebスクラッドデータに基づいてトレーニングされた大規模なAIモデルの拡散は、プライバシー上の大きな懸念を引き起こしている。
懸念の1つは、敵がプライバシー攻撃を使用してトレーニングデータに関する情報を抽出できることである。
残念ながら、パフォーマンスを犠牲にすることなく、特定の情報をモデルから取り除くという作業は簡単ではなく、難しいことが証明されている。
視覚言語モデルから個人の名前や顔などの個人情報を、スクラッチから再訓練する代わりに、わずか数分の微調整で除去するためのバックドア攻撃に基づく、比較的簡単かつ効果的な防御法を提案する。
具体的には, テキストエンコーダにバックドアを戦略的に挿入することにより, センシティブなフレーズの埋め込みを, 人名ではなく「人」の言葉と整合させる。
画像エンコーダでは、個人の埋め込みをモデルから取り除き、普遍的で匿名の埋め込みにマッピングする。
広範に実験を行った結果, ゼロショット分類器の特殊なプライバシ攻撃を用いて, CLIP に対するバックドア・ベース・ディフェンスの有効性を検証した。
このアプローチは、バックドア攻撃に対する新たな"デュアルユース"な視点を提供し、未計算のWebスクラッドデータでトレーニングされたモデル内の個人のプライバシを高めるための、有望な道を示す。
関連論文リスト
- No Vandalism: Privacy-Preserving and Byzantine-Robust Federated Learning [18.1129191782913]
フェデレートされた学習により、複数のクライアントがプライベートデータを共有せずに1つの機械学習モデルを共同でトレーニングし、プライバシ保護を提供する。
従来の連合学習は、毒性攻撃に弱いため、モデルの性能を低下させるだけでなく、悪意のあるバックドアを埋め込むこともできる。
本稿では,悪意ある参加者からの攻撃に対して,有害行為(NoV)のない環境を提供するために,プライバシ保護とビザンチン損なうフェデレーション・ラーニング・スキームを構築することを目的とする。
論文 参考訳(メタデータ) (2024-06-03T07:59:10Z) - Mitigating Backdoor Attack by Injecting Proactive Defensive Backdoor [63.84477483795964]
データ中毒のバックドア攻撃は、機械学習モデルにとって深刻なセキュリティ上の脅威である。
本稿では,トレーニング中のバックドアディフェンスに着目し,データセットが有害になりうる場合でもクリーンなモデルをトレーニングすることを目的とした。
PDB(Proactive Defensive Backdoor)と呼ばれる新しい防衛手法を提案する。
論文 参考訳(メタデータ) (2024-05-25T07:52:26Z) - Privacy Backdoors: Enhancing Membership Inference through Poisoning Pre-trained Models [112.48136829374741]
本稿では、プライバシーバックドア攻撃という新たな脆弱性を明らかにします。
被害者がバックドアモデルに微調整を行った場合、トレーニングデータは通常のモデルに微調整された場合よりも大幅に高い速度でリークされる。
我々の発見は、機械学習コミュニティにおける重要なプライバシー上の懸念を浮き彫りにし、オープンソースの事前訓練モデルの使用における安全性プロトコルの再評価を求めている。
論文 参考訳(メタデータ) (2024-04-01T16:50:54Z) - Privacy Backdoors: Stealing Data with Corrupted Pretrained Models [23.54726973460633]
実践者は、オープンリポジトリからトレーニング済みの機械学習モデルをダウンロードして、特定のアプリケーションに適合するように微調整する。
このプラクティスによって、プライバシーバックドアの新たなリスクがもたらされることが示されています。
トランスフォーマーを含む、さまざまなモデルのプライバシバックドアを構築する方法を紹介します。
論文 参考訳(メタデータ) (2024-03-30T20:43:53Z) - Can Language Models be Instructed to Protect Personal Information? [30.187731765653428]
シミュレーションシナリオにおいて、モデルが特定の個人情報のカテゴリを保護するように指示されたとき、プライバシ/ユーティリティトレードオフを評価するためのベンチマークであるPrivQAを紹介します。
我々は,テキストや画像入力による単純なジェイルブレイク手法により,敵が容易にこれらの保護を回避できることを見出した。
PrivQAは、プライバシー保護を改善した新しいモデルの開発と、これらの保護の敵意的な堅牢性をサポートする可能性があると考えています。
論文 参考訳(メタデータ) (2023-10-03T17:30:33Z) - Untargeted Backdoor Attack against Object Detection [69.63097724439886]
我々は,タスク特性に基づいて,無目標で毒のみのバックドア攻撃を設計する。
攻撃によって、バックドアがターゲットモデルに埋め込まれると、トリガーパターンでスタンプされたオブジェクトの検出を失う可能性があることを示す。
論文 参考訳(メタデータ) (2022-11-02T17:05:45Z) - On the Effectiveness of Adversarial Training against Backdoor Attacks [111.8963365326168]
バックドアモデルは、事前に定義されたトリガーパターンが存在する場合、常にターゲットクラスを予測する。
一般的には、敵の訓練はバックドア攻撃に対する防御であると信じられている。
本稿では,様々なバックドア攻撃に対して良好な堅牢性を提供するハイブリッド戦略を提案する。
論文 参考訳(メタデータ) (2022-02-22T02:24:46Z) - Defending against Reconstruction Attacks with R\'enyi Differential
Privacy [72.1188520352079]
レコンストラクション攻撃により、敵は訓練されたモデルのみにアクセスすることで、トレーニングセットのデータサンプルを再生することができる。
差別化プライバシはこのような攻撃に対する既知の解決策であるが、比較的大きなプライバシ予算で使用されることが多い。
また、同機構により、従来の文献よりも優れた復元攻撃に対するプライバシー保証を導出できることを示す。
論文 参考訳(メタデータ) (2022-02-15T18:09:30Z) - Check Your Other Door! Establishing Backdoor Attacks in the Frequency
Domain [80.24811082454367]
検出不能で強力なバックドア攻撃を確立するために周波数領域を利用する利点を示す。
また、周波数ベースのバックドア攻撃を成功させる2つの防御方法と、攻撃者がそれらを回避できる可能性を示す。
論文 参考訳(メタデータ) (2021-09-12T12:44:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。