論文の概要: Defending Our Privacy With Backdoors
- arxiv url: http://arxiv.org/abs/2310.08320v2
- Date: Tue, 12 Dec 2023 19:54:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-14 20:14:59.185563
- Title: Defending Our Privacy With Backdoors
- Title(参考訳): バックドアでプライバシーを守る
- Authors: Dominik Hintersdorf, Lukas Struppek, Daniel Neider, Kristian Kersting
- Abstract要約: 本稿では,AIモデルから個人情報を除去するためのバックドア攻撃に基づく,容易かつ効果的な防御手法を提案する。
具体的には、センシティブなフレーズの埋め込みを、人名ではなく「人」の言葉の埋め込みと整合させる。
アプローチは、バックドア攻撃に対する新たな"デュアルユース"視点を提供するだけでなく、未計算のWebスクラッドデータでトレーニングされたモデル内の個人のプライバシを高めるための、有望な方法も提供します。
- 参考スコア(独自算出の注目度): 32.4692739098077
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The proliferation of large AI models trained on uncurated, often sensitive
web-scraped data has raised significant privacy concerns. One of the concerns
is that adversaries can extract information about the training data using
privacy attacks. Unfortunately, the task of removing specific information from
the models without sacrificing performance is not straightforward and has
proven to be challenging. We propose a rather easy yet effective defense based
on backdoor attacks to remove private information such as names of individuals
from models, and focus in this work on text encoders. Specifically, through
strategic insertion of backdoors, we align the embeddings of sensitive phrases
with those of neutral terms-"a person" instead of the person's name. Our
empirical results demonstrate the effectiveness of our backdoor-based defense
on CLIP by assessing its performance using a specialized privacy attack for
zero-shot classifiers. Our approach provides not only a new "dual-use"
perspective on backdoor attacks, but also presents a promising avenue to
enhance the privacy of individuals within models trained on uncurated
web-scraped data.
- Abstract(参考訳): 未処理で、しばしばセンシティブなWebスクラッドデータに基づいてトレーニングされた大規模なAIモデルの拡散は、プライバシー上の大きな懸念を引き起こしている。
懸念の1つは、敵がプライバシー攻撃を使ってトレーニングデータに関する情報を抽出できることである。
残念ながら、パフォーマンスを犠牲にすることなく、特定の情報をモデルから取り除くという作業は簡単ではなく、難しいことが証明されている。
本研究では,モデルから個人名などの個人情報を取り除き,テキストエンコーダに焦点をあてるため,バックドア攻撃に基づく比較的簡単かつ効果的な防御手法を提案する。
具体的には, バックドアを戦略的に挿入することで, センシティブなフレーズの埋め込みを, 人名ではなく「人」の言葉と整合させる。
実験により, ゼロショット分類器の特殊なプライバシー攻撃を用いて, CLIP に対するバックドアベース防御の有効性を実証した。
私たちのアプローチは、バックドア攻撃に対する新たな"デュアルユース"な視点を提供するだけでなく、未確認のweb階層データでトレーニングされたモデル内の個人のプライバシを強化する有望な手段を提供します。
関連論文リスト
- Expose Before You Defend: Unifying and Enhancing Backdoor Defenses via Exposed Models [68.40324627475499]
本稿では,Expose Before You Defendという新しい2段階防衛フレームワークを紹介する。
EBYDは既存のバックドア防御手法を総合防衛システムに統合し、性能を向上する。
2つの視覚データセットと4つの言語データセットにまたがる10のイメージアタックと6つのテキストアタックに関する広範な実験を行います。
論文 参考訳(メタデータ) (2024-10-25T09:36:04Z) - No Vandalism: Privacy-Preserving and Byzantine-Robust Federated Learning [18.1129191782913]
フェデレートされた学習により、複数のクライアントがプライベートデータを共有せずに1つの機械学習モデルを共同でトレーニングし、プライバシ保護を提供する。
従来の連合学習は、毒性攻撃に弱いため、モデルの性能を低下させるだけでなく、悪意のあるバックドアを埋め込むこともできる。
本稿では,悪意ある参加者からの攻撃に対して,有害行為(NoV)のない環境を提供するために,プライバシ保護とビザンチン損なうフェデレーション・ラーニング・スキームを構築することを目的とする。
論文 参考訳(メタデータ) (2024-06-03T07:59:10Z) - Mitigating Backdoor Attack by Injecting Proactive Defensive Backdoor [63.84477483795964]
データ中毒のバックドア攻撃は、機械学習モデルにとって深刻なセキュリティ上の脅威である。
本稿では,トレーニング中のバックドアディフェンスに着目し,データセットが有害になりうる場合でもクリーンなモデルをトレーニングすることを目的とした。
PDB(Proactive Defensive Backdoor)と呼ばれる新しい防衛手法を提案する。
論文 参考訳(メタデータ) (2024-05-25T07:52:26Z) - Privacy Backdoors: Enhancing Membership Inference through Poisoning Pre-trained Models [112.48136829374741]
本稿では、プライバシーバックドア攻撃という新たな脆弱性を明らかにします。
被害者がバックドアモデルに微調整を行った場合、トレーニングデータは通常のモデルに微調整された場合よりも大幅に高い速度でリークされる。
我々の発見は、機械学習コミュニティにおける重要なプライバシー上の懸念を浮き彫りにし、オープンソースの事前訓練モデルの使用における安全性プロトコルの再評価を求めている。
論文 参考訳(メタデータ) (2024-04-01T16:50:54Z) - Privacy Backdoors: Stealing Data with Corrupted Pretrained Models [23.54726973460633]
実践者は、オープンリポジトリからトレーニング済みの機械学習モデルをダウンロードして、特定のアプリケーションに適合するように微調整する。
このプラクティスによって、プライバシーバックドアの新たなリスクがもたらされることが示されています。
トランスフォーマーを含む、さまざまなモデルのプライバシバックドアを構築する方法を紹介します。
論文 参考訳(メタデータ) (2024-03-30T20:43:53Z) - Can Language Models be Instructed to Protect Personal Information? [30.187731765653428]
シミュレーションシナリオにおいて、モデルが特定の個人情報のカテゴリを保護するように指示されたとき、プライバシ/ユーティリティトレードオフを評価するためのベンチマークであるPrivQAを紹介します。
我々は,テキストや画像入力による単純なジェイルブレイク手法により,敵が容易にこれらの保護を回避できることを見出した。
PrivQAは、プライバシー保護を改善した新しいモデルの開発と、これらの保護の敵意的な堅牢性をサポートする可能性があると考えています。
論文 参考訳(メタデータ) (2023-10-03T17:30:33Z) - Untargeted Backdoor Attack against Object Detection [69.63097724439886]
我々は,タスク特性に基づいて,無目標で毒のみのバックドア攻撃を設計する。
攻撃によって、バックドアがターゲットモデルに埋め込まれると、トリガーパターンでスタンプされたオブジェクトの検出を失う可能性があることを示す。
論文 参考訳(メタデータ) (2022-11-02T17:05:45Z) - On the Effectiveness of Adversarial Training against Backdoor Attacks [111.8963365326168]
バックドアモデルは、事前に定義されたトリガーパターンが存在する場合、常にターゲットクラスを予測する。
一般的には、敵の訓練はバックドア攻撃に対する防御であると信じられている。
本稿では,様々なバックドア攻撃に対して良好な堅牢性を提供するハイブリッド戦略を提案する。
論文 参考訳(メタデータ) (2022-02-22T02:24:46Z) - Defending against Reconstruction Attacks with R\'enyi Differential
Privacy [72.1188520352079]
レコンストラクション攻撃により、敵は訓練されたモデルのみにアクセスすることで、トレーニングセットのデータサンプルを再生することができる。
差別化プライバシはこのような攻撃に対する既知の解決策であるが、比較的大きなプライバシ予算で使用されることが多い。
また、同機構により、従来の文献よりも優れた復元攻撃に対するプライバシー保証を導出できることを示す。
論文 参考訳(メタデータ) (2022-02-15T18:09:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。