論文の概要: Proactive Adversarial Defense: Harnessing Prompt Tuning in Vision-Language Models to Detect Unseen Backdoored Images
- arxiv url: http://arxiv.org/abs/2412.08755v1
- Date: Wed, 11 Dec 2024 19:54:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-13 13:34:49.176278
- Title: Proactive Adversarial Defense: Harnessing Prompt Tuning in Vision-Language Models to Detect Unseen Backdoored Images
- Title(参考訳): 積極的対人防御:背後画像検出のための視覚言語モデルにおけるハーネスングプロンプトチューニング
- Authors: Kyle Stein, Andrew Arash Mahyari, Guillermo Francia, Eman El-Sheikh,
- Abstract要約: バックドア攻撃は、隠れたトリガーを入力に埋め込むことで重大な脅威となり、モデルがそれらをターゲットラベルに誤って分類する。
トレーニングと推論の両方において、未確認のバックドア画像を検出するための画期的な手法を提案する。
われわれのアプローチは、学習可能なテキストプロンプトを訓練し、クリーンな画像と隠れたバックドアトリガーを区別する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Backdoor attacks pose a critical threat by embedding hidden triggers into inputs, causing models to misclassify them into target labels. While extensive research has focused on mitigating these attacks in object recognition models through weight fine-tuning, much less attention has been given to detecting backdoored samples directly. Given the vast datasets used in training, manual inspection for backdoor triggers is impractical, and even state-of-the-art defense mechanisms fail to fully neutralize their impact. To address this gap, we introduce a groundbreaking method to detect unseen backdoored images during both training and inference. Leveraging the transformative success of prompt tuning in Vision Language Models (VLMs), our approach trains learnable text prompts to differentiate clean images from those with hidden backdoor triggers. Experiments demonstrate the exceptional efficacy of this method, achieving an impressive average accuracy of 86% across two renowned datasets for detecting unseen backdoor triggers, establishing a new standard in backdoor defense.
- Abstract(参考訳): バックドア攻撃は、隠れたトリガーを入力に埋め込むことで重大な脅威となり、モデルがそれらをターゲットラベルに誤って分類する。
大規模な研究は、物体認識モデルにおけるこれらの攻撃の軽減に重点を置いているが、バックドアのサンプルを直接検出することには、はるかに注意が向けられていない。
トレーニングで使用される膨大なデータセットを考えると、バックドアトリガーの手動検査は現実的ではなく、最先端の防御メカニズムでさえその影響を完全に中和することができない。
このギャップに対処するために、トレーニングと推論の両方において、見えないバックドア画像を検出する画期的な手法を導入する。
視覚言語モデル(VLM)におけるプロンプトチューニングの革新的成功を生かして、学習可能なテキストプロンプトをトレーニングし、隠れたバックドアトリガーを持つものとクリーンなイメージを区別する。
実験では、この手法の異常な有効性を示し、2つの有名なデータセットで86%の平均精度を達成し、目に見えないバックドアのトリガーを検出し、バックドアの防御における新しい標準を確立した。
関連論文リスト
- Twin Trigger Generative Networks for Backdoor Attacks against Object Detection [14.578800906364414]
オブジェクト検出器は、現実世界のアプリケーションで広く使われているが、バックドア攻撃に弱い。
バックドア攻撃に関するほとんどの研究は画像分類に焦点を合わせており、物体検出について限定的な研究がなされている。
本研究では,トレーニング中のモデルにバックドアを埋め込むための目に見えないトリガと,推論中の安定したアクティベーションのための目に見えるトリガを生成する新しいツイントリガ生成ネットワークを提案する。
論文 参考訳(メタデータ) (2024-11-23T03:46:45Z) - Efficient Backdoor Defense in Multimodal Contrastive Learning: A Token-Level Unlearning Method for Mitigating Threats [52.94388672185062]
本稿では,機械学習という概念を用いて,バックドアの脅威に対する効果的な防御機構を提案する。
これは、モデルがバックドアの脆弱性を迅速に学習するのを助けるために、小さな毒のサンプルを戦略的に作成することを必要とする。
バックドア・アンラーニング・プロセスでは,新しいトークン・ベースの非ラーニング・トレーニング・システムを提案する。
論文 参考訳(メタデータ) (2024-09-29T02:55:38Z) - Backdoor Defense through Self-Supervised and Generative Learning [0.0]
このようなデータのトレーニングは、選択されたテストサンプルに悪意のある推論を引き起こすバックドアを注入する。
本稿では,自己教師付き表現空間におけるクラスごとの分布生成モデルに基づくアプローチを提案する。
どちらの場合も、クラスごとの生成モデルにより、有毒なデータを検出し、データセットをクリーン化することができます。
論文 参考訳(メタデータ) (2024-09-02T11:40:01Z) - BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive
Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。
バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文 参考訳(メタデータ) (2023-11-20T02:21:49Z) - Setting the Trap: Capturing and Defeating Backdoors in Pretrained
Language Models through Honeypots [68.84056762301329]
近年の研究では、バックドア攻撃に対するプレトレーニング言語モデル(PLM)の感受性が明らかにされている。
バックドア情報のみを吸収するために,ハニーポットモジュールをオリジナルのPLMに統合する。
我々の設計は、PLMの低層表現が十分なバックドア特徴を持っているという観察に動機づけられている。
論文 参考訳(メタデータ) (2023-10-28T08:21:16Z) - Untargeted Backdoor Attack against Object Detection [69.63097724439886]
我々は,タスク特性に基づいて,無目標で毒のみのバックドア攻撃を設計する。
攻撃によって、バックドアがターゲットモデルに埋め込まれると、トリガーパターンでスタンプされたオブジェクトの検出を失う可能性があることを示す。
論文 参考訳(メタデータ) (2022-11-02T17:05:45Z) - Backdoor Defense via Suppressing Model Shortcuts [91.30995749139012]
本稿では,モデル構造の角度からバックドア機構を探索する。
攻撃成功率 (ASR) は, キースキップ接続の出力を減少させると著しく低下することを示した。
論文 参考訳(メタデータ) (2022-11-02T15:39:19Z) - Invisible Backdoor Attacks Using Data Poisoning in the Frequency Domain [8.64369418938889]
周波数領域に基づく一般化されたバックドア攻撃手法を提案する。
トレーニングプロセスのミスラベルやアクセスをすることなく、バックドアのインプラントを実装できる。
我々は,3つのデータセットに対して,ラベルなし,クリーンラベルのケースにおけるアプローチを評価した。
論文 参考訳(メタデータ) (2022-07-09T07:05:53Z) - Rethinking the Backdoor Attacks' Triggers: A Frequency Perspective [10.03897682559064]
本稿では,既存のバックドアトリガを周波数の観点から再検討し,包括的解析を行う。
現在のバックドア攻撃の多くは、異なるデータセットと解像度にまたがって持続する重い高周波アーティファクトを示す。
高周波アーティファクトを使わずにスムーズなバックドアトリガーを作成し,その検出性を検討する実用的な方法を提案する。
論文 参考訳(メタデータ) (2021-04-07T22:05:28Z) - Black-box Detection of Backdoor Attacks with Limited Information and
Data [56.0735480850555]
モデルへのクエリアクセスのみを用いてバックドア攻撃を同定するブラックボックスバックドア検出(B3D)手法を提案する。
バックドア検出に加えて,同定されたバックドアモデルを用いた信頼性の高い予測手法を提案する。
論文 参考訳(メタデータ) (2021-03-24T12:06:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。