Fugu-MT 論文翻訳(概要): Proactive Adversarial Defense: Harnessing Prompt Tuning in Vision-Language Models to Detect Unseen Backdoored Images

論文の概要: Proactive Adversarial Defense: Harnessing Prompt Tuning in Vision-Language Models to Detect Unseen Backdoored Images

arxiv url: http://arxiv.org/abs/2412.08755v1
Date: Wed, 11 Dec 2024 19:54:14 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-13 15:57:55.974195
Title: Proactive Adversarial Defense: Harnessing Prompt Tuning in Vision-Language Models to Detect Unseen Backdoored Images
Title（参考訳）: 積極的対人防御:背後画像検出のための視覚言語モデルにおけるハーネスングプロンプトチューニング
Authors: Kyle Stein, Andrew Arash Mahyari, Guillermo Francia, Eman El-Sheikh,
Abstract要約: バックドア攻撃は、隠れたトリガーを入力に埋め込むことで重大な脅威となり、モデルがそれらをターゲットラベルに誤って分類する。トレーニングと推論の両方において、未確認のバックドア画像を検出するための画期的な手法を提案する。われわれのアプローチは、学習可能なテキストプロンプトを訓練し、クリーンな画像と隠れたバックドアトリガーを区別する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Backdoor attacks pose a critical threat by embedding hidden triggers into inputs, causing models to misclassify them into target labels. While extensive research has focused on mitigating these attacks in object recognition models through weight fine-tuning, much less attention has been given to detecting backdoored samples directly. Given the vast datasets used in training, manual inspection for backdoor triggers is impractical, and even state-of-the-art defense mechanisms fail to fully neutralize their impact. To address this gap, we introduce a groundbreaking method to detect unseen backdoored images during both training and inference. Leveraging the transformative success of prompt tuning in Vision Language Models (VLMs), our approach trains learnable text prompts to differentiate clean images from those with hidden backdoor triggers. Experiments demonstrate the exceptional efficacy of this method, achieving an impressive average accuracy of 86% across two renowned datasets for detecting unseen backdoor triggers, establishing a new standard in backdoor defense.
Abstract（参考訳）: バックドア攻撃は、隠れたトリガーを入力に埋め込むことで重大な脅威となり、モデルがそれらをターゲットラベルに誤って分類する。大規模な研究は、物体認識モデルにおけるこれらの攻撃の軽減に重点を置いているが、バックドアのサンプルを直接検出することには、はるかに注意が向けられていない。トレーニングで使用される膨大なデータセットを考えると、バックドアトリガーの手動検査は現実的ではなく、最先端の防御メカニズムでさえその影響を完全に中和することができない。このギャップに対処するために、トレーニングと推論の両方において、見えないバックドア画像を検出する画期的な手法を導入する。視覚言語モデル(VLM)におけるプロンプトチューニングの革新的成功を生かして、学習可能なテキストプロンプトをトレーニングし、隠れたバックドアトリガーを持つものとクリーンなイメージを区別する。実験では、この手法の異常な有効性を示し、2つの有名なデータセットで86%の平均精度を達成し、目に見えないバックドアのトリガーを検出し、バックドアの防御における新しい標準を確立した。

関連論文リスト

Backdoor Attacks on Open Vocabulary Object Detectors via Multi-Modal Prompt Tuning [5.0734761482919115]
オープン語彙オブジェクト検出器(OVOD)は、視覚と言語を統一し、テキストプロンプトに基づいて任意のオブジェクトカテゴリを検出する。我々は,OVODに対するバックドアアタックの最初の研究を行い,即時チューニングによって導入された新たなアタックサーフェスを明らかにする。
論文参考訳（メタデータ） (2025-11-16T19:05:31Z)
Sealing The Backdoor: Unlearning Adversarial Text Triggers In Diffusion Models Using Knowledge Distillation [3.54387829918311]
学習データに知覚不可能なテキストトリガーを注入することで、モデルが操作された出力を生成する。本稿では, 対人的テキストトリガと有毒なアウトプットの関連を除去するために, クロスアテンション誘導による自己知識蒸留(SKD-CAG)を提案する。本手法は,画素バックドアの除去精度を100%,スタイルベース攻撃の93%で達成し,ロバスト性や画像の忠実さを犠牲にしない。
論文参考訳（メタデータ） (2025-08-20T00:57:21Z)
Towards Invisible Backdoor Attack on Text-to-Image Diffusion Model [70.03122709795122]
テキストと画像の拡散モデルをターゲットにしたバックドア攻撃が急速に進んでいる。現在のバックドアサンプルは良性サンプルと比較して2つの重要な異常を示すことが多い。 Invisible Backdoor Attack (IBA) を提案する。
論文参考訳（メタデータ） (2025-03-22T10:41:46Z)
Gungnir: Exploiting Stylistic Features in Images for Backdoor Attacks on Diffusion Models [8.672029086609884]
拡散モデル(DM)はバックドア攻撃に対して脆弱である。 Gungnirは、入力画像内のスタイルトリガを通じて、攻撃者がDMのバックドアをアクティベートできる新しい方法である。本手法は,クリーン画像と知覚的に区別できないトリガー埋め込み画像を生成する。
論文参考訳（メタデータ） (2025-02-28T02:08:26Z)
A Backdoor Attack Scheme with Invisible Triggers Based on Model Architecture Modification [12.393139669821869]
従来のバックドア攻撃では、トレーニングデータに特定のトリガーで悪意のあるサンプルを注入する。より高度な攻撃は、モデルのアーキテクチャを直接変更する。本論文では、新たなバックドア攻撃方法を示す。モデルアーキテクチャ内にバックドアを埋め込んで,目立たない,ステルス的なトリガを生成する機能を備えている。
論文参考訳（メタデータ） (2024-12-22T07:39:43Z)
Twin Trigger Generative Networks for Backdoor Attacks against Object Detection [14.578800906364414]
オブジェクト検出器は、現実世界のアプリケーションで広く使われているが、バックドア攻撃に弱い。バックドア攻撃に関するほとんどの研究は画像分類に焦点を合わせており、物体検出について限定的な研究がなされている。本研究では,トレーニング中のモデルにバックドアを埋め込むための目に見えないトリガと,推論中の安定したアクティベーションのための目に見えるトリガを生成する新しいツイントリガ生成ネットワークを提案する。
論文参考訳（メタデータ） (2024-11-23T03:46:45Z)
Efficient Backdoor Defense in Multimodal Contrastive Learning: A Token-Level Unlearning Method for Mitigating Threats [52.94388672185062]
本稿では,機械学習という概念を用いて,バックドアの脅威に対する効果的な防御機構を提案する。これは、モデルがバックドアの脆弱性を迅速に学習するのを助けるために、小さな毒のサンプルを戦略的に作成することを必要とする。バックドア・アンラーニング・プロセスでは,新しいトークン・ベースの非ラーニング・トレーニング・システムを提案する。
論文参考訳（メタデータ） (2024-09-29T02:55:38Z)
Backdoor Defense through Self-Supervised and Generative Learning [0.0]
このようなデータのトレーニングは、選択されたテストサンプルに悪意のある推論を引き起こすバックドアを注入する。本稿では,自己教師付き表現空間におけるクラスごとの分布生成モデルに基づくアプローチを提案する。どちらの場合も、クラスごとの生成モデルにより、有毒なデータを検出し、データセットをクリーン化することができます。
論文参考訳（メタデータ） (2024-09-02T11:40:01Z)
BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文参考訳（メタデータ） (2023-11-20T02:21:49Z)
Mask and Restore: Blind Backdoor Defense at Test Time with Masked Autoencoder [50.1394620328318]
既存のバックドア防御手法では、いくつかのバリデーションデータとモデルパラメータにアクセスする必要があることが多い。 Masked AutoEncoder (BDMAE) を用いたブラインドバックドアディフェンスの提案 BDMAEは、画像の構造的類似性と、テスト画像とMAE復元の間のラベルの整合性を用いて、可能な局所的なトリガを検出する。
論文参考訳（メタデータ） (2023-03-27T19:23:33Z)
Untargeted Backdoor Attack against Object Detection [69.63097724439886]
我々は,タスク特性に基づいて,無目標で毒のみのバックドア攻撃を設計する。攻撃によって、バックドアがターゲットモデルに埋め込まれると、トリガーパターンでスタンプされたオブジェクトの検出を失う可能性があることを示す。
論文参考訳（メタデータ） (2022-11-02T17:05:45Z)
Backdoor Defense via Suppressing Model Shortcuts [91.30995749139012]
本稿では,モデル構造の角度からバックドア機構を探索する。攻撃成功率 (ASR) は, キースキップ接続の出力を減少させると著しく低下することを示した。
論文参考訳（メタデータ） (2022-11-02T15:39:19Z)
Invisible Backdoor Attacks Using Data Poisoning in the Frequency Domain [8.64369418938889]
周波数領域に基づく一般化されたバックドア攻撃手法を提案する。トレーニングプロセスのミスラベルやアクセスをすることなく、バックドアのインプラントを実装できる。我々は,3つのデータセットに対して,ラベルなし,クリーンラベルのケースにおけるアプローチを評価した。
論文参考訳（メタデータ） (2022-07-09T07:05:53Z)
Rethinking the Backdoor Attacks' Triggers: A Frequency Perspective [10.03897682559064]
本稿では,既存のバックドアトリガを周波数の観点から再検討し,包括的解析を行う。現在のバックドア攻撃の多くは、異なるデータセットと解像度にまたがって持続する重い高周波アーティファクトを示す。高周波アーティファクトを使わずにスムーズなバックドアトリガーを作成し,その検出性を検討する実用的な方法を提案する。
論文参考訳（メタデータ） (2021-04-07T22:05:28Z)
Black-box Detection of Backdoor Attacks with Limited Information and Data [56.0735480850555]
モデルへのクエリアクセスのみを用いてバックドア攻撃を同定するブラックボックスバックドア検出(B3D)手法を提案する。バックドア検出に加えて,同定されたバックドアモデルを用いた信頼性の高い予測手法を提案する。
論文参考訳（メタデータ） (2021-03-24T12:06:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。