論文の概要: BackdoorIDS: Zero-shot Backdoor Detection for Pretrained Vision Encoder
- arxiv url: http://arxiv.org/abs/2603.11664v1
- Date: Thu, 12 Mar 2026 08:32:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:25.962594
- Title: BackdoorIDS: Zero-shot Backdoor Detection for Pretrained Vision Encoder
- Title(参考訳): BackdoorIDS:事前訓練されたビジョンエンコーダのゼロショットバックドア検出
- Authors: Siquan Huang, Yijiang Li, Ningzhi Gao, Xingfu Yan, Leyu Shi,
- Abstract要約: BackdoorIDSは、事前訓練された視覚エンコーダのためのゼロショット、推論時バックドアサンプル検出方法である。
さまざまな攻撃タイプ、データセット、モデルファミリーで、既存の防御を一貫して上回る。
BackdoorIDSは、CNN、ViT、CLIP、LLaVA-1.5など、幅広いエンコーダアーキテクチャと互換性がある。
- 参考スコア(独自算出の注目度): 11.14289312307743
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervised and multimodal vision encoders learn strong visual representations that are widely adopted in downstream vision tasks and large vision-language models (LVLMs). However, downstream users often rely on third-party pretrained encoders with uncertain provenance, exposing them to backdoor attacks. In this work, we propose BackdoorIDS, a simple yet effective zero-shot, inference-time backdoor samples detection method for pretrained vision encoders. BackdoorIDS is motivated by two observations: Attention Hijacking and Restoration. Under progressive input masking, a backdoored image initially concentrates attention on malicious trigger features. Once the masking ratio exceeds the trigger's robustness threshold, the trigger is deactivated, and attention rapidly shifts to benign content. This transition induces a pronounced change in the image embedding, whereas embeddings of clean images evolve more smoothly across masking progress. BackdoorIDS operationalizes this signal by extracting an embedding sequence along the masking trajectory and applying density-based clustering such as DBSCAN. An input is flagged as backdoored if its embedding sequence forms more than one cluster. Extensive experiments show that BackdoorIDS consistently outperforms existing defenses across diverse attack types, datasets, and model families. Notably, it is a plug-and-play approach that requires no retraining and operates fully zero-shot at inference time, making it compatible with a wide range of encoder architectures, including CNNs, ViTs, CLIP, and LLaVA-1.5.
- Abstract(参考訳): 自己監督型・マルチモーダル型視覚エンコーダは、下流の視覚タスクや大規模視覚言語モデル(LVLM)で広く採用されている強力な視覚表現を学習する。
しかし、下流のユーザは、不確実な証明のあるサードパーティの事前訓練エンコーダを頼りにし、バックドア攻撃にさらしていることが多い。
本研究では,事前学習した視覚エンコーダのための,シンプルで効果的なゼロショット,推論時バックドアサンプル検出手法であるBackdoorIDSを提案する。
BackdoorIDSは、注意:ハイジャックと回復の2つの観察によって動機付けられている。
プログレッシブな入力マスキングの下では、バックドアイメージは悪意のあるトリガー機能に注意を集中する。
マスキング比がトリガーの堅牢性しきい値を超えると、トリガーは非活性化され、注意は急速に良性コンテンツにシフトする。
この遷移は画像の埋め込みに顕著な変化をもたらすが、クリーンな画像の埋め込みはマスクの進行とともによりスムーズに進化する。
BackdoorIDSは、マスキング軌道に沿って埋め込みシーケンスを抽出し、DBSCANのような密度ベースのクラスタリングを適用することで、この信号を運用する。
入力は、埋め込みシーケンスが複数のクラスタを形成する場合、バックドアとしてフラグ付けされる。
大規模な実験によると、BackdoorIDSはさまざまな攻撃タイプ、データセット、モデルファミリーで既存の防御を一貫して上回っている。
特に、再トレーニングを必要とせず、推論時に完全にゼロショットを実行するプラグイン・アンド・プレイのアプローチであり、CNN、ViTs、CLIP、LLaVA-1.5を含む幅広いエンコーダアーキテクチャと互換性がある。
関連論文リスト
- On the Adversarial Robustness of Discrete Image Tokenizers [56.377796750281796]
まず、離散トークン化器によって抽出された特徴を摂動させることを目的とした攻撃を定式化し、抽出したトークンを変更する。
我々は、教師なしの敵の訓練で人気のあるトークンライザを微調整し、他のすべてのコンポーネントを凍結させます。
提案手法は,教師なし攻撃とエンドツーエンド攻撃の両方に対するロバスト性を大幅に向上させ,未知のタスクやデータに対して良好に一般化する。
論文 参考訳(メタデータ) (2026-02-20T14:39:17Z) - Backdoor Attacks on Open Vocabulary Object Detectors via Multi-Modal Prompt Tuning [5.0734761482919115]
オープン語彙オブジェクト検出器(OVOD)は、視覚と言語を統一し、テキストプロンプトに基づいて任意のオブジェクトカテゴリを検出する。
我々は,OVODに対するバックドアアタックの最初の研究を行い,即時チューニングによって導入された新たなアタックサーフェスを明らかにする。
論文 参考訳(メタデータ) (2025-11-16T19:05:31Z) - Proactive Disentangled Modeling of Trigger-Object Pairings for Backdoor Defense [0.0]
ディープニューラルネットワーク(DNN)とジェネレーティブAI(GenAI)は、バックドア攻撃に対してますます脆弱になっている。
本稿では、構造的ゆがみを利用したプロアクティブなフレームワークであるDBOMを紹介し、見えないバックドアの脅威を識別し、中和する。
そこで本研究では,DBOMが下流トレーニングに先立って有毒な画像を確実に検出し,トレーニングパイプラインの安全性を著しく向上することを示す。
論文 参考訳(メタデータ) (2025-08-03T21:58:15Z) - Backdoor Cleaning without External Guidance in MLLM Fine-tuning [76.82121084745785]
Believe Your Eyes (BYE)は、アテンションエントロピーパターンを自己教師信号として活用して、バックドアサンプルを特定してフィルタリングするデータフィルタリングフレームワークである。
クリーンタスクのパフォーマンスを維持しながら、ほぼゼロの攻撃成功率を達成する。
論文 参考訳(メタデータ) (2025-05-22T17:11:58Z) - Trigger without Trace: Towards Stealthy Backdoor Attack on Text-to-Image Diffusion Models [70.03122709795122]
テキストと画像の拡散モデルをターゲットにしたバックドア攻撃が急速に進んでいる。
現在のバックドアサンプルは良性サンプルと比較して2つの重要な異常を示すことが多い。
我々はこれらの成分を明示的に緩和することでTwT(Trigger without Trace)を提案する。
論文 参考訳(メタデータ) (2025-03-22T10:41:46Z) - DeDe: Detecting Backdoor Samples for SSL Encoders via Decoders [6.698677477097004]
自己教師付き学習(SSL)は、大量のラベルのないデータで高品質な上流エンコーダのトレーニングに広く利用されている。
Victim encodersは、インプットとターゲットの埋め込みを関連付け、インプットがアクティブになったときに下流のタスクが意図しない動作を継承する。
本稿では,被害者エンコーダの入力によって引き起こされるバックドアマッピングの活性化を検出する新しい検出機構であるDeDeを提案する。
論文 参考訳(メタデータ) (2024-11-25T07:26:22Z) - GhostEncoder: Stealthy Backdoor Attacks with Dynamic Triggers to
Pre-trained Encoders in Self-supervised Learning [15.314217530697928]
自己教師付き学習 (SSL) は、大量の未ラベル画像を利用した事前訓練された画像エンコーダの訓練に関係している。
GhostEncoderはSSLに対する最初のダイナミックなバックドア攻撃である。
論文 参考訳(メタデータ) (2023-10-01T09:39:27Z) - CleanCLIP: Mitigating Data Poisoning Attacks in Multimodal Contrastive
Learning [63.72975421109622]
CleanCLIPは、バックドア攻撃によって引き起こされる学習された刺激的関連を弱める微調整フレームワークである。
CleanCLIPは、マルチモーダル・コントラッシブ・ラーニングに対するバックドア・アタックを根絶しながら、良質な例によるモデル性能を維持している。
論文 参考訳(メタデータ) (2023-03-06T17:48:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。