論文の概要: Backdoor Directions in Vision Transformers
- arxiv url: http://arxiv.org/abs/2603.10806v1
- Date: Wed, 11 Mar 2026 14:13:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:32.990228
- Title: Backdoor Directions in Vision Transformers
- Title(参考訳): 視覚変換器のバックドア方向
- Authors: Sengim Karayalcin, Marina Krcek, Pin-Yu Chen, Stjepan Picek,
- Abstract要約: 本稿では,視覚変換器(ViT)におけるバックドアアタックの表現方法について検討する。
我々は、トリガーの内部表現に対応するモデルのアクティベーションにおいて、特定のトリガー方向'を識別する。
この方向を診断ツールとして使用して、バックドア機能が層間でどのように処理されるかを追跡する。
- 参考スコア(独自算出の注目度): 56.382912038371046
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper investigates how Backdoor Attacks are represented within Vision Transformers (ViTs). By assuming knowledge of the trigger, we identify a specific ``trigger direction'' in the model's activations that corresponds to the internal representation of the trigger. We confirm the causal role of this linear direction by showing that interventions in both activation and parameter space consistently modulate the model's backdoor behavior across multiple datasets and attack types. Using this direction as a diagnostic tool, we trace how backdoor features are processed across layers. Our analysis reveals distinct qualitative differences: static-patch triggers follow a different internal logic than stealthy, distributed triggers. We further examine the link between backdoors and adversarial attacks, specifically testing whether PGD-based perturbations (de-)activate the identified trigger mechanism. Finally, we propose a data-free, weight-based detection scheme for stealthy-trigger attacks. Our findings show that mechanistic interpretability offers a robust framework for diagnosing and addressing security vulnerabilities in computer vision.
- Abstract(参考訳): 本稿では,バックドア攻撃が視覚変換器(ViT)内でどのように表現されるかを検討する。
トリガーの知識を仮定することで、トリガーの内部表現に対応するモデルのアクティベーションにおいて、特定の ' ‘Trigger direction''' を特定できる。
この線形方向の因果的役割は、アクティベーションとパラメータ空間の両方の介入が、複数のデータセットやアタックタイプにまたがるモデルのバックドア動作を一貫して調節することを示して確認する。
この方向を診断ツールとして使用して、バックドア機能が層間でどのように処理されるかを追跡する。
静的パッチトリガはステルスな分散トリガとは異なる内部ロジックに従う。
さらに、PGDによる摂動(de-)が特定トリガー機構を活性化するかどうかを特に検証し、バックドアと敵攻撃の関連性について検討する。
最後に,ステルスタイリガー攻撃に対するデータフリーで重みに基づく検出手法を提案する。
計算機ビジョンにおけるセキュリティ脆弱性の診断と対処のための堅牢なフレームワークとして,機械的解釈可能性(mechanistic interpretability)が有効であることを示す。
関連論文リスト
- Uncovering and Aligning Anomalous Attention Heads to Defend Against NLP Backdoor Attacks [9.078969469946038]
バックドア攻撃は、大規模な言語モデルのセキュリティに深刻な脅威をもたらす。
本稿では,注目の類似性に基づくバックドア検出手法を提案する。
我々の手法はバックドア攻撃の成功率を大幅に低下させる。
論文 参考訳(メタデータ) (2025-11-16T15:26:50Z) - Trigger without Trace: Towards Stealthy Backdoor Attack on Text-to-Image Diffusion Models [70.03122709795122]
テキストと画像の拡散モデルをターゲットにしたバックドア攻撃が急速に進んでいる。
現在のバックドアサンプルは良性サンプルと比較して2つの重要な異常を示すことが多い。
我々はこれらの成分を明示的に緩和することでTwT(Trigger without Trace)を提案する。
論文 参考訳(メタデータ) (2025-03-22T10:41:46Z) - Backdoor Attack with Invisible Triggers Based on Model Architecture Modification [5.094386595197844]
従来のバックドア攻撃では、トレーニングデータに特定のトリガーで悪意のあるサンプルを注入する。
より高度な攻撃は、モデルのアーキテクチャを直接変更する。
本論文では、新たなバックドア攻撃方法を示す。
モデルアーキテクチャ内にバックドアを埋め込んで,目立たない,ステルス的なトリガを生成する機能を備えている。
論文 参考訳(メタデータ) (2024-12-22T07:39:43Z) - Proactive Adversarial Defense: Harnessing Prompt Tuning in Vision-Language Models to Detect Unseen Backdoored Images [0.0]
バックドア攻撃は、隠れたトリガーを入力に埋め込むことで重大な脅威となり、モデルがそれらをターゲットラベルに誤って分類する。
トレーニングと推論の両方において、未確認のバックドア画像を検出するための画期的な手法を提案する。
われわれのアプローチは、学習可能なテキストプロンプトを訓練し、クリーンな画像と隠れたバックドアトリガーを区別する。
論文 参考訳(メタデータ) (2024-12-11T19:54:14Z) - Model Pairing Using Embedding Translation for Backdoor Attack Detection on Open-Set Classification Tasks [63.269788236474234]
バックドア検出のためのオープンセット分類タスクにモデルペアを用いることを提案する。
このスコアは、異なるアーキテクチャのモデルがあるにもかかわらず、バックドアの存在を示す指標であることを示している。
この技術は、オープンセット分類タスク用に設計されたモデル上のバックドアの検出を可能にするが、文献ではほとんど研究されていない。
論文 参考訳(メタデータ) (2024-02-28T21:29:16Z) - Rethinking the Trigger of Backdoor Attack [83.98031510668619]
現在、既存のバックドア攻撃のほとんどは、トレーニングとテスト用の画像は同じ外観で、同じエリアに置かれている。
テスト画像のトリガーがトレーニングで使用されるものと一致していない場合、このような攻撃パラダイムが脆弱であることを示す。
論文 参考訳(メタデータ) (2020-04-09T17:19:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。