論文の概要: PASTA: A Patch-Agnostic Twofold-Stealthy Backdoor Attack on Vision Transformers
- arxiv url: http://arxiv.org/abs/2604.20047v1
- Date: Tue, 21 Apr 2026 23:04:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-23 15:36:10.883185
- Title: PASTA: A Patch-Agnostic Twofold-Stealthy Backdoor Attack on Vision Transformers
- Title(参考訳): PASTA: 視覚変換器の2段階のバックドア攻撃
- Authors: Dazhuang Liu, Yanqi Qiao, Rui Wang, Kaitai Liang, Georgios Smaragdakis,
- Abstract要約: パッチワイズトリガーは、近隣のパッチにまたがるバックドアを活性化する際に、高い攻撃効果が得られることを観察する。
PASTAは,画素領域と注目領域の両方において,2倍のステルス性パッチワイドバックドアアタックである。
- 参考スコア(独自算出の注目度): 10.045003770844842
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Transformers (ViTs) have achieved remarkable success across vision tasks, yet recent studies show they remain vulnerable to backdoor attacks. Existing patch-wise attacks typically assume a single fixed trigger location during inference to maximize trigger attention. However, they overlook the self-attention mechanism in ViTs, which captures long-range dependencies across patches. In this work, we observe that a patch-wise trigger can achieve high attack effectiveness when activating backdoors across neighboring patches, a phenomenon we term the Trigger Radiating Effect (TRE). We further find that inter-patch trigger insertion during training can synergistically enhance TRE compared to single-patch insertion. Prior ViT-specific attacks that maximize trigger attention often sacrifice visual and attention stealthiness, making them detectable. Based on these insights, we propose PASTA, a twofold stealthy patch-wise backdoor attack in both pixel and attention domains. PASTA enables backdoor activation when the trigger is placed at arbitrary patches during inference. To achieve this, we introduce a multi-location trigger insertion strategy to enhance TRE. However, preserving stealthiness while maintaining strong TRE is challenging, as TRE is weakened under stealthy constraints. We therefore formulate a bi-level optimization problem and propose an adaptive backdoor learning framework, where the model and trigger iteratively adapt to each other to avoid local optima. Extensive experiments show that PASTA achieves 99.13% attack success rate across arbitrary patches on average, while significantly improving visual and attention stealthiness (144.43x and 18.68x) and robustness (2.79x) against state-of-the-art ViT defenses across four datasets, outperforming CNN- and ViT-based baselines.
- Abstract(参考訳): ビジョントランスフォーマー(ViT)は、視覚タスク全体で大きな成功を収めていますが、最近の研究では、バックドア攻撃に対して脆弱であることが示されています。
既存のパッチワイズ攻撃は、通常、推論中に1つの固定されたトリガー位置を仮定して、トリガー注意を最大化する。
しかし、パッチ間の長距離依存関係をキャプチャするViTの自己アテンションメカニズムを見落としている。
そこで本研究では,Trigger Radiating Effect (TRE) と呼ばれる,隣接するパッチにまたがるバックドアの活性化において,パッチワイドトリガーが高い攻撃効果を達成できることを示す。
さらに、トレーニング中のパッチ間インサートは、単一パッチインサートと比較してTREを相乗的に増強できることがわかった。
注意を喚起するViT固有の攻撃は、しばしば視覚的および注意の盗みを犠牲にし、それらを検出する。
これらの知見に基づき、PASTAは、画素領域とアテンション領域の両方において、2倍のステルス性パッチワイドバックドアアタックである。
PASTAは、推論中にトリガーが任意のパッチに置かれると、バックドアのアクティベーションを可能にする。
これを実現するために,TREを強化するマルチロケーショントリガ挿入戦略を導入する。
しかし、TREがステルス性制約の下で弱まるため、強いTREを維持しながらステルス性を維持することは困難である。
そこで我々は,二段階最適化問題を定式化し,モデルとトリガが相互に適応し,局所最適化を避けるための適応的なバックドア学習フレームワークを提案する。
大規模な実験により、PASTAは平均して任意のパッチに対して99.13%の攻撃成功率を達成する一方で、視覚的および注意的ステルスネス(144.43xと18.68x)と、4つのデータセットにわたる最先端のViT防御に対する堅牢性(2.79x)を大幅に改善し、CNNとViTベースのベースラインを上回った。
関連論文リスト
- Backdoor Attacks on Open Vocabulary Object Detectors via Multi-Modal Prompt Tuning [5.0734761482919115]
オープン語彙オブジェクト検出器(OVOD)は、視覚と言語を統一し、テキストプロンプトに基づいて任意のオブジェクトカテゴリを検出する。
我々は,OVODに対するバックドアアタックの最初の研究を行い,即時チューニングによって導入された新たなアタックサーフェスを明らかにする。
論文 参考訳(メタデータ) (2025-11-16T19:05:31Z) - Trigger without Trace: Towards Stealthy Backdoor Attack on Text-to-Image Diffusion Models [70.03122709795122]
テキストと画像の拡散モデルをターゲットにしたバックドア攻撃が急速に進んでいる。
現在のバックドアサンプルは良性サンプルと比較して2つの重要な異常を示すことが多い。
我々はこれらの成分を明示的に緩和することでTwT(Trigger without Trace)を提案する。
論文 参考訳(メタデータ) (2025-03-22T10:41:46Z) - Stealthy Patch-Wise Backdoor Attack in 3D Point Cloud via Curvature Awareness [52.780853311462636]
バックドア攻撃はディープニューラルネットワーク(DNN)に深刻な脅威をもたらす
既存の3Dポイントのクラウドバックドア攻撃は、サンプルワイドなグローバルな修正に依存している。
我々は,3Dポイントクラウド用のパッチワイドバックドアアタックフレームワークであるStealthy Patch-Wise Backdoor Attack (SPBA)を提案する。
論文 参考訳(メタデータ) (2025-03-12T12:30:59Z) - Backdoor Attack Against Vision Transformers via Attention Gradient-Based Image Erosion [4.036142985883415]
ビジョントランスフォーマー(ViT)は、様々なコンピュータビジョンタスクで従来の畳み込みニューラルネットワーク(CNN)を上回っている。
ViTはバックドア攻撃に対して脆弱で、敵がバックドアを被害者のモデルに埋め込む。
Intention Gradient-based Erosion Backdoor (AGEB) を提案する。
論文 参考訳(メタデータ) (2024-10-30T04:06:12Z) - BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive
Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。
バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文 参考訳(メタデータ) (2023-11-20T02:21:49Z) - Defending Backdoor Attacks on Vision Transformer via Patch Processing [18.50522247164383]
ViT(Vision Transformers)は、畳み込みニューラルネットワークよりもはるかに少ない帰納バイアスを持つ、根本的に異なるアーキテクチャである。
本稿では,バックドア攻撃(バックドア攻撃)の代表的因果攻撃について検討する。
本稿では,パッチベースとブレンディングベースの両方で,パッチ処理によるバックドア攻撃を効果的に防御する手法を提案する。
論文 参考訳(メタデータ) (2022-06-24T17:29:47Z) - Towards Transferable Adversarial Attacks on Vision Transformers [110.55845478440807]
視覚変換器(ViT)は、コンピュータビジョンの一連のタスクにおいて印象的なパフォーマンスを示してきたが、それでも敵の例に悩まされている。
本稿では、PNA攻撃とPatchOut攻撃を含むデュアルアタックフレームワークを導入し、異なるViT間での対向サンプルの転送性を改善する。
論文 参考訳(メタデータ) (2021-09-09T11:28:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。