論文の概要: STRAP-ViT: Segregated Tokens with Randomized -- Transformations for Defense against Adversarial Patches in ViTs
- arxiv url: http://arxiv.org/abs/2603.12688v1
- Date: Fri, 13 Mar 2026 06:03:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-16 17:38:11.934228
- Title: STRAP-ViT: Segregated Tokens with Randomized -- Transformations for Defense against Adversarial Patches in ViTs
- Title(参考訳): STRAP-ViT: ランダム化された分割トークン -- ViT の敵パッチに対する防御のための変換
- Authors: Nandish Chattopadhyay, Anadi Goyal, Chandan Karfa, Anupam Chattopadhyay,
- Abstract要約: 逆パッチは物理的に実現可能な局所雑音であり、視覚変換器(ViT)の自己注意をハイジャックすることができる。
本稿では,Jensen-Shannon Divergence を用いた STRAP-ViT と呼ばれる機構を提案する。
STRAP-ViTはViTアーキテクチャの非トレーニング可能なプラグイン・アンド・プレイブロックとして適合し、推論目的のみで、計算コストは最小限である。
- 参考スコア(独自算出の注目度): 2.458848206334729
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Adversarial patches are physically realizable localized noise, which are able to hijack Vision Transformers (ViT) self-attention, pulling focus toward a small, high-contrast region and corrupting the class token to force confident misclassifications. In this paper, we claim that the tokens which correspond to the areas of the image that contain the adversarial noise, have different statistical properties when compared to the tokens which do not overlap with the adversarial perturbations. We use this insight to propose a mechanism, called STRAP-ViT, which uses Jensen-Shannon Divergence as a metric for segregating tokens that behave as anomalies in the Detection Phase, and then apply randomized composite transformations on them during the Mitigation Phase to make the adversarial noise ineffective. The minimum number of tokens to transform is a hyper-parameter for the defense mechanism and is chosen such that at least 50% of the patch is covered by the transformed tokens. STRAP-ViT fits as a non-trainable plug-and-play block within the ViT architectures, for inference purposes only, with a minimal computational cost and does not require any additional training cost/effort. STRAP-ViT has been tested on multiple pre-trained vision transformer architectures (ViT-base-16 and DinoV2) and datasets (ImageNet and CalTech-101), across multiple adversarial attacks (Adversarial Patch, LAVAN, GDPA and RP2), and found to provide excellent robust accuracies lying within a 2-3% range of the clean baselines, and outperform the state-of-the-art.
- Abstract(参考訳): 反対のパッチは物理的に実現可能な局所雑音であり、視覚変換器(ViT)をハイジャックし、小さな高コントラスト領域に焦点を向け、クラストークンを破損させ、確実な誤分類を強制することができる。
本稿では, 逆方向の雑音を含む画像の領域に対応するトークンは, 逆方向の摂動と重複しないトークンと比較して, 統計的特性が異なることを主張する。
本稿では,検出相における異常として振る舞うトークンを分離する指標として,Jensen-Shannon Divergence を用いたSTRAP-ViT という機構を提案する。
変換するトークンの最小数は防衛機構のハイパーパラメータであり、パッチの少なくとも50%が変換されたトークンでカバーされるように選択される。
STRAP-ViTはViTアーキテクチャの非トレーニング可能なプラグイン・アンド・プレイブロックとして適合し、推論目的のみで、計算コストは最小限であり、追加のトレーニングコストや効果は不要である。
STRAP-ViTは、複数の事前訓練されたビジョントランスフォーマーアーキテクチャ(ViT-base-16とDinoV2)とデータセット(ImageNetとCalTech-101)で、複数の敵攻撃(Adversarial Patch、LAVAN、GDPA、RP2)でテストされており、クリーンベースラインの2~3%の範囲内に存在する優れた堅牢な精度を提供し、最先端技術よりも優れている。
関連論文リスト
- Vision Transformers: the threat of realistic adversarial patches [48.03238826812818]
ビジョントランスフォーマー(ViT)は、現代の機械学習において大きな注目を集めている。
ViTは、特に敵のパッチに対して、回避攻撃に弱いままである。
本研究では,VT分類モデルに適用したCNNにおける敵攻撃手法の転送可能性について検討した。
論文 参考訳(メタデータ) (2025-09-25T12:36:25Z) - Query-Efficient Hard-Label Black-Box Attack against Vision Transformers [9.086983253339069]
ビジョントランスフォーマー(ViT)は、ディープ畳み込みニューラルネットワーク(CNN)として敵対的攻撃から同様のセキュリティリスクに直面している
本稿では,ブラックボックスシナリオ下での敵攻撃に対するViTsの脆弱性について検討する。
本稿では,AdvViTと呼ばれる新しいクエリ効率の高いハードラベル逆攻撃手法を提案する。
論文 参考訳(メタデータ) (2024-06-29T10:09:12Z) - CageViT: Convolutional Activation Guided Efficient Vision Transformer [90.69578999760206]
本稿では,CageViTと呼ばれる効率的な視覚変換器を提案する。
私たちのCageViTは、現在のTransformersとは違って、新しいエンコーダを使用して、再配置されたトークンを処理する。
実験の結果,提案したCageViTは最新の最先端のバックボーンよりも効率の面で大きな差があることがわかった。
論文 参考訳(メタデータ) (2023-05-17T03:19:18Z) - Transferable Adversarial Attacks on Vision Transformers with Token
Gradient Regularization [32.908816911260615]
ビジョントランス (ViT) は様々なコンピュータビジョンタスクにうまく展開されているが、それでも敵のサンプルには弱い。
転送ベースの攻撃は、ローカルモデルを使用して敵のサンプルを生成し、ターゲットのブラックボックスモデルを攻撃するために直接転送する。
本稿では,既存のアプローチの欠点を克服するために,Token Gradient Regularization (TGR)法を提案する。
論文 参考訳(メタデータ) (2023-03-28T06:23:17Z) - Self-Ensembling Vision Transformer (SEViT) for Robust Medical Image
Classification [4.843654097048771]
ビジョントランスフォーマー(ViT)は、医療画像における様々なコンピュータビジョンタスクのために、畳み込みニューラルネットワーク(CNN)を置き換えるために競合している。
近年の研究では、ViTsはそのような攻撃の影響を受けやすく、攻撃下での大幅な性能劣化が報告されている。
本稿では,対戦型攻撃の存在下でのViTの堅牢性を高めるための,新たな自己認識手法を提案する。
論文 参考訳(メタデータ) (2022-08-04T19:02:24Z) - AdaViT: Adaptive Tokens for Efficient Vision Transformer [91.88404546243113]
本稿では,視覚変換器(ViT)の推論コストを,複雑さの異なる画像に対して適応的に調整する手法であるAdaViTを紹介する。
AdaViTは、推論が進むにつれてネットワーク内で処理されるビジョントランスフォーマーのトークン数を自動で削減することで、これを実現する。
論文 参考訳(メタデータ) (2021-12-14T18:56:07Z) - Towards Transferable Adversarial Attacks on Vision Transformers [110.55845478440807]
視覚変換器(ViT)は、コンピュータビジョンの一連のタスクにおいて印象的なパフォーマンスを示してきたが、それでも敵の例に悩まされている。
本稿では、PNA攻撃とPatchOut攻撃を含むデュアルアタックフレームワークを導入し、異なるViT間での対向サンプルの転送性を改善する。
論文 参考訳(メタデータ) (2021-09-09T11:28:25Z) - Vision Transformer with Progressive Sampling [73.60630716500154]
本稿では,識別領域を特定するための反復的・漸進的なサンプリング手法を提案する。
ImageNetでスクラッチからトレーニングされた場合、PS-ViTはトップ1の精度でバニラViTよりも3.8%高いパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-08-03T18:04:31Z) - On Improving Adversarial Transferability of Vision Transformers [97.17154635766578]
視覚変換器(ViT)は、入力画像を、自己注意によるパッチのシーケンスとして処理する。
本稿では,ViTモデルの対角的特徴空間とその伝達性について検討する。
本稿では,ViTモデルのアーキテクチャに特有な2つの新しい戦略を紹介する。
論文 参考訳(メタデータ) (2021-06-08T08:20:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。