Fugu-MT 論文翻訳(概要): ViTGuard: Attention-aware Detection against Adversarial Examples for Vision Transformer

論文の概要: ViTGuard: Attention-aware Detection against Adversarial Examples for Vision Transformer

arxiv url: http://arxiv.org/abs/2409.13828v1
Date: Fri, 20 Sep 2024 18:11:56 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-07 05:01:49.630395
Title: ViTGuard: Attention-aware Detection against Adversarial Examples for Vision Transformer
Title（参考訳）: ViTGuard:視覚変換器の逆例に対する注意認識検出
Authors: Shihua Sun, Kenechukwu Nwodo, Shridatt Sugrim, Angelos Stavrou, Haining Wang,
Abstract要約: 本稿では,視覚変換器(ViT)モデルを敵攻撃に対して防御するための一般的な検出方法として,ViTGuardを提案する。 ViTGuardはMasked Autoencoder(MAE)モデルを使用して、ランダムにマスキングされたパッチを非マッシュ領域から回収する。しきい値に基づく検出器は、注意マップやトークン表現(トークン表現)の分類など、ViT特有の特徴を活用して、通常のサンプルと反対のサンプルを区別する。
参考スコア（独自算出の注目度）: 8.71614629110101
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The use of transformers for vision tasks has challenged the traditional dominant role of convolutional neural networks (CNN) in computer vision (CV). For image classification tasks, Vision Transformer (ViT) effectively establishes spatial relationships between patches within images, directing attention to important areas for accurate predictions. However, similar to CNNs, ViTs are vulnerable to adversarial attacks, which mislead the image classifier into making incorrect decisions on images with carefully designed perturbations. Moreover, adversarial patch attacks, which introduce arbitrary perturbations within a small area, pose a more serious threat to ViTs. Even worse, traditional detection methods, originally designed for CNN models, are impractical or suffer significant performance degradation when applied to ViTs, and they generally overlook patch attacks. In this paper, we propose ViTGuard as a general detection method for defending ViT models against adversarial attacks, including typical attacks where perturbations spread over the entire input and patch attacks. ViTGuard uses a Masked Autoencoder (MAE) model to recover randomly masked patches from the unmasked regions, providing a flexible image reconstruction strategy. Then, threshold-based detectors leverage distinctive ViT features, including attention maps and classification (CLS) token representations, to distinguish between normal and adversarial samples. The MAE model does not involve any adversarial samples during training, ensuring the effectiveness of our detectors against unseen attacks. ViTGuard is compared with seven existing detection methods under nine attacks across three datasets. The evaluation results show the superiority of ViTGuard over existing detectors. Finally, considering the potential detection evasion, we further demonstrate ViTGuard's robustness against adaptive attacks for evasion.
Abstract（参考訳）: 視覚タスクにおけるトランスフォーマーの使用は、コンピュータビジョン(CV)における畳み込みニューラルネットワーク(CNN)の伝統的な支配的な役割に挑戦している。画像分類タスクにおいて、視覚変換器(ViT)は画像内のパッチ間の空間的関係を効果的に確立し、正確な予測のために重要な領域に注意を向ける。しかし、CNNと同様、ViTは敵の攻撃に弱いため、画像分類器を誤解させ、慎重に設計された摂動のある画像に対して誤った判断を下す。さらに、小さな領域で任意の摂動をもたらす敵パッチ攻撃は、ViTに対してより深刻な脅威となる。さらに悪いことに、もともとCNNモデル用に設計された従来の検出方法は、ViTに適用された場合、実用的でないか、大幅な性能低下を被り、パッチ攻撃を見落としている。本稿では,ViTGuardを,インプットやパッチ攻撃全体にわたって摂動が広まる典型的な攻撃を含む敵攻撃に対して,ViTモデルを防御するための一般的な検出方法として提案する。 ViTGuardはMasked Autoencoder (MAE)モデルを使用して、ランダムにマスキングされたパッチを非マスキング領域から回収し、柔軟な画像再構成戦略を提供する。次に、しきい値に基づく検出器は、注意マップやCLSトークン表現などの特徴的なViT特徴を利用して、通常のサンプルと反対のサンプルを区別する。 MAEモデルは、トレーニング中に敵のサンプルを含まないため、我々の検出器が目に見えない攻撃に対して有効であることを保証する。 ViTGuardは、3つのデータセットにわたる9つの攻撃の下で既存の7つの検出方法と比較される。評価結果は既存の検出器よりもViTGuardの方が優れていることを示している。最後に,検出回避の可能性を考慮し,ViTGuardのアダプティブアタックに対する堅牢性をさらに実証する。

関連論文リスト

Protego: Detecting Adversarial Examples for Vision Transformers via Intrinsic Capabilities [21.96572543062238]
トランスフォーマーモデルは自然言語処理に優れており、ビジョンコミュニティはコンピュータビジョン問題におけるその実装を探求している。本稿では、VTモデルの脆弱性を明らかにするために、3つの事前訓練されたViTモデルに対する6つの共通敵攻撃の攻撃能力について検討する。本稿では,VTモデルが敵攻撃を防ぐために,変圧器固有の機能を利用した検出フレームワークProtegoを提案する。
論文参考訳（メタデータ） (2025-01-13T03:54:19Z)
Backdoor Attack Against Vision Transformers via Attention Gradient-Based Image Erosion [4.036142985883415]
ビジョントランスフォーマー(ViT)は、様々なコンピュータビジョンタスクで従来の畳み込みニューラルネットワーク(CNN)を上回っている。 ViTはバックドア攻撃に対して脆弱で、敵がバックドアを被害者のモデルに埋め込む。 Intention Gradient-based Erosion Backdoor (AGEB) を提案する。
論文参考訳（メタデータ） (2024-10-30T04:06:12Z)
Downstream Transfer Attack: Adversarial Attacks on Downstream Models with Pre-trained Vision Transformers [95.22517830759193]
本稿では、事前訓練されたViTモデルから下流タスクへのこのような逆の脆弱性の伝達可能性について検討する。 DTAは攻撃成功率(ASR)が90%を超え、既存の手法をはるかに上回っていることを示す。
論文参考訳（メタデータ） (2024-08-03T08:07:03Z)
Query-Efficient Hard-Label Black-Box Attack against Vision Transformers [9.086983253339069]
ビジョントランスフォーマー(ViT)は、ディープ畳み込みニューラルネットワーク(CNN)として敵対的攻撃から同様のセキュリティリスクに直面している本稿では,ブラックボックスシナリオ下での敵攻撃に対するViTsの脆弱性について検討する。本稿では,AdvViTと呼ばれる新しいクエリ効率の高いハードラベル逆攻撃手法を提案する。
論文参考訳（メタデータ） (2024-06-29T10:09:12Z)
Transferable Adversarial Attacks on Vision Transformers with Token Gradient Regularization [32.908816911260615]
ビジョントランス (ViT) は様々なコンピュータビジョンタスクにうまく展開されているが、それでも敵のサンプルには弱い。転送ベースの攻撃は、ローカルモデルを使用して敵のサンプルを生成し、ターゲットのブラックボックスモデルを攻撃するために直接転送する。本稿では,既存のアプローチの欠点を克服するために,Token Gradient Regularization (TGR)法を提案する。
論文参考訳（メタデータ） (2023-03-28T06:23:17Z)
Self-Ensembling Vision Transformer (SEViT) for Robust Medical Image Classification [4.843654097048771]
ビジョントランスフォーマー(ViT)は、医療画像における様々なコンピュータビジョンタスクのために、畳み込みニューラルネットワーク(CNN)を置き換えるために競合している。近年の研究では、ViTsはそのような攻撃の影響を受けやすく、攻撃下での大幅な性能劣化が報告されている。本稿では,対戦型攻撃の存在下でのViTの堅牢性を高めるための,新たな自己認識手法を提案する。
論文参考訳（メタデータ） (2022-08-04T19:02:24Z)
Defending Backdoor Attacks on Vision Transformer via Patch Processing [18.50522247164383]
ViT(Vision Transformers)は、畳み込みニューラルネットワークよりもはるかに少ない帰納バイアスを持つ、根本的に異なるアーキテクチャである。本稿では,バックドア攻撃(バックドア攻撃)の代表的因果攻撃について検討する。本稿では,パッチベースとブレンディングベースの両方で,パッチ処理によるバックドア攻撃を効果的に防御する手法を提案する。
論文参考訳（メタデータ） (2022-06-24T17:29:47Z)
Towards Transferable Adversarial Attacks on Vision Transformers [110.55845478440807]
視覚変換器(ViT)は、コンピュータビジョンの一連のタスクにおいて印象的なパフォーマンスを示してきたが、それでも敵の例に悩まされている。本稿では、PNA攻撃とPatchOut攻撃を含むデュアルアタックフレームワークを導入し、異なるViT間での対向サンプルの転送性を改善する。
論文参考訳（メタデータ） (2021-09-09T11:28:25Z)
On Improving Adversarial Transferability of Vision Transformers [97.17154635766578]
視覚変換器(ViT)は、入力画像を、自己注意によるパッチのシーケンスとして処理する。本稿では,ViTモデルの対角的特徴空間とその伝達性について検討する。本稿では,ViTモデルのアーキテクチャに特有な2つの新しい戦略を紹介する。
論文参考訳（メタデータ） (2021-06-08T08:20:38Z)
Temporally-Transferable Perturbations: Efficient, One-Shot Adversarial Attacks for Online Visual Object Trackers [81.90113217334424]
本研究では, オブジェクトテンプレート画像からのみ, 一時移動可能な対人的摂動を生成するフレームワークを提案する。この摂動はあらゆる検索画像に追加され、事実上何のコストもかからないが、それでもトラッカーを騙すのに成功している。
論文参考訳（メタデータ） (2020-12-30T15:05:53Z)
Investigating Robustness of Adversarial Samples Detection for Automatic Speaker Verification [78.51092318750102]
本研究は,ASVシステムに対して,別個の検出ネットワークによる敵攻撃から防御することを提案する。 VGGライクな二分分類検出器を導入し、対向サンプルの検出に有効であることが実証された。
論文参考訳（メタデータ） (2020-06-11T04:31:56Z)
Defense for Black-box Attacks on Anti-spoofing Models by Self-Supervised Learning [71.17774313301753]
本研究では,自己指導型高水準表現の堅牢性について,敵攻撃に対する防御に利用して検討する。 ASVspoof 2019データセットの実験結果は、Mockingjayによって抽出されたハイレベルな表現が、敵の例の転送可能性を妨げることを示した。
論文参考訳（メタデータ） (2020-06-05T03:03:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。