論文の概要: Reveal of Vision Transformers Robustness against Adversarial Attacks
- arxiv url: http://arxiv.org/abs/2106.03734v1
- Date: Mon, 7 Jun 2021 15:59:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-09 00:51:51.967142
- Title: Reveal of Vision Transformers Robustness against Adversarial Attacks
- Title(参考訳): 対向攻撃に対する視覚トランスフォーマーのロバスト性
- Authors: Ahmed Aldahdooh, Wassim Hamidouche, Olivier Deforges
- Abstract要約: この研究は、CNNと比較して異なる$L_p$ベースの敵攻撃に対するViT変異の堅牢性について研究する。
我々は,バニラ ViT やハイブリッド-ViT が CNN よりも堅牢であることを明らかにする分析を行った。
- 参考スコア(独自算出の注目度): 13.985121520800215
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Attention-based networks have achieved state-of-the-art performance in many
computer vision tasks, such as image classification. Unlike Convolutional
Neural Network (CNN), the major part of the vanilla Vision Transformer (ViT) is
the attention block that brings the power of mimicking the global context of
the input image. This power is data hunger and hence, the larger the training
data the better the performance. To overcome this limitation, many ViT-based
networks, or hybrid-ViT, have been proposed to include local context during the
training. The robustness of ViTs and its variants against adversarial attacks
has not been widely invested in the literature. Some robustness attributes were
revealed in few previous works and hence, more insight robustness attributes
are yet unrevealed. This work studies the robustness of ViT variants 1) against
different $L_p$-based adversarial attacks in comparison with CNNs and 2) under
Adversarial Examples (AEs) after applying preprocessing defense methods. To
that end, we run a set of experiments on 1000 images from ImageNet-1k and then
provide an analysis that reveals that vanilla ViT or hybrid-ViT are more robust
than CNNs. For instance, we found that 1) Vanilla ViTs or hybrid-ViTs are more
robust than CNNs under $L_0$, $L_1$, $L_2$, $L_\infty$-based, and Color Channel
Perturbations (CCP) attacks. 2) Vanilla ViTs are not responding to
preprocessing defenses that mainly reduce the high frequency components while,
hybrid-ViTs are more responsive to such defense. 3) CCP can be used as a
preprocessing defense and larger ViT variants are found to be more responsive
than other models. Furthermore, feature maps, attention maps, and Grad-CAM
visualization jointly with image quality measures, and perturbations' energy
spectrum are provided for an insight understanding of attention-based models.
- Abstract(参考訳): 注意に基づくネットワークは、画像分類などの多くのコンピュータビジョンタスクにおいて最先端のパフォーマンスを達成した。
畳み込みニューラルネットワーク(CNN)とは異なり、バニラビジョントランスフォーマー(ViT)の主要な部分は、入力画像のグローバルコンテキストを模倣する力をもたらすアテンションブロックである。
このパワーはデータ空腹であり、従ってトレーニングデータが大きいほどパフォーマンスが向上する。
この制限を克服するために、多くのViTベースのネットワーク(ハイブリッドViT)がトレーニング中にローカルコンテキストを含むように提案されている。
敵対的攻撃に対するViTsとそのバリエーションの堅牢性は、文献に広く投資されていない。
いくつかのロバスト性属性は、以前のいくつかの作品で明らかにされており、それゆえ、より洞察力のあるロバスト性属性はまだ未解決である。
本研究は,前処理の防御手法を適用した上で,CNN(Adversarial Examples, AEs)において, 異なる$L_p$ベースの敵攻撃に対するViT変異体の堅牢性を検討した。
そのために、ImageNet-1kから1000の画像に対して一連の実験を行い、バニラViTやハイブリッドViTがCNNよりも堅牢であることを明らかにする分析を行った。
例えば、1)Vanilla ViTやハイブリッドViTは、$L_0$、$L_1$、$L_2$、$L_\infty$-based、Color Channel Perturbations (CCP)攻撃の下でCNNよりも堅牢であることがわかった。
2)バニラvitは,主に高周波成分を減少させる前処理防御に応答しないが,ハイブリッドvitはこれらの防御に応答する。
3) CCPは前処理防衛として使用することができ, 他のモデルよりも大きなViT変異体の方が応答性が高いことがわかった。
さらに, 特徴マップ, 注意マップ, および grad-cam 可視化を画像品質測定と共同で行い, 摂動エネルギースペクトルを注意に基づくモデルの見識として提供する。
関連論文リスト
- Query-Efficient Hard-Label Black-Box Attack against Vision Transformers [9.086983253339069]
ビジョントランスフォーマー(ViT)は、ディープ畳み込みニューラルネットワーク(CNN)として敵対的攻撃から同様のセキュリティリスクに直面している
本稿では,ブラックボックスシナリオ下での敵攻撃に対するViTsの脆弱性について検討する。
本稿では,AdvViTと呼ばれる新しいクエリ効率の高いハードラベル逆攻撃手法を提案する。
論文 参考訳(メタデータ) (2024-06-29T10:09:12Z) - Self-Ensembling Vision Transformer (SEViT) for Robust Medical Image
Classification [4.843654097048771]
ビジョントランスフォーマー(ViT)は、医療画像における様々なコンピュータビジョンタスクのために、畳み込みニューラルネットワーク(CNN)を置き換えるために競合している。
近年の研究では、ViTsはそのような攻撃の影響を受けやすく、攻撃下での大幅な性能劣化が報告されている。
本稿では,対戦型攻撃の存在下でのViTの堅牢性を高めるための,新たな自己認識手法を提案する。
論文 参考訳(メタデータ) (2022-08-04T19:02:24Z) - Deeper Insights into ViTs Robustness towards Common Corruptions [82.79764218627558]
我々は、CNNのようなアーキテクチャ設計とCNNベースのデータ拡張戦略が、一般的な汚職に対するViTsの堅牢性にどのように影響するかを検討する。
重なり合うパッチ埋め込みと畳み込みフィードフォワードネットワーク(FFN)がロバスト性の向上を実証する。
また、2つの角度から入力値の増大を可能にする新しい条件付き手法も導入する。
論文 参考訳(メタデータ) (2022-04-26T08:22:34Z) - Patch-Fool: Are Vision Transformers Always Robust Against Adversarial
Perturbations? [21.32962679185015]
ビジョントランスフォーマー(ViT)は、ビジョンタスクにおける記録的なパフォーマンスのおかげで、ニューラルアーキテクチャ設計の新しい波を最近開始した。
最近の研究によると、ViTsは畳み込みニューラルネットワーク(CNN)と比較して敵の攻撃に対してより堅牢である。
本稿では,Patch-Foolと呼ばれる攻撃フレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-16T04:45:59Z) - Auto-scaling Vision Transformers without Training [84.34662535276898]
本研究では,視覚変換器(ViT)の自動スケーリングフレームワークAs-ViTを提案する。
As-ViTは、ViTを効率的かつ原則的に自動的に発見し、スケールアップする。
As-ViTは統合されたフレームワークとして、分類と検出において高いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-02-24T06:30:55Z) - How to augment your ViTs? Consistency loss and StyleAug, a random style
transfer augmentation [4.3012765978447565]
Vision Transformer (ViT) アーキテクチャは、最近、様々なコンピュータビジョンタスクで競合する性能を達成した。
ViTsの背景にある動機の1つは、畳み込みニューラルネットワーク(CNN)と比較して誘導バイアスが弱いことである。
論文 参考訳(メタデータ) (2021-12-16T23:56:04Z) - Improved Robustness of Vision Transformer via PreLayerNorm in Patch
Embedding [4.961852023598131]
視覚変換器(ViT)は近年,畳み込みニューラルネットワーク(CNN)を置き換えるさまざまな視覚タスクにおいて,最先端のパフォーマンスを実証している。
本稿では,ViTの挙動とロバスト性について検討する。
論文 参考訳(メタデータ) (2021-11-16T12:32:03Z) - Towards Transferable Adversarial Attacks on Vision Transformers [110.55845478440807]
視覚変換器(ViT)は、コンピュータビジョンの一連のタスクにおいて印象的なパフォーマンスを示してきたが、それでも敵の例に悩まされている。
本稿では、PNA攻撃とPatchOut攻撃を含むデュアルアタックフレームワークを導入し、異なるViT間での対向サンプルの転送性を改善する。
論文 参考訳(メタデータ) (2021-09-09T11:28:25Z) - On Improving Adversarial Transferability of Vision Transformers [97.17154635766578]
視覚変換器(ViT)は、入力画像を、自己注意によるパッチのシーケンスとして処理する。
本稿では,ViTモデルの対角的特徴空間とその伝達性について検討する。
本稿では,ViTモデルのアーキテクチャに特有な2つの新しい戦略を紹介する。
論文 参考訳(メタデータ) (2021-06-08T08:20:38Z) - On the Adversarial Robustness of Visual Transformers [129.29523847765952]
本研究は、視覚変換器(ViT)の対逆的摂動に対する堅牢性に関する最初の包括的な研究を提供する。
さまざまなホワイトボックスとトランスファーアタック設定でテストされた ViT は、畳み込みニューラルネットワーク (CNN) と比較して、より優れた敵対的堅牢性を持っています。
論文 参考訳(メタデータ) (2021-03-29T14:48:24Z) - DeepViT: Towards Deeper Vision Transformer [92.04063170357426]
近年,視覚変換器 (ViT) が画像分類タスクに応用されている。
より畳み込み層を積み重ねることで改善できる畳み込みニューラルネットワーク(CNN)とは異なり、ViTの性能はより深いスケールで飽和する。
本研究では,アテンションマップの多様性を高めるために,アテンションマップを再生成する手法であるre-attentionを提案する。
論文 参考訳(メタデータ) (2021-03-22T14:32:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。