論文の概要: Are Vision Transformers Robust to Patch Perturbations?
- arxiv url: http://arxiv.org/abs/2111.10659v1
- Date: Sat, 20 Nov 2021 19:00:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-23 16:47:54.433260
- Title: Are Vision Transformers Robust to Patch Perturbations?
- Title(参考訳): 視覚トランスフォーマーは摂動をパッチするのに堅牢か?
- Authors: Jindong Gu, Volker Tresp, Yao Qin
- Abstract要約: パッチワイド摂動に対する視覚変換器の堅牢性について検討する。
自然劣化パッチに対するViTの強い堅牢性と、敵パッチに対する高い脆弱性は、どちらも注意機構によって引き起こされる。
- 参考スコア(独自算出の注目度): 18.491213370656855
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recent advances in Vision Transformer (ViT) have demonstrated its
impressive performance in image classification, which makes it a promising
alternative to Convolutional Neural Network (CNN). Unlike CNNs, ViT represents
an input image as a sequence of image patches. The patch-wise input image
representation makes the following question interesting: How does ViT perform
when individual input image patches are perturbed with natural corruptions or
adversarial perturbations, compared to CNNs? In this work, we study the
robustness of vision transformers to patch-wise perturbations. Surprisingly, we
find that vision transformers are more robust to naturally corrupted patches
than CNNs, whereas they are more vulnerable to adversarial patches.
Furthermore, we conduct extensive qualitative and quantitative experiments to
understand the robustness to patch perturbations. We have revealed that ViT's
stronger robustness to natural corrupted patches and higher vulnerability
against adversarial patches are both caused by the attention mechanism.
Specifically, the attention model can help improve the robustness of vision
transformers by effectively ignoring natural corrupted patches. However, when
vision transformers are attacked by an adversary, the attention mechanism can
be easily fooled to focus more on the adversarially perturbed patches and cause
a mistake.
- Abstract(参考訳): Vision Transformer(ViT)の最近の進歩は、画像分類における印象的なパフォーマンスを示しており、畳み込みニューラルネットワーク(CNN)の代替として有望である。
CNNとは異なり、ViTは入力イメージをイメージパッチのシーケンスとして表現する。
個々の入力イメージパッチが自然の腐敗や逆の摂動によって乱される場合、ViTはCNNと比較してどのように機能するのか?
本研究では,パッチワイド摂動に対する視覚変換器の堅牢性について検討する。
驚いたことに、視覚トランスフォーマーはcnnよりも自然に破損したパッチの方が頑丈であるのに対し、逆のパッチの方が脆弱である。
さらに,摂動にパッチを当てる際のロバスト性を理解するために,広範に定性的かつ定量的な実験を行う。
我々は,ViTの自然劣化パッチに対する強い堅牢性と,敵パッチに対する高い脆弱性が,どちらも注意機構によって引き起こされることを明らかにした。
特に、注意モデルは、自然に破損したパッチを効果的に無視することにより、視覚トランスフォーマーのロバスト性を改善するのに役立つ。
しかし、視覚変換器が敵に攻撃されると、注意機構は容易に騙され、敵に乱れたパッチに集中し、誤りを引き起こす。
関連論文リスト
- Attention Deficit is Ordered! Fooling Deformable Vision Transformers
with Collaborative Adversarial Patches [3.4673556247932225]
変形可能な視覚変換器は、注意モデリングの複雑さを著しく低減する。
最近の研究は、従来の視覚変換器に対する敵攻撃を実証している。
我々は,対象のパッチに注意を向けるようにソースパッチが操作する新たなコラボレーティブアタックを開発する。
論文 参考訳(メタデータ) (2023-11-21T17:55:46Z) - Hardwiring ViT Patch Selectivity into CNNs using Patch Mixing [64.7892681641764]
我々は視覚変換器(ViT)と畳み込みニューラルネットワーク(CNN)を訓練する
Patch Mixingを用いたトレーニングでは,ViTは改善も劣化もしないことがわかった。
我々は、このトレーニング手法が、VTがすでに持っている能力をCNNでシミュレートする方法であると結論付けている。
論文 参考訳(メタデータ) (2023-06-30T17:59:53Z) - Patch-Fool: Are Vision Transformers Always Robust Against Adversarial Perturbations? [15.977659730037994]
ビジョントランスフォーマー(ViT)は、ビジョンタスクにおける記録的なパフォーマンスのおかげで、ニューラルアーキテクチャ設計の新しい波を最近開始した。
最近の研究によると、ViTsは畳み込みニューラルネットワーク(CNN)と比較して敵の攻撃に対してより堅牢である。
本稿では,Patch-Foolと呼ばれる攻撃フレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-16T04:45:59Z) - Improved Robustness of Vision Transformer via PreLayerNorm in Patch
Embedding [4.961852023598131]
視覚変換器(ViT)は近年,畳み込みニューラルネットワーク(CNN)を置き換えるさまざまな視覚タスクにおいて,最先端のパフォーマンスを実証している。
本稿では,ViTの挙動とロバスト性について検討する。
論文 参考訳(メタデータ) (2021-11-16T12:32:03Z) - Can Vision Transformers Perform Convolution? [78.42076260340869]
画像パッチを入力とする単一のViT層が任意の畳み込み操作を構成的に実行可能であることを示す。
我々は、CNNを表現するビジョントランスフォーマーのヘッド数を低くする。
論文 参考訳(メタデータ) (2021-11-02T03:30:17Z) - Understanding and Improving Robustness of Vision Transformers through
Patch-based Negative Augmentation [29.08732248577141]
本稿では,視覚変換器 (ViT) のレンズによる堅牢性について検討する。
変換が元のセマンティクスを大きく損なう場合でも、ViTはパッチベースの変換に驚くほど敏感であることがわかった。
パッチベースの負の増大は、広範囲のImageNetベースのロバストネスベンチマークにおいて、ViTのロバストネスを一貫して改善することを示す。
論文 参考訳(メタデータ) (2021-10-15T04:53:18Z) - Certified Patch Robustness via Smoothed Vision Transformers [77.30663719482924]
視覚変換器を用いることで、認証済みのパッチの堅牢性が大幅に向上することを示す。
これらの改善は、視覚変換器が主にマスクされた画像を優雅に扱う能力に起因している。
論文 参考訳(メタデータ) (2021-10-11T17:44:05Z) - Towards Transferable Adversarial Attacks on Vision Transformers [110.55845478440807]
視覚変換器(ViT)は、コンピュータビジョンの一連のタスクにおいて印象的なパフォーマンスを示してきたが、それでも敵の例に悩まされている。
本稿では、PNA攻撃とPatchOut攻撃を含むデュアルアタックフレームワークを導入し、異なるViT間での対向サンプルの転送性を改善する。
論文 参考訳(メタデータ) (2021-09-09T11:28:25Z) - ConvNets vs. Transformers: Whose Visual Representations are More
Transferable? [49.62201738334348]
本研究では,15個のシングルタスクおよびマルチタスク性能評価において,ConvNetと視覚変換器の伝達学習能力について検討する。
13の下流タスクでTransformerベースのバックボーンの一貫性のあるアドバンテージを観察した。
論文 参考訳(メタデータ) (2021-08-11T16:20:38Z) - On the Adversarial Robustness of Visual Transformers [129.29523847765952]
本研究は、視覚変換器(ViT)の対逆的摂動に対する堅牢性に関する最初の包括的な研究を提供する。
さまざまなホワイトボックスとトランスファーアタック設定でテストされた ViT は、畳み込みニューラルネットワーク (CNN) と比較して、より優れた敵対的堅牢性を持っています。
論文 参考訳(メタデータ) (2021-03-29T14:48:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。