論文の概要: Adversarial Robustness Comparison of Vision Transformer and MLP-Mixer to
CNNs
- arxiv url: http://arxiv.org/abs/2110.02797v1
- Date: Wed, 6 Oct 2021 14:18:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-07 14:30:59.813609
- Title: Adversarial Robustness Comparison of Vision Transformer and MLP-Mixer to
CNNs
- Title(参考訳): 視覚トランスフォーマーとmlpミキサーとcnnの逆ロバスト性の比較
- Authors: Philipp Benz, Soomin Ham, Chaoning Zhang, Adil Karjauv, In So Kweon
- Abstract要約: 畳み込みニューラルネットワーク(CNN)は、コンピュータビジョンアプリケーションにおいて事実上のゴールドスタンダードとなっている。
現状に挑戦する新しいモデルアーキテクチャが提案されている。
- 参考スコア(独自算出の注目度): 71.44985408214431
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Convolutional Neural Networks (CNNs) have become the de facto gold standard
in computer vision applications in the past years. Recently, however, new model
architectures have been proposed challenging the status quo. The Vision
Transformer (ViT) relies solely on attention modules, while the MLP-Mixer
architecture substitutes the self-attention modules with Multi-Layer
Perceptrons (MLPs). Despite their great success, CNNs have been widely known to
be vulnerable to adversarial attacks, causing serious concerns for
security-sensitive applications. Thus, it is critical for the community to know
whether the newly proposed ViT and MLP-Mixer are also vulnerable to adversarial
attacks. To this end, we empirically evaluate their adversarial robustness
under several adversarial attack setups and benchmark them against the widely
used CNNs. Overall, we find that the two architectures, especially ViT, are
more robust than their CNN models. Using a toy example, we also provide
empirical evidence that the lower adversarial robustness of CNNs can be
partially attributed to their shift-invariant property. Our frequency analysis
suggests that the most robust ViT architectures tend to rely more on
low-frequency features compared with CNNs. Additionally, we have an intriguing
finding that MLP-Mixer is extremely vulnerable to universal adversarial
perturbations.
- Abstract(参考訳): 畳み込みニューラルネットワーク(CNN)はここ数年、コンピュータビジョンアプリケーションにおいて事実上の標準となっている。
しかし、近年、現状に挑戦する新しいモデルアーキテクチャが提案されている。
Vision Transformer (ViT) は注意モジュールのみに依存し、MLP-Mixer アーキテクチャは自己注意モジュールをMulti-Layer Perceptrons (MLP) で置き換える。
彼らの大きな成功にもかかわらず、CNNは敵の攻撃に弱いことが広く知られており、セキュリティに敏感なアプリケーションに対する深刻な懸念を引き起こしている。
したがって、新しく提案されたvitとmlp-mixerが敵の攻撃に対して脆弱であるかどうかをコミュニティが知ることが重要である。
この目的のために,複数の攻撃装置による敵の強靭性を実証的に評価し,広く使用されているCNNと比較した。
全体として、2つのアーキテクチャ、特にViTは、CNNモデルよりも堅牢である。
おもちゃの例を用いて、cnnの逆ロバスト性がシフト不変性によって部分的に引き起こされるという実証的な証拠を与える。
我々の周波数分析によると、最もロバストなViTアーキテクチャはCNNに比べて低周波機能に依存しやすい。
さらに,MLP-Mixerは普遍的逆境摂動に対して極めて脆弱であることが明らかとなった。
関連論文リスト
- Query-Efficient Hard-Label Black-Box Attack against Vision Transformers [9.086983253339069]
ビジョントランスフォーマー(ViT)は、ディープ畳み込みニューラルネットワーク(CNN)として敵対的攻撃から同様のセキュリティリスクに直面している
本稿では,ブラックボックスシナリオ下での敵攻撃に対するViTsの脆弱性について検討する。
本稿では,AdvViTと呼ばれる新しいクエリ効率の高いハードラベル逆攻撃手法を提案する。
論文 参考訳(メタデータ) (2024-06-29T10:09:12Z) - Evaluating Adversarial Robustness in the Spatial Frequency Domain [13.200404022208858]
畳み込みニューラルネットワーク(CNN)は、コンピュータビジョンタスクの大部分を占めてきた。
敵攻撃に対するCNNの脆弱性は、これらのモデルを安全クリティカルなアプリケーションにデプロイすることを懸念している。
本稿では,周波数領域におけるCNNモデルの脆弱性を探索する実験的検討を行う。
論文 参考訳(メタデータ) (2024-05-10T09:20:47Z) - Robust Mixture-of-Expert Training for Convolutional Neural Networks [141.3531209949845]
スパースゲート型Mixture of Expert (MoE) は高精度で超効率的なモデル推論を実現するための大きな可能性を実証している。
本稿では、AdvMoEと呼ばれるMoEのための新しいルータ-エキスパート交互学習フレームワークを提案する。
その結果,AdvMoEは従来の高密度CNNに比べて1%の対向ロバスト性向上を実現し,親和性に富むMoEの有効性を享受できることがわかった。
論文 参考訳(メタデータ) (2023-08-19T20:58:21Z) - Self-Ensembling Vision Transformer (SEViT) for Robust Medical Image
Classification [4.843654097048771]
ビジョントランスフォーマー(ViT)は、医療画像における様々なコンピュータビジョンタスクのために、畳み込みニューラルネットワーク(CNN)を置き換えるために競合している。
近年の研究では、ViTsはそのような攻撃の影響を受けやすく、攻撃下での大幅な性能劣化が報告されている。
本稿では,対戦型攻撃の存在下でのViTの堅牢性を高めるための,新たな自己認識手法を提案する。
論文 参考訳(メタデータ) (2022-08-04T19:02:24Z) - An Impartial Take to the CNN vs Transformer Robustness Contest [89.97450887997925]
最近の最先端のCNNは、現在の最先端のトランスフォーマーよりも堅牢で信頼性があり、時には高くなることがある。
ある建築群が他の建築群よりも圧倒的に優越する傾向にあるが、それらは様々なタスクにおいて同様の並外れたパフォーマンスを享受しているようである。
論文 参考訳(メタデータ) (2022-07-22T21:34:37Z) - Patch-Fool: Are Vision Transformers Always Robust Against Adversarial
Perturbations? [21.32962679185015]
ビジョントランスフォーマー(ViT)は、ビジョンタスクにおける記録的なパフォーマンスのおかげで、ニューラルアーキテクチャ設計の新しい波を最近開始した。
最近の研究によると、ViTsは畳み込みニューラルネットワーク(CNN)と比較して敵の攻撃に対してより堅牢である。
本稿では,Patch-Foolと呼ばれる攻撃フレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-16T04:45:59Z) - Neural Architecture Dilation for Adversarial Robustness [56.18555072877193]
畳み込みニューラルネットワークの欠点は、敵の攻撃に弱いことである。
本稿では, 良好な精度を有する背骨CNNの対角的堅牢性を向上させることを目的とする。
最小限の計算オーバーヘッドの下では、拡張アーキテクチャはバックボーンCNNの標準的な性能と親和性が期待できる。
論文 参考訳(メタデータ) (2021-08-16T03:58:00Z) - On the Adversarial Robustness of Visual Transformers [129.29523847765952]
本研究は、視覚変換器(ViT)の対逆的摂動に対する堅牢性に関する最初の包括的な研究を提供する。
さまざまなホワイトボックスとトランスファーアタック設定でテストされた ViT は、畳み込みニューラルネットワーク (CNN) と比較して、より優れた敵対的堅牢性を持っています。
論文 参考訳(メタデータ) (2021-03-29T14:48:24Z) - Extreme Value Preserving Networks [65.2037926048262]
最近の証拠は、畳み込みニューラルネットワーク(CNN)がテクスチャに偏りがあることを示しており、CNNはテクスチャに逆らう摂動に対して損なわれない。
本稿では,SIFTの優れた特性を活用してCNNアーキテクチャを改良し,精度と堅牢性を向上させることを目的とする。
論文 参考訳(メタデータ) (2020-11-17T02:06:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。