論文の概要: Understanding Adversarial Robustness of Vision Transformers via Cauchy
Problem
- arxiv url: http://arxiv.org/abs/2208.00906v1
- Date: Mon, 1 Aug 2022 14:50:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-02 13:11:15.473547
- Title: Understanding Adversarial Robustness of Vision Transformers via Cauchy
Problem
- Title(参考訳): コーシー問題による視覚トランスフォーマーの逆ロバスト性理解
- Authors: Zheng Wang and Wenjie Ruan
- Abstract要約: 視覚変換器(ViT)は、いくつかの摂動の下で畳み込みニューラルネットワーク(CNN)を超える。
本稿では,ViTのロバスト性を調べるための原理的・統一的な理論枠組みを提案する。
- 参考スコア(独自算出の注目度): 15.033609196411517
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent research on the robustness of deep learning has shown that Vision
Transformers (ViTs) surpass the Convolutional Neural Networks (CNNs) under some
perturbations, e.g., natural corruption, adversarial attacks, etc. Some papers
argue that the superior robustness of ViT comes from the segmentation of its
input images; others say that the Multi-head Self-Attention (MSA) is the key to
preserving the robustness. In this paper, we aim to introduce a principled and
unified theoretical framework to investigate such an argument on ViT's
robustness. We first theoretically prove that, unlike Transformers in Natural
Language Processing, ViTs are Lipschitz continuous. Then we theoretically
analyze the adversarial robustness of ViTs from the perspective of the Cauchy
Problem, via which we can quantify how the robustness propagates through
layers. We demonstrate that the first and last layers are the critical factors
to affect the robustness of ViTs. Furthermore, based on our theory, we
empirically show that unlike the claims from existing research, MSA only
contributes to the adversarial robustness of ViTs under weak adversarial
attacks, e.g., FGSM, and surprisingly, MSA actually comprises the model's
adversarial robustness under stronger attacks, e.g., PGD attacks.
- Abstract(参考訳): 近年のディープラーニングのロバスト性に関する研究では、視覚変換器(ViT)が、自然破壊や敵攻撃などの摂動の下で、畳み込みニューラルネットワーク(CNN)を超越していることが示されている。
一部の論文では、ViTの優れたロバスト性は入力画像のセグメンテーションに由来すると主張しているが、Multi-head Self-Attention (MSA) がロバスト性を維持する鍵であると主張する者もいる。
本稿では,vitのロバスト性に関する議論を調査するために,原理的かつ統一的な理論的枠組みを提案する。
まず、自然言語処理におけるトランスフォーマーとは異なり、ViTsがLipschitz連続であることを証明する。
次に、コーシー問題の観点から、理論的にViTの対角的ロバスト性を分析し、このロバスト性がどのように層を通して伝播するかを定量化する。
第一層と最後の層がvitのロバスト性に影響を与える重要な要因であることを実証する。
さらに,本理論に基づき,msaは,既存研究の主張と異なり,fgsmなどの弱い攻撃下でのvitsの敵対的堅牢性にのみ寄与すること,そして驚くべきことに,msaは実際には強力な攻撃(pgd攻撃など)の下で,モデルの敵対的強固性を構成すること,等を実証的に示す。
関連論文リスト
- MIMIR: Masked Image Modeling for Mutual Information-based Adversarial Robustness [31.603115393528746]
堅牢なビジョントランスフォーマー(ViTs)の構築は、専用のAdversarial Training(AT)戦略に大きく依存している。
自動エンコーダに基づく自己教師型事前学習における理論的相互情報(MI)解析について述べる。
マスク付きオートエンコーダを用いたMIMIRを提案する。
論文 参考訳(メタデータ) (2023-12-08T10:50:02Z) - Improving Interpretation Faithfulness for Vision Transformers [42.86486715574245]
ビジョントランスフォーマー(ViT)は、様々なビジョンタスクに対して最先端のパフォーマンスを達成した。
ViTは、彼らの焦点が敵の攻撃に対して脆弱であるため、説明の忠実さに関する問題に悩まされる。
本稿では、Fithful ViTs(FViTs)を導入してこれらの問題を緩和するための厳格なアプローチを提案する。
論文 参考訳(メタデータ) (2023-11-29T18:51:21Z) - Self-Ensembling Vision Transformer (SEViT) for Robust Medical Image
Classification [4.843654097048771]
ビジョントランスフォーマー(ViT)は、医療画像における様々なコンピュータビジョンタスクのために、畳み込みニューラルネットワーク(CNN)を置き換えるために競合している。
近年の研究では、ViTsはそのような攻撃の影響を受けやすく、攻撃下での大幅な性能劣化が報告されている。
本稿では,対戦型攻撃の存在下でのViTの堅牢性を高めるための,新たな自己認識手法を提案する。
論文 参考訳(メタデータ) (2022-08-04T19:02:24Z) - Deeper Insights into ViTs Robustness towards Common Corruptions [82.79764218627558]
我々は、CNNのようなアーキテクチャ設計とCNNベースのデータ拡張戦略が、一般的な汚職に対するViTsの堅牢性にどのように影響するかを検討する。
重なり合うパッチ埋め込みと畳み込みフィードフォワードネットワーク(FFN)がロバスト性の向上を実証する。
また、2つの角度から入力値の増大を可能にする新しい条件付き手法も導入する。
論文 参考訳(メタデータ) (2022-04-26T08:22:34Z) - Patch-Fool: Are Vision Transformers Always Robust Against Adversarial
Perturbations? [21.32962679185015]
ビジョントランスフォーマー(ViT)は、ビジョンタスクにおける記録的なパフォーマンスのおかげで、ニューラルアーキテクチャ設計の新しい波を最近開始した。
最近の研究によると、ViTsは畳み込みニューラルネットワーク(CNN)と比較して敵の攻撃に対してより堅牢である。
本稿では,Patch-Foolと呼ばれる攻撃フレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-16T04:45:59Z) - Towards Transferable Adversarial Attacks on Vision Transformers [110.55845478440807]
視覚変換器(ViT)は、コンピュータビジョンの一連のタスクにおいて印象的なパフォーマンスを示してきたが、それでも敵の例に悩まされている。
本稿では、PNA攻撃とPatchOut攻撃を含むデュアルアタックフレームワークを導入し、異なるViT間での対向サンプルの転送性を改善する。
論文 参考訳(メタデータ) (2021-09-09T11:28:25Z) - Policy Smoothing for Provably Robust Reinforcement Learning [109.90239627115336]
入力のノルム有界対向摂動に対する強化学習の証明可能な堅牢性について検討する。
我々は、スムーズなポリシーによって得られる全報酬が、入力の摂動のノルムバウンドな逆数の下で一定の閾値以下に収まらないことを保証した証明書を生成する。
論文 参考訳(メタデータ) (2021-06-21T21:42:08Z) - Adversarial Visual Robustness by Causal Intervention [56.766342028800445]
敵の訓練は、敵の例に対する事実上最も有望な防御である。
しかし、その受動性は必然的に未知の攻撃者への免疫を妨げる。
我々は、敵対的脆弱性の因果的視点を提供する: 原因は、学習に普遍的に存在する共同創設者である。
論文 参考訳(メタデータ) (2021-06-17T14:23:54Z) - On Improving Adversarial Transferability of Vision Transformers [97.17154635766578]
視覚変換器(ViT)は、入力画像を、自己注意によるパッチのシーケンスとして処理する。
本稿では,ViTモデルの対角的特徴空間とその伝達性について検討する。
本稿では,ViTモデルのアーキテクチャに特有な2つの新しい戦略を紹介する。
論文 参考訳(メタデータ) (2021-06-08T08:20:38Z) - On the Adversarial Robustness of Visual Transformers [129.29523847765952]
本研究は、視覚変換器(ViT)の対逆的摂動に対する堅牢性に関する最初の包括的な研究を提供する。
さまざまなホワイトボックスとトランスファーアタック設定でテストされた ViT は、畳み込みニューラルネットワーク (CNN) と比較して、より優れた敵対的堅牢性を持っています。
論文 参考訳(メタデータ) (2021-03-29T14:48:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。