論文の概要: Patch-Fool: Are Vision Transformers Always Robust Against Adversarial
Perturbations?
- arxiv url: http://arxiv.org/abs/2203.08392v1
- Date: Wed, 16 Mar 2022 04:45:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-17 14:49:36.216159
- Title: Patch-Fool: Are Vision Transformers Always Robust Against Adversarial
Perturbations?
- Title(参考訳): Patch-Fool:ビジョントランスフォーマーは、常に敵の摂動に対してロバストか?
- Authors: Yonggan Fu, Shunyao Zhang, Shang Wu, Cheng Wan, Yingyan Lin
- Abstract要約: ビジョントランスフォーマー(ViT)は、ビジョンタスクにおける記録的なパフォーマンスのおかげで、ニューラルアーキテクチャ設計の新しい波を最近開始した。
最近の研究によると、ViTsは畳み込みニューラルネットワーク(CNN)と比較して敵の攻撃に対してより堅牢である。
本稿では,Patch-Foolと呼ばれる攻撃フレームワークを提案する。
- 参考スコア(独自算出の注目度): 21.32962679185015
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision transformers (ViTs) have recently set off a new wave in neural
architecture design thanks to their record-breaking performance in various
vision tasks. In parallel, to fulfill the goal of deploying ViTs into
real-world vision applications, their robustness against potential malicious
attacks has gained increasing attention. In particular, recent works show that
ViTs are more robust against adversarial attacks as compared with convolutional
neural networks (CNNs), and conjecture that this is because ViTs focus more on
capturing global interactions among different input/feature patches, leading to
their improved robustness to local perturbations imposed by adversarial
attacks. In this work, we ask an intriguing question: "Under what kinds of
perturbations do ViTs become more vulnerable learners compared to CNNs?" Driven
by this question, we first conduct a comprehensive experiment regarding the
robustness of both ViTs and CNNs under various existing adversarial attacks to
understand the underlying reason favoring their robustness. Based on the drawn
insights, we then propose a dedicated attack framework, dubbed Patch-Fool, that
fools the self-attention mechanism by attacking its basic component (i.e., a
single patch) with a series of attention-aware optimization techniques.
Interestingly, our Patch-Fool framework shows for the first time that ViTs are
not necessarily more robust than CNNs against adversarial perturbations. In
particular, we find that ViTs are more vulnerable learners compared with CNNs
against our Patch-Fool attack which is consistent across extensive experiments,
and the observations from Sparse/Mild Patch-Fool, two variants of Patch-Fool,
indicate an intriguing insight that the perturbation density and strength on
each patch seem to be the key factors that influence the robustness ranking
between ViTs and CNNs.
- Abstract(参考訳): ビジョントランスフォーマー(ViT)は、さまざまなビジョンタスクにおける記録的なパフォーマンスのおかげで、ニューラルアーキテクチャ設計の新しい波を最近開始した。
並行して、現実世界の視覚アプリケーションにViTをデプロイするという目標を達成するために、悪意のある攻撃に対する堅牢性は注目を集めている。
特に最近の研究では、ViTsは畳み込みニューラルネットワーク(CNN)と比較して敵の攻撃に対してより堅牢であることが示されており、これはViTsが異なる入力/機能パッチ間のグローバルな相互作用を捉えることに重点を置いており、敵の攻撃によって課される局所的摂動に対するロバスト性が向上しているためである、と推測されている。
この研究で、我々は興味深い質問をする:「どんな摂動が、CNNよりも脆弱な学習者になるのか?
この質問によって、我々はまず、VTとCNNの両方のロバスト性に関する総合的な実験を行い、そのロバスト性を支持する根底にある理由を理解する。
得られた知見に基づいて,注意を引いた一連の最適化手法を用いて,その基本コンポーネント(すなわち単一パッチ)を攻撃することにより自己着信機構を騙す,patch-foolと呼ばれる専用の攻撃フレームワークを提案する。
興味深いことに、当社のPatch-Foolフレームワークは、ViTがCNNよりも敵の摂動に対して堅牢であるとは限らないことを初めて示しています。
特に,広範囲な実験で一貫しているパッチフード攻撃に対するcnnと比較してvitは脆弱な学習者であり,パッチフードの2つの変種であるsparse/mild patch-foolによる観察は,各パッチに対する摂動密度と強度がvitsとcnnの間のロバストネスランキングに影響を与える重要な要因であると思われる。
関連論文リスト
- Query-Efficient Hard-Label Black-Box Attack against Vision Transformers [9.086983253339069]
ビジョントランスフォーマー(ViT)は、ディープ畳み込みニューラルネットワーク(CNN)として敵対的攻撃から同様のセキュリティリスクに直面している
本稿では,ブラックボックスシナリオ下での敵攻撃に対するViTsの脆弱性について検討する。
本稿では,AdvViTと呼ばれる新しいクエリ効率の高いハードラベル逆攻撃手法を提案する。
論文 参考訳(メタデータ) (2024-06-29T10:09:12Z) - Defending Backdoor Attacks on Vision Transformer via Patch Processing [18.50522247164383]
ViT(Vision Transformers)は、畳み込みニューラルネットワークよりもはるかに少ない帰納バイアスを持つ、根本的に異なるアーキテクチャである。
本稿では,バックドア攻撃(バックドア攻撃)の代表的因果攻撃について検討する。
本稿では,パッチベースとブレンディングベースの両方で,パッチ処理によるバックドア攻撃を効果的に防御する手法を提案する。
論文 参考訳(メタデータ) (2022-06-24T17:29:47Z) - Deeper Insights into ViTs Robustness towards Common Corruptions [82.79764218627558]
我々は、CNNのようなアーキテクチャ設計とCNNベースのデータ拡張戦略が、一般的な汚職に対するViTsの堅牢性にどのように影響するかを検討する。
重なり合うパッチ埋め込みと畳み込みフィードフォワードネットワーク(FFN)がロバスト性の向上を実証する。
また、2つの角度から入力値の増大を可能にする新しい条件付き手法も導入する。
論文 参考訳(メタデータ) (2022-04-26T08:22:34Z) - Self-slimmed Vision Transformer [52.67243496139175]
視覚変換器(ViT)は、様々な視覚タスクにおいて一般的な構造となり、CNN(Creative Convolutional Neural Network)よりも優れています。
本稿では,バニラVT,すなわちSiTに対する汎用的な自己スリム学習手法を提案する。
具体的には、まず、ViTの推論効率を向上させる新しいToken Slimming Module (TSM) を設計する。
論文 参考訳(メタデータ) (2021-11-24T16:48:57Z) - Are Vision Transformers Robust to Patch Perturbations? [18.491213370656855]
パッチワイド摂動に対する視覚変換器の堅牢性について検討する。
自然劣化パッチに対するViTの強い堅牢性と、敵パッチに対する高い脆弱性は、どちらも注意機構によって引き起こされる。
論文 参考訳(メタデータ) (2021-11-20T19:00:51Z) - Adversarial Robustness Comparison of Vision Transformer and MLP-Mixer to
CNNs [71.44985408214431]
畳み込みニューラルネットワーク(CNN)は、コンピュータビジョンアプリケーションにおいて事実上のゴールドスタンダードとなっている。
現状に挑戦する新しいモデルアーキテクチャが提案されている。
論文 参考訳(メタデータ) (2021-10-06T14:18:47Z) - Towards Transferable Adversarial Attacks on Vision Transformers [110.55845478440807]
視覚変換器(ViT)は、コンピュータビジョンの一連のタスクにおいて印象的なパフォーマンスを示してきたが、それでも敵の例に悩まされている。
本稿では、PNA攻撃とPatchOut攻撃を含むデュアルアタックフレームワークを導入し、異なるViT間での対向サンプルの転送性を改善する。
論文 参考訳(メタデータ) (2021-09-09T11:28:25Z) - On Improving Adversarial Transferability of Vision Transformers [97.17154635766578]
視覚変換器(ViT)は、入力画像を、自己注意によるパッチのシーケンスとして処理する。
本稿では,ViTモデルの対角的特徴空間とその伝達性について検討する。
本稿では,ViTモデルのアーキテクチャに特有な2つの新しい戦略を紹介する。
論文 参考訳(メタデータ) (2021-06-08T08:20:38Z) - Reveal of Vision Transformers Robustness against Adversarial Attacks [13.985121520800215]
この研究は、CNNと比較して異なる$L_p$ベースの敵攻撃に対するViT変異の堅牢性について研究する。
我々は,バニラ ViT やハイブリッド-ViT が CNN よりも堅牢であることを明らかにする分析を行った。
論文 参考訳(メタデータ) (2021-06-07T15:59:49Z) - On the Adversarial Robustness of Visual Transformers [129.29523847765952]
本研究は、視覚変換器(ViT)の対逆的摂動に対する堅牢性に関する最初の包括的な研究を提供する。
さまざまなホワイトボックスとトランスファーアタック設定でテストされた ViT は、畳み込みニューラルネットワーク (CNN) と比較して、より優れた敵対的堅牢性を持っています。
論文 参考訳(メタデータ) (2021-03-29T14:48:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。