論文の概要: Patch-Fool: Are Vision Transformers Always Robust Against Adversarial Perturbations?
- arxiv url: http://arxiv.org/abs/2203.08392v3
- Date: Sat, 04 Jan 2025 03:37:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-07 17:03:29.946084
- Title: Patch-Fool: Are Vision Transformers Always Robust Against Adversarial Perturbations?
- Title(参考訳): Patch-Fool:ビジョントランスフォーマーは、常に敵の摂動に対してロバストか?
- Authors: Yonggan Fu, Shunyao Zhang, Shang Wu, Cheng Wan, Yingyan Celine Lin,
- Abstract要約: ビジョントランスフォーマー(ViT)は、ビジョンタスクにおける記録的なパフォーマンスのおかげで、ニューラルアーキテクチャ設計の新しい波を最近開始した。
最近の研究によると、ViTsは畳み込みニューラルネットワーク(CNN)と比較して敵の攻撃に対してより堅牢である。
本稿では,Patch-Foolと呼ばれる攻撃フレームワークを提案する。
- 参考スコア(独自算出の注目度): 15.977659730037994
- License:
- Abstract: Vision transformers (ViTs) have recently set off a new wave in neural architecture design thanks to their record-breaking performance in various vision tasks. In parallel, to fulfill the goal of deploying ViTs into real-world vision applications, their robustness against potential malicious attacks has gained increasing attention. In particular, recent works show that ViTs are more robust against adversarial attacks as compared with convolutional neural networks (CNNs), and conjecture that this is because ViTs focus more on capturing global interactions among different input/feature patches, leading to their improved robustness to local perturbations imposed by adversarial attacks. In this work, we ask an intriguing question: "Under what kinds of perturbations do ViTs become more vulnerable learners compared to CNNs?" Driven by this question, we first conduct a comprehensive experiment regarding the robustness of both ViTs and CNNs under various existing adversarial attacks to understand the underlying reason favoring their robustness. Based on the drawn insights, we then propose a dedicated attack framework, dubbed Patch-Fool, that fools the self-attention mechanism by attacking its basic component (i.e., a single patch) with a series of attention-aware optimization techniques. Interestingly, our Patch-Fool framework shows for the first time that ViTs are not necessarily more robust than CNNs against adversarial perturbations. In particular, we find that ViTs are more vulnerable learners compared with CNNs against our Patch-Fool attack which is consistent across extensive experiments, and the observations from Sparse/Mild Patch-Fool, two variants of Patch-Fool, indicate an intriguing insight that the perturbation density and strength on each patch seem to be the key factors that influence the robustness ranking between ViTs and CNNs.
- Abstract(参考訳): ビジョントランスフォーマー(ViT)は、さまざまなビジョンタスクにおける記録的なパフォーマンスのおかげで、ニューラルアーキテクチャ設計の新しい波を最近開始した。
並行して、現実世界の視覚アプリケーションにViTをデプロイするという目標を達成するために、悪意のある攻撃に対する堅牢性は注目を集めている。
特に最近の研究では、ViTsは畳み込みニューラルネットワーク(CNN)と比較して敵の攻撃に対してより堅牢であることが示されており、これはViTsが異なる入力/機能パッチ間のグローバルな相互作用を捉えることに重点を置いており、敵の攻撃によって課される局所的摂動に対するロバスト性が向上しているためである、と推測されている。
この研究で、我々は興味深い質問をする:「どんな摂動が、CNNよりも脆弱な学習者になるのか?
この質問によって、我々はまず、VTとCNNの両方のロバスト性に関する総合的な実験を行い、そのロバスト性を支持する根底にある理由を理解する。
抽出された知見に基づいて、我々はPatch-Foolと呼ばれる専用のアタックフレームワークを提案する。これは、基本的なコンポーネント(つまり、単一のパッチ)を一連の注意を意識した最適化手法で攻撃することで、自己注意機構を騙す。
興味深いことに、当社のPatch-Foolフレームワークは、ViTがCNNよりも敵の摂動に対して堅牢であるとは限らないことを初めて示しています。
特に、大規模な実験で一致したPatch-Fool攻撃に対するCNNと比較して、ViTsはより脆弱な学習者であり、Patch-Foolの2つの変種であるSparse/Mild Patch-Foolからの観察から、各パッチの摂動密度と強度が、ViTsとCNN間のロバスト性ランキングに影響を与える重要な要因であることがわかる。
関連論文リスト
- Query-Efficient Hard-Label Black-Box Attack against Vision Transformers [9.086983253339069]
ビジョントランスフォーマー(ViT)は、ディープ畳み込みニューラルネットワーク(CNN)として敵対的攻撃から同様のセキュリティリスクに直面している
本稿では,ブラックボックスシナリオ下での敵攻撃に対するViTsの脆弱性について検討する。
本稿では,AdvViTと呼ばれる新しいクエリ効率の高いハードラベル逆攻撃手法を提案する。
論文 参考訳(メタデータ) (2024-06-29T10:09:12Z) - Defending Backdoor Attacks on Vision Transformer via Patch Processing [18.50522247164383]
ViT(Vision Transformers)は、畳み込みニューラルネットワークよりもはるかに少ない帰納バイアスを持つ、根本的に異なるアーキテクチャである。
本稿では,バックドア攻撃(バックドア攻撃)の代表的因果攻撃について検討する。
本稿では,パッチベースとブレンディングベースの両方で,パッチ処理によるバックドア攻撃を効果的に防御する手法を提案する。
論文 参考訳(メタデータ) (2022-06-24T17:29:47Z) - Deeper Insights into ViTs Robustness towards Common Corruptions [82.79764218627558]
我々は、CNNのようなアーキテクチャ設計とCNNベースのデータ拡張戦略が、一般的な汚職に対するViTsの堅牢性にどのように影響するかを検討する。
重なり合うパッチ埋め込みと畳み込みフィードフォワードネットワーク(FFN)がロバスト性の向上を実証する。
また、2つの角度から入力値の増大を可能にする新しい条件付き手法も導入する。
論文 参考訳(メタデータ) (2022-04-26T08:22:34Z) - Self-slimmed Vision Transformer [52.67243496139175]
視覚変換器(ViT)は、様々な視覚タスクにおいて一般的な構造となり、CNN(Creative Convolutional Neural Network)よりも優れています。
本稿では,バニラVT,すなわちSiTに対する汎用的な自己スリム学習手法を提案する。
具体的には、まず、ViTの推論効率を向上させる新しいToken Slimming Module (TSM) を設計する。
論文 参考訳(メタデータ) (2021-11-24T16:48:57Z) - Are Vision Transformers Robust to Patch Perturbations? [18.491213370656855]
パッチワイド摂動に対する視覚変換器の堅牢性について検討する。
自然劣化パッチに対するViTの強い堅牢性と、敵パッチに対する高い脆弱性は、どちらも注意機構によって引き起こされる。
論文 参考訳(メタデータ) (2021-11-20T19:00:51Z) - Adversarial Robustness Comparison of Vision Transformer and MLP-Mixer to
CNNs [71.44985408214431]
畳み込みニューラルネットワーク(CNN)は、コンピュータビジョンアプリケーションにおいて事実上のゴールドスタンダードとなっている。
現状に挑戦する新しいモデルアーキテクチャが提案されている。
論文 参考訳(メタデータ) (2021-10-06T14:18:47Z) - Towards Transferable Adversarial Attacks on Vision Transformers [110.55845478440807]
視覚変換器(ViT)は、コンピュータビジョンの一連のタスクにおいて印象的なパフォーマンスを示してきたが、それでも敵の例に悩まされている。
本稿では、PNA攻撃とPatchOut攻撃を含むデュアルアタックフレームワークを導入し、異なるViT間での対向サンプルの転送性を改善する。
論文 参考訳(メタデータ) (2021-09-09T11:28:25Z) - On Improving Adversarial Transferability of Vision Transformers [97.17154635766578]
視覚変換器(ViT)は、入力画像を、自己注意によるパッチのシーケンスとして処理する。
本稿では,ViTモデルの対角的特徴空間とその伝達性について検討する。
本稿では,ViTモデルのアーキテクチャに特有な2つの新しい戦略を紹介する。
論文 参考訳(メタデータ) (2021-06-08T08:20:38Z) - Reveal of Vision Transformers Robustness against Adversarial Attacks [13.985121520800215]
この研究は、CNNと比較して異なる$L_p$ベースの敵攻撃に対するViT変異の堅牢性について研究する。
我々は,バニラ ViT やハイブリッド-ViT が CNN よりも堅牢であることを明らかにする分析を行った。
論文 参考訳(メタデータ) (2021-06-07T15:59:49Z) - On the Adversarial Robustness of Visual Transformers [129.29523847765952]
本研究は、視覚変換器(ViT)の対逆的摂動に対する堅牢性に関する最初の包括的な研究を提供する。
さまざまなホワイトボックスとトランスファーアタック設定でテストされた ViT は、畳み込みニューラルネットワーク (CNN) と比較して、より優れた敵対的堅牢性を持っています。
論文 参考訳(メタデータ) (2021-03-29T14:48:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。