論文の概要: Query-Efficient Hard-Label Black-Box Attack against Vision Transformers
- arxiv url: http://arxiv.org/abs/2407.00389v1
- Date: Sat, 29 Jun 2024 10:09:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 03:25:29.418072
- Title: Query-Efficient Hard-Label Black-Box Attack against Vision Transformers
- Title(参考訳): 問合せ効率の良いハードラベルブラックボックスによる視覚変換器攻撃
- Authors: Chao Zhou, Xiaowen Shi, Yuan-Gen Wang,
- Abstract要約: ビジョントランスフォーマー(ViT)は、ディープ畳み込みニューラルネットワーク(CNN)として敵対的攻撃から同様のセキュリティリスクに直面している
本稿では,ブラックボックスシナリオ下での敵攻撃に対するViTsの脆弱性について検討する。
本稿では,AdvViTと呼ばれる新しいクエリ効率の高いハードラベル逆攻撃手法を提案する。
- 参考スコア(独自算出の注目度): 9.086983253339069
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent studies have revealed that vision transformers (ViTs) face similar security risks from adversarial attacks as deep convolutional neural networks (CNNs). However, directly applying attack methodology on CNNs to ViTs has been demonstrated to be ineffective since the ViTs typically work on patch-wise encoding. This article explores the vulnerability of ViTs against adversarial attacks under a black-box scenario, and proposes a novel query-efficient hard-label adversarial attack method called AdvViT. Specifically, considering that ViTs are highly sensitive to patch modification, we propose to optimize the adversarial perturbation on the individual patches. To reduce the dimension of perturbation search space, we modify only a handful of low-frequency components of each patch. Moreover, we design a weight mask matrix for all patches to further optimize the perturbation on different regions of a whole image. We test six mainstream ViT backbones on the ImageNet-1k dataset. Experimental results show that compared with the state-of-the-art attacks on CNNs, our AdvViT achieves much lower $L_2$-norm distortion under the same query budget, sufficiently validating the vulnerability of ViTs against adversarial attacks.
- Abstract(参考訳): 近年の研究では、視覚トランスフォーマー(ViT)が、深い畳み込みニューラルネットワーク(CNN)として敵の攻撃から同様のセキュリティリスクに直面していることが明らかになっている。
しかし、ViTsはパッチワイドエンコーディングに一般的に取り組んでいるため、CNNの攻撃方法を直接ViTsに適用することは効果がないことが示されている。
本稿では、ブラックボックスシナリオ下での敵攻撃に対するViTsの脆弱性について検討し、AdvViTと呼ばれる新しいクエリ効率の高いハードラベル攻撃手法を提案する。
具体的には、ViTはパッチ修正に非常に敏感であるので、個々のパッチに対する対向的摂動を最適化することを提案する。
摂動探索空間の次元を小さくするため,各パッチの低周波成分のみを修正した。
さらに,全画像の異なる領域における摂動をさらに最適化するために,全パッチに対する重みマスク行列を設計する。
ImageNet-1kデータセット上で6つのメインストリームのViTバックボーンをテストする。
実験結果から,我々のAdvViTは,CNNに対する最先端攻撃と比較して,同じクエリ予算下ではるかに低いL_2$-norm歪みを達成し,敵攻撃に対するViTsの脆弱性を十分に検証した。
関連論文リスト
- ViTGuard: Attention-aware Detection against Adversarial Examples for Vision Transformer [8.71614629110101]
本稿では,視覚変換器(ViT)モデルを敵攻撃に対して防御するための一般的な検出方法として,ViTGuardを提案する。
ViTGuardはMasked Autoencoder(MAE)モデルを使用して、ランダムにマスキングされたパッチを非マッシュ領域から回収する。
しきい値に基づく検出器は、注意マップやトークン表現(トークン表現)の分類など、ViT特有の特徴を活用して、通常のサンプルと反対のサンプルを区別する。
論文 参考訳(メタデータ) (2024-09-20T18:11:56Z) - Downstream Transfer Attack: Adversarial Attacks on Downstream Models with Pre-trained Vision Transformers [95.22517830759193]
本稿では、事前訓練されたViTモデルから下流タスクへのこのような逆の脆弱性の伝達可能性について検討する。
DTAは攻撃成功率(ASR)が90%を超え、既存の手法をはるかに上回っていることを示す。
論文 参考訳(メタデータ) (2024-08-03T08:07:03Z) - Rethinking Hierarchicies in Pre-trained Plain Vision Transformer [76.35955924137986]
マスク付き画像モデリング(MIM)による自己教師付き事前学習型視覚変換器(ViT)は非常に効果的であることが証明されている。
カスタマイズされたアルゴリズムは、平易なViTのためにバニラと単純なMAEを使用する代わりに、例えばGreenMIMのような階層的なViTのために慎重に設計されるべきである。
本稿では,自己指導型事前学習から階層型アーキテクチャ設計を遠ざける新しいアイデアを提案する。
論文 参考訳(メタデータ) (2022-11-03T13:19:23Z) - Self-Ensembling Vision Transformer (SEViT) for Robust Medical Image
Classification [4.843654097048771]
ビジョントランスフォーマー(ViT)は、医療画像における様々なコンピュータビジョンタスクのために、畳み込みニューラルネットワーク(CNN)を置き換えるために競合している。
近年の研究では、ViTsはそのような攻撃の影響を受けやすく、攻撃下での大幅な性能劣化が報告されている。
本稿では,対戦型攻撃の存在下でのViTの堅牢性を高めるための,新たな自己認識手法を提案する。
論文 参考訳(メタデータ) (2022-08-04T19:02:24Z) - Defending Backdoor Attacks on Vision Transformer via Patch Processing [18.50522247164383]
ViT(Vision Transformers)は、畳み込みニューラルネットワークよりもはるかに少ない帰納バイアスを持つ、根本的に異なるアーキテクチャである。
本稿では,バックドア攻撃(バックドア攻撃)の代表的因果攻撃について検討する。
本稿では,パッチベースとブレンディングベースの両方で,パッチ処理によるバックドア攻撃を効果的に防御する手法を提案する。
論文 参考訳(メタデータ) (2022-06-24T17:29:47Z) - Deeper Insights into ViTs Robustness towards Common Corruptions [82.79764218627558]
我々は、CNNのようなアーキテクチャ設計とCNNベースのデータ拡張戦略が、一般的な汚職に対するViTsの堅牢性にどのように影響するかを検討する。
重なり合うパッチ埋め込みと畳み込みフィードフォワードネットワーク(FFN)がロバスト性の向上を実証する。
また、2つの角度から入力値の増大を可能にする新しい条件付き手法も導入する。
論文 参考訳(メタデータ) (2022-04-26T08:22:34Z) - Patch-Fool: Are Vision Transformers Always Robust Against Adversarial
Perturbations? [21.32962679185015]
ビジョントランスフォーマー(ViT)は、ビジョンタスクにおける記録的なパフォーマンスのおかげで、ニューラルアーキテクチャ設計の新しい波を最近開始した。
最近の研究によると、ViTsは畳み込みニューラルネットワーク(CNN)と比較して敵の攻撃に対してより堅牢である。
本稿では,Patch-Foolと呼ばれる攻撃フレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-16T04:45:59Z) - Anti-Oversmoothing in Deep Vision Transformers via the Fourier Domain
Analysis: From Theory to Practice [111.47461527901318]
Vision Transformer (ViT) は先日,コンピュータビジョン問題における有望性を実証した。
ViTは観察された注意崩壊やパッチの均一性のために、深さが増加するにつれて急速に飽和する。
所望の低域制限を緩和する2つの手法を提案する。
論文 参考訳(メタデータ) (2022-03-09T23:55:24Z) - Towards Transferable Adversarial Attacks on Vision Transformers [110.55845478440807]
視覚変換器(ViT)は、コンピュータビジョンの一連のタスクにおいて印象的なパフォーマンスを示してきたが、それでも敵の例に悩まされている。
本稿では、PNA攻撃とPatchOut攻撃を含むデュアルアタックフレームワークを導入し、異なるViT間での対向サンプルの転送性を改善する。
論文 参考訳(メタデータ) (2021-09-09T11:28:25Z) - On Improving Adversarial Transferability of Vision Transformers [97.17154635766578]
視覚変換器(ViT)は、入力画像を、自己注意によるパッチのシーケンスとして処理する。
本稿では,ViTモデルの対角的特徴空間とその伝達性について検討する。
本稿では,ViTモデルのアーキテクチャに特有な2つの新しい戦略を紹介する。
論文 参考訳(メタデータ) (2021-06-08T08:20:38Z) - Reveal of Vision Transformers Robustness against Adversarial Attacks [13.985121520800215]
この研究は、CNNと比較して異なる$L_p$ベースの敵攻撃に対するViT変異の堅牢性について研究する。
我々は,バニラ ViT やハイブリッド-ViT が CNN よりも堅牢であることを明らかにする分析を行った。
論文 参考訳(メタデータ) (2021-06-07T15:59:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。