論文の概要: On Improving Adversarial Transferability of Vision Transformers
- arxiv url: http://arxiv.org/abs/2106.04169v1
- Date: Tue, 8 Jun 2021 08:20:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-09 16:23:18.680346
- Title: On Improving Adversarial Transferability of Vision Transformers
- Title(参考訳): 視覚トランスフォーマの逆転写性向上について
- Authors: Muzammal Naseer, Kanchana Ranasinghe, Salman Khan, Fahad Shahbaz Khan,
Fatih Porikli
- Abstract要約: 視覚変換器(ViT)は、入力画像を、自己注意によるパッチのシーケンスとして処理する。
本稿では,ViTモデルの対角的特徴空間とその伝達性について検討する。
本稿では,ViTモデルのアーキテクチャに特有な2つの新しい戦略を紹介する。
- 参考スコア(独自算出の注目度): 97.17154635766578
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision transformers (ViTs) process input images as sequences of patches via
self-attention; a radically different architecture than convolutional neural
networks (CNNs). This makes it interesting to study the adversarial feature
space of ViT models and their transferability. In particular, we observe that
adversarial patterns found via conventional adversarial attacks show very low
black-box transferability even for large ViT models. However, we show that this
phenomenon is only due to the sub-optimal attack procedures that do not
leverage the true representation potential of ViTs. A deep ViT is composed of
multiple blocks, with a consistent architecture comprising of self-attention
and feed-forward layers, where each block is capable of independently producing
a class token. Formulating an attack using only the last class token
(conventional approach) does not directly leverage the discriminative
information stored in the earlier tokens, leading to poor adversarial
transferability of ViTs. Using the compositional nature of ViT models, we
enhance the transferability of existing attacks by introducing two novel
strategies specific to the architecture of ViT models. (i) Self-Ensemble: We
propose a method to find multiple discriminative pathways by dissecting a
single ViT model into an ensemble of networks. This allows explicitly utilizing
class-specific information at each ViT block. (ii) Token Refinement: We then
propose to refine the tokens to further enhance the discriminative capacity at
each block of ViT. Our token refinement systematically combines the class
tokens with structural information preserved within the patch tokens. An
adversarial attack, when applied to such refined tokens within the ensemble of
classifiers found in a single vision transformer, has significantly higher
transferability.
- Abstract(参考訳): vision transformers (vits) は入力画像を自己アテンションを通じてパッチのシーケンスとして処理する;畳み込みニューラルネットワーク (cnns) とは根本的に異なるアーキテクチャである。
これにより、ViTモデルの対角的特徴空間とその伝達可能性の研究が興味深い。
特に,従来の逆行攻撃による逆行パターンは,大規模なViTモデルにおいても非常に低いブラックボックス転送性を示す。
しかし,この現象は, ViTsの真の表現ポテンシャルを生かしていない準最適攻撃法に起因していることが示唆された。
ディープViTは複数のブロックで構成されており、各ブロックが独立してクラストークンを生成することができるセルフアテンション層とフィードフォワード層からなる一貫したアーキテクチャである。
最後のクラストークン(従来のアプローチ)のみを用いた攻撃の定式化は、以前のトークンに格納された識別情報を直接利用しないため、ViTの逆転性が低い。
本稿では,ViTモデルの構成特性を用いて,ViTモデルのアーキテクチャに特有の2つの新しい戦略を導入することにより,既存の攻撃の伝達可能性を高める。
(i)Self-Ensemble: 単一のViTモデルをネットワークのアンサンブルに分割することで、複数の識別経路を見つける方法を提案する。
これにより、各ViTブロックでクラス固有の情報を明示的に活用することができる。
(二)トークン精錬:ViTの各ブロックにおける識別能力をさらに強化するためにトークンを改良することを提案する。
我々のトークンリファインメントは、クラストークンとパッチトークン内に保持される構造情報とを体系的に結合します。
対向攻撃は、単一の視覚変換器で見られる分類器のアンサンブル内でそのような洗練されたトークンに適用した場合、転送可能性を大幅に向上させる。
関連論文リスト
- Attacking Transformers with Feature Diversity Adversarial Perturbation [19.597912600568026]
我々は,様々なブラックボックスモデルに対して強い伝達性を示すVTモデルに対して,ラベルフリーなホワイトボックス攻撃手法を提案する。
我々のインスピレーションは、ViTsにおける機能崩壊現象から来ており、重要な注意機構は機能の低周波成分に依存する。
論文 参考訳(メタデータ) (2024-03-10T00:55:58Z) - Multi-Attribute Vision Transformers are Efficient and Robust Learners [4.53923275658276]
畳み込みニューラルネットワーク(CNN)の代替として、視覚変換器(ViT)が登場した。
異なるタスクとして1つのViTネットワークを介して、様々な属性をトレーニングするための、単純かつ効果的な戦略を提案する。
対戦型攻撃に対する多属性ViTのレジリエンスを評価し,その性能を単一属性に設計したViTと比較した。
論文 参考訳(メタデータ) (2024-02-12T21:31:13Z) - Self-Ensembling Vision Transformer (SEViT) for Robust Medical Image
Classification [4.843654097048771]
ビジョントランスフォーマー(ViT)は、医療画像における様々なコンピュータビジョンタスクのために、畳み込みニューラルネットワーク(CNN)を置き換えるために競合している。
近年の研究では、ViTsはそのような攻撃の影響を受けやすく、攻撃下での大幅な性能劣化が報告されている。
本稿では,対戦型攻撃の存在下でのViTの堅牢性を高めるための,新たな自己認識手法を提案する。
論文 参考訳(メタデータ) (2022-08-04T19:02:24Z) - Improving the Transferability of Adversarial Examples with Restructure
Embedded Patches [4.476012751070559]
入力の組込みパッチを再構築することにより、ViTのユニークな自己保持機構を攻撃する。
提案手法は, 転送性が高く, 画質が向上したWhite-box ViTの逆例を生成する。
論文 参考訳(メタデータ) (2022-04-27T03:22:55Z) - Self-Promoted Supervision for Few-Shot Transformer [178.52948452353834]
SUN(Self-promoted sUpervisioN)は視覚変換器(ViT)のための数発の学習フレームワークである
SUNは、数ショットの学習データセットでViTを事前トレーニングし、各パッチトークンを導くために、個別のロケーション固有の監視を生成する。
実験によると、ViTを使ったSUNは、ViTを使った他の数発の学習フレームワークを大幅に上回っており、CNNの最先端技術よりも高いパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-03-14T12:53:27Z) - Self-slimmed Vision Transformer [52.67243496139175]
視覚変換器(ViT)は、様々な視覚タスクにおいて一般的な構造となり、CNN(Creative Convolutional Neural Network)よりも優れています。
本稿では,バニラVT,すなわちSiTに対する汎用的な自己スリム学習手法を提案する。
具体的には、まず、ViTの推論効率を向上させる新しいToken Slimming Module (TSM) を設計する。
論文 参考訳(メタデータ) (2021-11-24T16:48:57Z) - Towards Transferable Adversarial Attacks on Vision Transformers [110.55845478440807]
視覚変換器(ViT)は、コンピュータビジョンの一連のタスクにおいて印象的なパフォーマンスを示してきたが、それでも敵の例に悩まされている。
本稿では、PNA攻撃とPatchOut攻撃を含むデュアルアタックフレームワークを導入し、異なるViT間での対向サンプルの転送性を改善する。
論文 参考訳(メタデータ) (2021-09-09T11:28:25Z) - Intriguing Properties of Vision Transformers [114.28522466830374]
視覚変換器(ViT)は、様々なマシンビジョン問題にまたがって印象的な性能を誇示している。
我々は、この問題を広範囲の実験を通して体系的に研究し、高性能畳み込みニューラルネットワーク(CNN)との比較を行った。
ViTsの効果的な特徴は、自己認識機構によって可能なフレキシブルな受容と動的場によるものであることを示す。
論文 参考訳(メタデータ) (2021-05-21T17:59:18Z) - On the Adversarial Robustness of Visual Transformers [129.29523847765952]
本研究は、視覚変換器(ViT)の対逆的摂動に対する堅牢性に関する最初の包括的な研究を提供する。
さまざまなホワイトボックスとトランスファーアタック設定でテストされた ViT は、畳み込みニューラルネットワーク (CNN) と比較して、より優れた敵対的堅牢性を持っています。
論文 参考訳(メタデータ) (2021-03-29T14:48:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。