論文の概要: On the Robustness of Vision Transformers to Adversarial Examples
- arxiv url: http://arxiv.org/abs/2104.02610v2
- Date: Sat, 5 Jun 2021 00:31:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-06 00:15:31.436697
- Title: On the Robustness of Vision Transformers to Adversarial Examples
- Title(参考訳): 可逆例に対する視覚トランスフォーマーのロバスト性について
- Authors: Kaleel Mahmood, Rigel Mahmood, Marten van Dijk
- Abstract要約: 視覚変換器のロバスト性について, 逆例を用いて検討する。
我々は,CNNとトランスフォーマーの相互変換が困難であることを示す。
ブラックボックスの敵の下では、クリーンな精度を犠牲にすることなく、アンサンブルが前例のない堅牢性を達成できることが示される。
- 参考スコア(独自算出の注目度): 7.627299398469961
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in attention-based networks have shown that Vision
Transformers can achieve state-of-the-art or near state-of-the-art results on
many image classification tasks. This puts transformers in the unique position
of being a promising alternative to traditional convolutional neural networks
(CNNs). While CNNs have been carefully studied with respect to adversarial
attacks, the same cannot be said of Vision Transformers. In this paper, we
study the robustness of Vision Transformers to adversarial examples. Our
analyses of transformer security is divided into three parts. First, we test
the transformer under standard white-box and black-box attacks. Second, we
study the transferability of adversarial examples between CNNs and
transformers. We show that adversarial examples do not readily transfer between
CNNs and transformers. Based on this finding, we analyze the security of a
simple ensemble defense of CNNs and transformers. By creating a new attack, the
self-attention blended gradient attack, we show that such an ensemble is not
secure under a white-box adversary. However, under a black-box adversary, we
show that an ensemble can achieve unprecedented robustness without sacrificing
clean accuracy. Our analysis for this work is done using six types of white-box
attacks and two types of black-box attacks. Our study encompasses multiple
Vision Transformers, Big Transfer Models and CNN architectures trained on
CIFAR-10, CIFAR-100 and ImageNet.
- Abstract(参考訳): 注意に基づくネットワークの最近の進歩は、視覚変換器が多くの画像分類タスクにおいて最先端または最先端の成果を得ることができることを示している。
これにより、トランスフォーマーは、従来の畳み込みニューラルネットワーク(CNN)の代替として有望な位置にある。
CNNは敵の攻撃に関して慎重に研究されているが、視覚変換器についても同じことは言えない。
本稿では,視覚トランスフォーマーの可逆例に対するロバスト性について検討する。
変圧器のセキュリティに関する我々の分析は3つの部分に分けられる。
まず、標準のホワイトボックス攻撃とブラックボックス攻撃でトランスフォーマーをテストする。
第2に,CNNと変圧器の対向例の転送可能性について検討する。
我々は,CNNとトランスフォーマーの相互変換が困難であることを示す。
そこで本研究では,CNNとトランスフォーマーの単純なアンサンブルディフェンスのセキュリティを解析した。
新しい攻撃、自己注意混合勾配攻撃を発生させることにより、このようなアンサンブルが、ホワイトボックスの敵の下では安全でないことを示す。
しかし,ブラックボックスの敵の下では,クリーンな精度を犠牲にすることなくアンサンブルが前例のない堅牢性を達成できることが示されている。
本研究は,6種類のホワイトボックス攻撃と2種類のブラックボックス攻撃を用いて行った。
本研究は、CIFAR-10、CIFAR-100、ImageNetで訓練された複数の視覚変換器、Big Transfer Model、CNNアーキテクチャを含む。
関連論文リスト
- Hiera: A Hierarchical Vision Transformer without the Bells-and-Whistles [65.54857068975068]
本稿では、この追加のバルクは不要であると論じる。
強いビジュアル・プレテキスト・タスク(MAE)で事前トレーニングを行うことで、最先端の多段階視覚変換器から全てのベル・アンド・ウィストルを除去することができる。
Hieraは、非常に単純な階層型視覚変換器で、従来のモデルよりも正確です。
論文 参考訳(メタデータ) (2023-06-01T17:59:58Z) - On the Surprising Effectiveness of Transformers in Low-Labeled Video
Recognition [18.557920268145818]
ビデオビジョントランスフォーマーは、複数の視覚タスクにまたがる畳み込みベースの手法(CNN)と競合することが示されている。
我々の研究は、ビデオ分類の低データ体制を実証的に探求し、驚くべきことに、低ラベルの動画設定においてトランスフォーマーが極めてよく機能することを発見した。
ラベル付きデータのみを用いて、トランスフォーマーは大規模未ラベルデータも活用する複雑な半教師付きCNN法を著しく上回ることを示す。
論文 参考訳(メタデータ) (2022-09-15T17:12:30Z) - An Impartial Take to the CNN vs Transformer Robustness Contest [89.97450887997925]
最近の最先端のCNNは、現在の最先端のトランスフォーマーよりも堅牢で信頼性があり、時には高くなることがある。
ある建築群が他の建築群よりも圧倒的に優越する傾向にあるが、それらは様々なタスクにおいて同様の並外れたパフォーマンスを享受しているようである。
論文 参考訳(メタデータ) (2022-07-22T21:34:37Z) - Can CNNs Be More Robust Than Transformers? [29.615791409258804]
視覚変換器は10年間、画像認識における畳み込みニューラルネットワーク(CNN)の長い支配を揺るがしている。
最近の研究では、トランスフォーマーは、異なるトレーニング設定に関わらず、本質的にCNNよりも堅牢であることがわかった。
トランスフォーマーのこのような優位性は、それ自体が自己注意型アーキテクチャであると考えられる。
論文 参考訳(メタデータ) (2022-06-07T17:17:07Z) - Semi-Supervised Vision Transformers [76.83020291497895]
半教師付き画像分類のための視覚変換器の訓練について検討する。
半教師付き ImageNet 設定では,ビジョントランスフォーマーの性能が良くない。
CNNは小さなラベル付きデータ構造において優れた結果を得る。
論文 参考訳(メタデータ) (2021-11-22T09:28:13Z) - Are Transformers More Robust Than CNNs? [17.47001041042089]
トランスフォーマーとCNNの最初のフェア・イン・ディープス比較を提供する。
CNNは、敵の攻撃を防御するトランスフォーマーと同じくらい簡単に堅牢である。
我々の主張は、そのようなより強力な一般化はトランスフォーマーの自己注意型アーキテクチャに大きく恩恵を受けていることを示唆している。
論文 参考訳(メタデータ) (2021-11-10T00:18:59Z) - Can Vision Transformers Perform Convolution? [78.42076260340869]
画像パッチを入力とする単一のViT層が任意の畳み込み操作を構成的に実行可能であることを示す。
我々は、CNNを表現するビジョントランスフォーマーのヘッド数を低くする。
論文 参考訳(メタデータ) (2021-11-02T03:30:17Z) - Investigating Transfer Learning Capabilities of Vision Transformers and
CNNs by Fine-Tuning a Single Trainable Block [0.0]
トランスフォーマーベースのアーキテクチャは、CNNアーキテクチャによる最先端のセットを精度で上回っているが、スクラッチからトレーニングするには計算コストが非常に高い。
転送学習能力について検討し、CNNと比較し、小型データを用いた実世界の問題に適用した場合に、どのアーキテクチャが優れているかを理解する。
変換器をベースとしたアーキテクチャは,CNNよりも高い精度を実現するだけでなく,パラメータの約4倍の精度で実現している。
論文 参考訳(メタデータ) (2021-10-11T13:43:03Z) - Towards Transferable Adversarial Attacks on Vision Transformers [110.55845478440807]
視覚変換器(ViT)は、コンピュータビジョンの一連のタスクにおいて印象的なパフォーマンスを示してきたが、それでも敵の例に悩まされている。
本稿では、PNA攻撃とPatchOut攻撃を含むデュアルアタックフレームワークを導入し、異なるViT間での対向サンプルの転送性を改善する。
論文 参考訳(メタデータ) (2021-09-09T11:28:25Z) - Vision Transformer with Progressive Sampling [73.60630716500154]
本稿では,識別領域を特定するための反復的・漸進的なサンプリング手法を提案する。
ImageNetでスクラッチからトレーニングされた場合、PS-ViTはトップ1の精度でバニラViTよりも3.8%高いパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-08-03T18:04:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。