論文の概要: Towards Efficient Adversarial Training on Vision Transformers
- arxiv url: http://arxiv.org/abs/2207.10498v1
- Date: Thu, 21 Jul 2022 14:23:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-22 13:21:36.593838
- Title: Towards Efficient Adversarial Training on Vision Transformers
- Title(参考訳): 視覚トランスフォーマーの効率的な対向訓練に向けて
- Authors: Boxi Wu, Jindong Gu, Zhifeng Li, Deng Cai, Xiaofei He, Wei Liu
- Abstract要約: 敵の訓練は、堅牢なCNNを実現するための最も効果的な方法の1つである。
本稿では,効率的な注意指導型対人訓練機構を提案する。
高速な敵のトレーニング時間のわずか65%で、挑戦的なImageNetベンチマークの最先端の結果と一致します。
- 参考スコア(独自算出の注目度): 41.6396577241957
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision Transformer (ViT), as a powerful alternative to Convolutional Neural
Network (CNN), has received much attention. Recent work showed that ViTs are
also vulnerable to adversarial examples like CNNs. To build robust ViTs, an
intuitive way is to apply adversarial training since it has been shown as one
of the most effective ways to accomplish robust CNNs. However, one major
limitation of adversarial training is its heavy computational cost. The
self-attention mechanism adopted by ViTs is a computationally intense operation
whose expense increases quadratically with the number of input patches, making
adversarial training on ViTs even more time-consuming. In this work, we first
comprehensively study fast adversarial training on a variety of vision
transformers and illustrate the relationship between the efficiency and
robustness. Then, to expediate adversarial training on ViTs, we propose an
efficient Attention Guided Adversarial Training mechanism. Specifically,
relying on the specialty of self-attention, we actively remove certain patch
embeddings of each layer with an attention-guided dropping strategy during
adversarial training. The slimmed self-attention modules accelerate the
adversarial training on ViTs significantly. With only 65\% of the fast
adversarial training time, we match the state-of-the-art results on the
challenging ImageNet benchmark.
- Abstract(参考訳): 畳み込みニューラルネットワーク(CNN)の強力な代替手段としてViT(Vision Transformer)が注目されている。
最近の研究によると、ViTはCNNのような敵の例にも弱い。
堅牢なViTを構築するには、より直感的な方法は、堅牢なCNNを実現するための最も効果的な方法の1つとして、敵のトレーニングを適用することである。
しかし、逆行訓練の大きな制限は計算コストが大きいことである。
ViTsの自己保持機構は、入力パッチの数に比例して費用が2倍に増加する計算的に激しい演算であり、ViTs上での敵の訓練にさらに時間がかかる。
本研究では,まず,様々な視覚トランスフォーマーの高速対向訓練を包括的に研究し,その効率とロバスト性の関係を明らかにした。
そこで本研究では,ViTに対する対人訓練を行うために,効果的な注意誘導対人訓練機構を提案する。
具体的には、自己注意の専門性に依存して、敵の訓練中に注意誘導下降戦略で各層のパッチ埋め込みを積極的に除去する。
スリムな自己注意モジュールは、ViTに対する敵の訓練を著しく加速する。
高速な敵のトレーニング時間の65\%しか持たず、挑戦的なimagenetベンチマークで最先端の結果と一致しています。
関連論文リスト
- MIMIR: Masked Image Modeling for Mutual Information-based Adversarial
Robustness [31.76309077313509]
視覚変換器(ViT)は畳み込みニューラルネットワーク(CNN)と比較して様々なタスクにおいて優れた性能を発揮する
本報告では, マスク付き画像モデリングを事前学習時に活用することにより, 異なる対角的訓練手法を構築することを目的とした, 新たな防御手法MIMIRを提案する。
以上の結果から,MIMIRではCIFAR-10では4.19%,ImageNet-1Kでは5.52%の精度向上が見られた。
論文 参考訳(メタデータ) (2023-12-08T10:50:02Z) - Experts Weights Averaging: A New General Training Scheme for Vision
Transformers [57.62386892571636]
推論コストを増大させることなく性能向上を実現するビジョントランスフォーマー(ViT)のトレーニング手法を提案する。
トレーニング中、ViTのFeed-Forward Networks(FFN)を、特別に設計されたより効率的なMoEに置き換える。
トレーニング後、各MoEを専門家を平均化してFFNに変換し、モデルを推論のために元のViTに変換する。
論文 参考訳(メタデータ) (2023-08-11T12:05:12Z) - Adaptive Attention Link-based Regularization for Vision Transformers [6.6798113365140015]
視覚変換器(ViT)のトレーニング効率を向上させるための正規化手法を提案する。
トレーニング可能なリンクはアテンション拡張モジュールと呼ばれ、ViTと同時にトレーニングされる。
我々は,各CNNアクティベーションマップと各ViTアテンションヘッドの関係を抽出し,これに基づいて,高度なアテンション拡張モジュールを提案する。
論文 参考訳(メタデータ) (2022-11-25T01:26:43Z) - When Adversarial Training Meets Vision Transformers: Recipes from
Training to Architecture [32.260596998171835]
ViTがこのような敵の攻撃に対して防衛するためには、依然として敵の訓練が必要である。
対人訓練にはプレトレーニングとSGDが必要であることが判明した。
私たちのコードはhttps://versa.com/mo666666/When-Adrial-Training-Meets-Vision-Transformersで利用可能です。
論文 参考訳(メタデータ) (2022-10-14T05:37:20Z) - A Light Recipe to Train Robust Vision Transformers [34.51642006926379]
我々は、視覚変換器(ViT)が、回避攻撃に対する機械学習モデルの堅牢性を改善するための基盤となるアーキテクチャとして機能することを示します。
我々は、ImageNetデータセットのサブセットに関する厳密なアブレーション研究を用いて、独自の逆トレーニングレシピを用いて、この目的を達成する。
提案手法は,完全なImageNet-1k上でのViTアーキテクチャと大規模モデルの異なるクラスに一般化可能であることを示す。
論文 参考訳(メタデータ) (2022-09-15T16:00:04Z) - Patch-Fool: Are Vision Transformers Always Robust Against Adversarial
Perturbations? [21.32962679185015]
ビジョントランスフォーマー(ViT)は、ビジョンタスクにおける記録的なパフォーマンスのおかげで、ニューラルアーキテクチャ設計の新しい波を最近開始した。
最近の研究によると、ViTsは畳み込みニューラルネットワーク(CNN)と比較して敵の攻撃に対してより堅牢である。
本稿では,Patch-Foolと呼ばれる攻撃フレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-16T04:45:59Z) - Self-slimmed Vision Transformer [52.67243496139175]
視覚変換器(ViT)は、様々な視覚タスクにおいて一般的な構造となり、CNN(Creative Convolutional Neural Network)よりも優れています。
本稿では,バニラVT,すなわちSiTに対する汎用的な自己スリム学習手法を提案する。
具体的には、まず、ViTの推論効率を向上させる新しいToken Slimming Module (TSM) を設計する。
論文 参考訳(メタデータ) (2021-11-24T16:48:57Z) - Towards Transferable Adversarial Attacks on Vision Transformers [110.55845478440807]
視覚変換器(ViT)は、コンピュータビジョンの一連のタスクにおいて印象的なパフォーマンスを示してきたが、それでも敵の例に悩まされている。
本稿では、PNA攻撃とPatchOut攻撃を含むデュアルアタックフレームワークを導入し、異なるViT間での対向サンプルの転送性を改善する。
論文 参考訳(メタデータ) (2021-09-09T11:28:25Z) - On the Adversarial Robustness of Visual Transformers [129.29523847765952]
本研究は、視覚変換器(ViT)の対逆的摂動に対する堅牢性に関する最初の包括的な研究を提供する。
さまざまなホワイトボックスとトランスファーアタック設定でテストされた ViT は、畳み込みニューラルネットワーク (CNN) と比較して、より優れた敵対的堅牢性を持っています。
論文 参考訳(メタデータ) (2021-03-29T14:48:24Z) - Towards Understanding Fast Adversarial Training [91.8060431517248]
高速対人訓練の振る舞いを理解するために実験を行う。
その成功の鍵は、過度な適合から弱い攻撃への回復能力である。
論文 参考訳(メタデータ) (2020-06-04T18:19:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。