論文の概要: When Adversarial Training Meets Vision Transformers: Recipes from
Training to Architecture
- arxiv url: http://arxiv.org/abs/2210.07540v1
- Date: Fri, 14 Oct 2022 05:37:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-17 15:41:28.893559
- Title: When Adversarial Training Meets Vision Transformers: Recipes from
Training to Architecture
- Title(参考訳): 敵対的なトレーニングが視覚トランスフォーマーと出会う - トレーニングからアーキテクチャへのレシピ
- Authors: Yichuan Mo, Dongxian Wu, Yifei Wang, Yiwen Guo, Yisen Wang
- Abstract要約: ViTがこのような敵の攻撃に対して防衛するためには、依然として敵の訓練が必要である。
対人訓練にはプレトレーニングとSGDが必要であることが判明した。
私たちのコードはhttps://versa.com/mo666666/When-Adrial-Training-Meets-Vision-Transformersで利用可能です。
- 参考スコア(独自算出の注目度): 32.260596998171835
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision Transformers (ViTs) have recently achieved competitive performance in
broad vision tasks. Unfortunately, on popular threat models, naturally trained
ViTs are shown to provide no more adversarial robustness than convolutional
neural networks (CNNs). Adversarial training is still required for ViTs to
defend against such adversarial attacks. In this paper, we provide the first
and comprehensive study on the adversarial training recipe of ViTs via
extensive evaluation of various training techniques across benchmark datasets.
We find that pre-training and SGD optimizer are necessary for ViTs' adversarial
training. Further considering ViT as a new type of model architecture, we
investigate its adversarial robustness from the perspective of its unique
architectural components. We find, when randomly masking gradients from some
attention blocks or masking perturbations on some patches during adversarial
training, the adversarial robustness of ViTs can be remarkably improved, which
may potentially open up a line of work to explore the architectural information
inside the newly designed models like ViTs. Our code is available at
https://github.com/mo666666/When-Adversarial-Training-Meets-Vision-Transformers.
- Abstract(参考訳): ビジョントランスフォーマー(ViT)は、最近、幅広いビジョンタスクにおいて競争性能を達成した。
残念ながら、一般的な脅威モデルでは、自然に訓練されたViTは畳み込みニューラルネットワーク(CNN)に匹敵する堅牢性を提供しない。
ViTがこのような敵の攻撃から守るためには、依然として敵の訓練が必要である。
本稿では,ベンチマークデータセットにまたがる様々なトレーニング手法を広範囲に評価することにより,ViTの対角的トレーニングレシピを初めて包括的に研究する。
ViTの対角訓練には,事前学習とSGDオプティマイザが必要である。
さらに,vitを新しいモデルアーキテクチャとして考慮し,そのユニークなアーキテクチャコンポーネントの観点から,その敵対的ロバスト性について検討する。
いくつかの注意ブロックからランダムに勾配をマスキングしたり、敵の訓練中にパッチに乱れをマスキングする場合、ViTの対角的堅牢性は著しく改善され、ViTsのような新しく設計されたモデルの内部のアーキテクチャ情報を調べるための一連の作業が開かれる可能性がある。
私たちのコードはhttps://github.com/mo666666/When-Adversarial-Training-Meets-Vision-Transformersで利用可能です。
関連論文リスト
- Experts Weights Averaging: A New General Training Scheme for Vision
Transformers [57.62386892571636]
推論コストを増大させることなく性能向上を実現するビジョントランスフォーマー(ViT)のトレーニング手法を提案する。
トレーニング中、ViTのFeed-Forward Networks(FFN)を、特別に設計されたより効率的なMoEに置き換える。
トレーニング後、各MoEを専門家を平均化してFFNに変換し、モデルを推論のために元のViTに変換する。
論文 参考訳(メタデータ) (2023-08-11T12:05:12Z) - What do Vision Transformers Learn? A Visual Exploration [68.50771218442776]
視覚変換器(ViT)はコンピュータビジョンのデファクトアーキテクチャとして急速に普及しつつある。
本稿では、ViT上での可視化の障害に対処し、ViTとCNNの根本的な相違について検討する。
また、DeiT、CoaT、ConViT、PiT、Swin、Twinなど、さまざまなViT変種に対して大規模な可視化を行っています。
論文 参考訳(メタデータ) (2022-12-13T16:55:12Z) - A Light Recipe to Train Robust Vision Transformers [34.51642006926379]
我々は、視覚変換器(ViT)が、回避攻撃に対する機械学習モデルの堅牢性を改善するための基盤となるアーキテクチャとして機能することを示します。
我々は、ImageNetデータセットのサブセットに関する厳密なアブレーション研究を用いて、独自の逆トレーニングレシピを用いて、この目的を達成する。
提案手法は,完全なImageNet-1k上でのViTアーキテクチャと大規模モデルの異なるクラスに一般化可能であることを示す。
論文 参考訳(メタデータ) (2022-09-15T16:00:04Z) - Towards Efficient Adversarial Training on Vision Transformers [41.6396577241957]
敵の訓練は、堅牢なCNNを実現するための最も効果的な方法の1つである。
本稿では,効率的な注意指導型対人訓練機構を提案する。
高速な敵のトレーニング時間のわずか65%で、挑戦的なImageNetベンチマークの最先端の結果と一致します。
論文 参考訳(メタデータ) (2022-07-21T14:23:50Z) - DeiT III: Revenge of the ViT [56.46810490275699]
Vision Transformer (ViT) は、複数のコンピュータビジョンタスクを処理可能なシンプルなニューラルネットワークアーキテクチャである。
最近の研究によると、ViTsはBeiTのようなBerTライクな事前訓練の恩恵を受けている。
論文 参考訳(メタデータ) (2022-04-14T17:13:44Z) - Evaluating Vision Transformer Methods for Deep Reinforcement Learning
from Pixels [7.426118390008397]
画像に基づく強化学習制御タスクに対する視覚変換器(ViT)訓練手法の評価を行った。
これらの結果を,主要な畳み込みネットワークアーキテクチャ手法であるRADと比較する。
RADを用いてトレーニングされたCNNアーキテクチャは、一般的には優れたパフォーマンスを提供する。
論文 参考訳(メタデータ) (2022-04-11T07:10:58Z) - Auto-scaling Vision Transformers without Training [84.34662535276898]
本研究では,視覚変換器(ViT)の自動スケーリングフレームワークAs-ViTを提案する。
As-ViTは、ViTを効率的かつ原則的に自動的に発見し、スケールアップする。
As-ViTは統合されたフレームワークとして、分類と検出において高いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-02-24T06:30:55Z) - On Improving Adversarial Transferability of Vision Transformers [97.17154635766578]
視覚変換器(ViT)は、入力画像を、自己注意によるパッチのシーケンスとして処理する。
本稿では,ViTモデルの対角的特徴空間とその伝達性について検討する。
本稿では,ViTモデルのアーキテクチャに特有な2つの新しい戦略を紹介する。
論文 参考訳(メタデータ) (2021-06-08T08:20:38Z) - On the Adversarial Robustness of Visual Transformers [129.29523847765952]
本研究は、視覚変換器(ViT)の対逆的摂動に対する堅牢性に関する最初の包括的な研究を提供する。
さまざまなホワイトボックスとトランスファーアタック設定でテストされた ViT は、畳み込みニューラルネットワーク (CNN) と比較して、より優れた敵対的堅牢性を持っています。
論文 参考訳(メタデータ) (2021-03-29T14:48:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。