Fugu-MT 論文翻訳(概要): A Light Recipe to Train Robust Vision Transformers

論文の概要: A Light Recipe to Train Robust Vision Transformers

arxiv url: http://arxiv.org/abs/2209.07399v1
Date: Thu, 15 Sep 2022 16:00:04 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-16 12:24:33.485142
Title: A Light Recipe to Train Robust Vision Transformers
Title（参考訳）: ロバストな視覚トランスフォーマーを訓練するための光レシピ
Authors: Edoardo Debenedetti, Vikash Sehwag, Prateek Mittal
Abstract要約: 我々は、視覚変換器(ViT)が、回避攻撃に対する機械学習モデルの堅牢性を改善するための基盤となるアーキテクチャとして機能することを示します。我々は、ImageNetデータセットのサブセットに関する厳密なアブレーション研究を用いて、独自の逆トレーニングレシピを用いて、この目的を達成する。提案手法は,完全なImageNet-1k上でのViTアーキテクチャと大規模モデルの異なるクラスに一般化可能であることを示す。
参考スコア（独自算出の注目度）: 34.51642006926379
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we ask whether Vision Transformers (ViTs) can serve as an underlying architecture for improving the adversarial robustness of machine learning models against evasion attacks. While earlier works have focused on improving Convolutional Neural Networks, we show that also ViTs are highly suitable for adversarial training to achieve competitive performance. We achieve this objective using a custom adversarial training recipe, discovered using rigorous ablation studies on a subset of the ImageNet dataset. The canonical training recipe for ViTs recommends strong data augmentation, in part to compensate for the lack of vision inductive bias of attention modules, when compared to convolutions. We show that this recipe achieves suboptimal performance when used for adversarial training. In contrast, we find that omitting all heavy data augmentation, and adding some additional bag-of-tricks ($\varepsilon$-warmup and larger weight decay), significantly boosts the performance of robust ViTs. We show that our recipe generalizes to different classes of ViT architectures and large-scale models on full ImageNet-1k. Additionally, investigating the reasons for the robustness of our models, we show that it is easier to generate strong attacks during training when using our recipe and that this leads to better robustness at test time. Finally, we further study one consequence of adversarial training by proposing a way to quantify the semantic nature of adversarial perturbations and highlight its correlation with the robustness of the model. Overall, we recommend that the community should avoid translating the canonical training recipes in ViTs to robust training and rethink common training choices in the context of adversarial training.
Abstract（参考訳）: 本稿では,視覚変換器(ViT)が,回避攻撃に対する機械学習モデルの対角的堅牢性向上の基盤となるアーキテクチャとして機能するかどうかを問う。従来の研究は畳み込みニューラルネットワークの改善に重点を置いてきたが、競合する性能を達成するために、ViTも敵のトレーニングに非常に適していることを示す。我々は、ImageNetデータセットのサブセットに関する厳密なアブレーション研究を用いて、独自の逆トレーニングレシピを用いて、この目的を達成する。 vitsの標準訓練レシピでは、畳み込みと比較した場合の注意モジュールの視覚誘導バイアスの欠如を補うために、強いデータ拡張を推奨している。このレシピは, 対向訓練に使用する場合, 副最適性能が得られることを示す。対照的に、重いデータ拡張をすべて省略し、いくつかの追加のバグオブトリック (\varepsilon$-warmup and larger weight decay) を追加すると、堅牢なvitの性能が大幅に向上することがわかった。本手法は,vitアーキテクチャの異なるクラスと,imagenet-1kの大規模モデルに一般化することを示す。さらに,モデルのロバスト性理由を調査することにより,レシピ使用時のトレーニング中に強固なアタックが発生しやすくなり,テスト時のロバスト性が向上することを示す。最後に, 逆摂動の意味的性質を定量化する方法を提案し, モデルのロバスト性との相関性を強調して, 対向訓練の結果について検討した。全体としては,vitsの標準的トレーニングレシピを堅牢なトレーニングに翻訳することを避け,敵的トレーニングの文脈で共通のトレーニング選択を再考することを推奨する。

関連論文リスト

SpecFormer: Guarding Vision Transformer Robustness via Maximum Singular Value Penalization [39.09638432514626]
ビジョントランスフォーマー(ViT)は、ハイパフォーマンスのため、コンピュータビジョンでの利用が増えているが、敵攻撃に対する脆弱性が懸念されている。本研究は, 敵攻撃に対するViTsの強化に適したSpecFormerを導入し, 理論的基盤となる。
論文参考訳（メタデータ） (2024-01-02T14:27:24Z)
MIMIR: Masked Image Modeling for Mutual Information-based Adversarial Robustness [31.603115393528746]
堅牢なビジョントランスフォーマー(ViTs)の構築は、専用のAdversarial Training(AT)戦略に大きく依存している。自動エンコーダに基づく自己教師型事前学習における理論的相互情報(MI)解析について述べる。マスク付きオートエンコーダを用いたMIMIRを提案する。
論文参考訳（メタデータ） (2023-12-08T10:50:02Z)
Experts Weights Averaging: A New General Training Scheme for Vision Transformers [57.62386892571636]
推論コストを増大させることなく性能向上を実現するビジョントランスフォーマー(ViT)のトレーニング手法を提案する。トレーニング中、ViTのFeed-Forward Networks(FFN)を、特別に設計されたより効率的なMoEに置き換える。トレーニング後、各MoEを専門家を平均化してFFNに変換し、モデルを推論のために元のViTに変換する。
論文参考訳（メタデータ） (2023-08-11T12:05:12Z)
Revisiting Adversarial Training for ImageNet: Architectures, Training and Generalization across Threat Models [52.86163536826919]
我々は、ViTsとConvNeXtsを比較したImageNetの敵対的トレーニングを再考する。修正されたConvNeXt, ConvNeXt + ConvStemは、モデルパラメータの異なる範囲にまたがる最も堅牢な一般化をもたらす。我々の ViT + ConvStem は、目に見えない脅威モデルに最高の一般化をもたらす。
論文参考訳（メタデータ） (2023-03-03T11:53:01Z)
When Adversarial Training Meets Vision Transformers: Recipes from Training to Architecture [32.260596998171835]
ViTがこのような敵の攻撃に対して防衛するためには、依然として敵の訓練が必要である。対人訓練にはプレトレーニングとSGDが必要であることが判明した。私たちのコードはhttps://versa.com/mo666666/When-Adrial-Training-Meets-Vision-Transformersで利用可能です。
論文参考訳（メタデータ） (2022-10-14T05:37:20Z)
Towards Efficient Adversarial Training on Vision Transformers [41.6396577241957]
敵の訓練は、堅牢なCNNを実現するための最も効果的な方法の1つである。本稿では,効率的な注意指導型対人訓練機構を提案する。高速な敵のトレーニング時間のわずか65%で、挑戦的なImageNetベンチマークの最先端の結果と一致します。
論文参考訳（メタデータ） (2022-07-21T14:23:50Z)
Distributed Adversarial Training to Robustify Deep Neural Networks at Scale [100.19539096465101]
現在のディープニューラルネットワーク(DNN)は、入力に対する敵の摂動が分類を変更したり操作したりする敵の攻撃に対して脆弱である。このような攻撃を防御するために、敵の訓練(AT)として知られる効果的なアプローチが、堅牢な訓練を緩和するために示されている。複数のマシンにまたがって実装された大規模バッチ対逆トレーニングフレームワークを提案する。
論文参考訳（メタデータ） (2022-06-13T15:39:43Z)
Deeper Insights into ViTs Robustness towards Common Corruptions [82.79764218627558]
我々は、CNNのようなアーキテクチャ設計とCNNベースのデータ拡張戦略が、一般的な汚職に対するViTsの堅牢性にどのように影響するかを検討する。重なり合うパッチ埋め込みと畳み込みフィードフォワードネットワーク(FFN)がロバスト性の向上を実証する。また、2つの角度から入力値の増大を可能にする新しい条件付き手法も導入する。
論文参考訳（メタデータ） (2022-04-26T08:22:34Z)
Evaluating Vision Transformer Methods for Deep Reinforcement Learning from Pixels [7.426118390008397]
画像に基づく強化学習制御タスクに対する視覚変換器(ViT)訓練手法の評価を行った。これらの結果を,主要な畳み込みネットワークアーキテクチャ手法であるRADと比較する。 RADを用いてトレーニングされたCNNアーキテクチャは、一般的には優れたパフォーマンスを提供する。
論文参考訳（メタデータ） (2022-04-11T07:10:58Z)
How to train your ViT? Data, Augmentation, and Regularization in Vision Transformers [74.06040005144382]
ビジョントランスフォーマー(ViT)は、幅広いビジョンアプリケーションにおいて高い競争力を発揮することが示されている。我々は,トレーニングデータの量,AugReg,モデルサイズ,計算予算の相互作用をよりよく理解するために,体系的な実証的研究を行う。私たちは、パブリックなImageNet-21kデータセットでさまざまなサイズのViTモデルをトレーニングします。
論文参考訳（メタデータ） (2021-06-18T17:58:20Z)
On the Adversarial Robustness of Visual Transformers [129.29523847765952]
本研究は、視覚変換器(ViT)の対逆的摂動に対する堅牢性に関する最初の包括的な研究を提供する。さまざまなホワイトボックスとトランスファーアタック設定でテストされた ViT は、畳み込みニューラルネットワーク (CNN) と比較して、より優れた敵対的堅牢性を持っています。
論文参考訳（メタデータ） (2021-03-29T14:48:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。