論文の概要: Pyramid Adversarial Training Improves ViT Performance
- arxiv url: http://arxiv.org/abs/2111.15121v1
- Date: Tue, 30 Nov 2021 04:38:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-01 15:10:13.276161
- Title: Pyramid Adversarial Training Improves ViT Performance
- Title(参考訳): ピラミッド逆行トレーニングによるvitパフォーマンス向上
- Authors: Charles Herrmann, Kyle Sargent, Lu Jiang, Ramin Zabih, Huiwen Chang,
Ce Liu, Dilip Krishnan, Deqing Sun
- Abstract要約: ピラミッド逆行訓練は、ViTの全体的な性能を改善するためのシンプルで効果的な技術である。
これにより、ImageNet-1Kデータでのみトレーニングされた場合、ViT-Bモデルに対して、ImageNetのクリーンな精度が1.82%$で絶対的に向上する。
- 参考スコア(独自算出の注目度): 43.322865996422664
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Aggressive data augmentation is a key component of the strong generalization
capabilities of Vision Transformer (ViT). One such data augmentation technique
is adversarial training; however, many prior works have shown that this often
results in poor clean accuracy. In this work, we present Pyramid Adversarial
Training, a simple and effective technique to improve ViT's overall
performance. We pair it with a "matched" Dropout and stochastic depth
regularization, which adopts the same Dropout and stochastic depth
configuration for the clean and adversarial samples. Similar to the
improvements on CNNs by AdvProp (not directly applicable to ViT), our Pyramid
Adversarial Training breaks the trade-off between in-distribution accuracy and
out-of-distribution robustness for ViT and related architectures. It leads to
$1.82\%$ absolute improvement on ImageNet clean accuracy for the ViT-B model
when trained only on ImageNet-1K data, while simultaneously boosting
performance on $7$ ImageNet robustness metrics, by absolute numbers ranging
from $1.76\%$ to $11.45\%$. We set a new state-of-the-art for ImageNet-C (41.4
mCE), ImageNet-R ($53.92\%$), and ImageNet-Sketch ($41.04\%$) without extra
data, using only the ViT-B/16 backbone and our Pyramid Adversarial Training.
Our code will be publicly available upon acceptance.
- Abstract(参考訳): Aggressive Data AugmentationはVision Transformer(ViT)の強力な一般化機能の鍵となるコンポーネントである。
そのようなデータ拡張技術の一つは、敵対的なトレーニングであるが、多くの先行研究は、これはしばしばクリーンな正確さを損なうことを示している。
本研究では,VT全体の性能を向上させるための簡便かつ効果的な手法であるピラミッド適応訓練を提案する。
一致した"ドロップアウトと確率的深さ正規化とを組み合わせることで,同じドロップアウトと確率的深さ設定を,クリーンなサンプルと反対のサンプルに適用する。
AdvPropによるCNNの改善(ViTに直接適用されない)と同様に、ピラミッド・アドバイザリアル・トレーニングは、ViTと関連するアーキテクチャの分布内精度と分布外堅牢性の間のトレードオフを断ち切る。
これは、ImageNet-1Kデータのみをトレーニングした時に、ImageNet-Bモデルの絶対精度を1.82\%$で改善すると同時に、7ドルのImageNetロバストネスメトリクスのパフォーマンスを1.76\%から11.45\%$で向上させる。
ImageNet-C (41.4 mCE) と ImageNet-R (53.92 %$) と ImageNet-Sketch (41.04 %$) に新たな最先端技術を設定しました。
私たちのコードは受け入れ次第公開されます。
関連論文リスト
- Revisiting Adversarial Training for ImageNet: Architectures, Training
and Generalization across Threat Models [52.86163536826919]
我々は、ViTsとConvNeXtsを比較したImageNetの敵対的トレーニングを再考する。
修正されたConvNeXt, ConvNeXt + ConvStemは、モデルパラメータの異なる範囲にまたがる最も堅牢な一般化をもたらす。
我々の ViT + ConvStem は、目に見えない脅威モデルに最高の一般化をもたらす。
論文 参考訳(メタデータ) (2023-03-03T11:53:01Z) - A Unified Pruning Framework for Vision Transformers [40.7622551128182]
ビジョントランス(ViT)とその変種は様々なコンピュータビジョンタスクにおいて有望な性能を達成した。
本稿では, UP-ViT と UP-ViT の両方の構造解析のための統一的な枠組みを提案する。
本手法は,モデル構造の整合性を維持しつつ,すべてのViTsコンポーネントのプルーニングに重点を置いている。
論文 参考訳(メタデータ) (2021-11-30T05:01:02Z) - Vector-quantized Image Modeling with Improved VQGAN [93.8443646643864]
本稿では,自動回帰的に画像トークンを予測するためにトランスフォーマーを事前訓練するベクトル量子化画像モデリング手法を提案する。
まず,バニラVQGANに対して,アーキテクチャからコードブック学習までの複数の改良を提案する。
ImageNetで256x256解像度でトレーニングすると、175.1のインセプションスコア(IS)と4.17のFrechet Inception Distance(FID)を達成する。
論文 参考訳(メタデータ) (2021-10-09T18:36:00Z) - Chasing Sparsity in Vision Transformers: An End-to-End Exploration [127.10054032751714]
ビジョン・トランスフォーマー(ViT)は最近爆発的な人気を博したが、その巨大なモデルサイズとトレーニングコストは依然として大きなものだ。
本稿では、達成可能な精度を犠牲にすることなく、トレーニングメモリのオーバーヘッドと推論の複雑さの両方を削減することを目的とする。
具体的には、完全なViTをトレーニングする代わりに、固定された小さなパラメータ予算に固執しながら、スパースワークを動的に抽出し、訓練する。
論文 参考訳(メタデータ) (2021-06-08T17:18:00Z) - When Vision Transformers Outperform ResNets without Pretraining or
Strong Data Augmentations [111.44860506703307]
Vision Transformer (ViTs) と既存のVisionNetsは、ハンドワイヤ機能やインダクティブスループットを汎用神経アーキテクチャに置き換えようとしている。
本稿では、損失幾何学のレンズからViTとRes-Mixersを解析し、トレーニングおよび推論時のモデルのデータ効率を改善することを目的とする。
最初の数層では、スペーサー活動ニューロンの頑健性が改善していることが示されている。
その結果、ViTsは、大規模な事前トレーニングや強力なデータ拡張なしに、ImageNet上でスクラッチからトレーニングした時に、同様のサイズと滑らかさのネットより優れています。
論文 参考訳(メタデータ) (2021-06-03T02:08:03Z) - Shape-Texture Debiased Neural Network Training [50.6178024087048]
畳み込みニューラルネットワークは、トレーニングデータセットによって、テクスチャまたは形状にバイアスされることが多い。
形状・テクスチャ・デバイアスド学習のためのアルゴリズムを開発した。
実験により,本手法は複数の画像認識ベンチマークにおけるモデル性能の向上に成功していることが示された。
論文 参考訳(メタデータ) (2020-10-12T19:16:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。