論文の概要: How to augment your ViTs? Consistency loss and StyleAug, a random style
transfer augmentation
- arxiv url: http://arxiv.org/abs/2112.09260v1
- Date: Thu, 16 Dec 2021 23:56:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-20 16:06:44.978798
- Title: How to augment your ViTs? Consistency loss and StyleAug, a random style
transfer augmentation
- Title(参考訳): どのようにViTを増強するか?
ランダムなスタイル転送拡張であるConsistency LosとStyleAug
- Authors: Akash Umakantha, Joao D. Semedo, S. Alireza Golestaneh, Wan-Yi S. Lin
- Abstract要約: Vision Transformer (ViT) アーキテクチャは、最近、様々なコンピュータビジョンタスクで競合する性能を達成した。
ViTsの背景にある動機の1つは、畳み込みニューラルネットワーク(CNN)と比較して誘導バイアスが弱いことである。
- 参考スコア(独自算出の注目度): 4.3012765978447565
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Vision Transformer (ViT) architecture has recently achieved competitive
performance across a variety of computer vision tasks. One of the motivations
behind ViTs is weaker inductive biases, when compared to convolutional neural
networks (CNNs). However this also makes ViTs more difficult to train. They
require very large training datasets, heavy regularization, and strong data
augmentations. The data augmentation strategies used to train ViTs have largely
been inherited from CNN training, despite the significant differences between
the two architectures. In this work, we empirical evaluated how different data
augmentation strategies performed on CNN (e.g., ResNet) versus ViT
architectures for image classification. We introduced a style transfer data
augmentation, termed StyleAug, which worked best for training ViTs, while
RandAugment and Augmix typically worked best for training CNNs. We also found
that, in addition to a classification loss, using a consistency loss between
multiple augmentations of the same image was especially helpful when training
ViTs.
- Abstract(参考訳): Vision Transformer (ViT) アーキテクチャは、最近、様々なコンピュータビジョンタスクで競合する性能を達成した。
ViTsの背後にあるモチベーションの1つは、畳み込みニューラルネットワーク(CNN)と比較して誘導バイアスが弱いことである。
しかし、これによりViTsの訓練も困難になる。
それらは非常に大きなトレーニングデータセット、重い正規化、強いデータ拡張を必要とする。
ViTのトレーニングに使われるデータ拡張戦略は、2つのアーキテクチャ間で大きな違いがあるにも関わらず、CNNのトレーニングから受け継がれている。
本研究では,画像分類のためのcnn (resnet など) と vit アーキテクチャにおけるデータ拡張戦略の相違を実験的に評価した。
私たちは、スタイル転送データ拡張(StyleAug)という、ViTのトレーニングに最適なスタイル転送データ拡張を導入しましたが、RandAugmentとAugmixは典型的にはCNNのトレーニングに最適です。
また, 分類損失に加えて, 同一画像の複数強調画像間の整合性損失を用いることで, ViTsの訓練に特に有用であることがわかった。
関連論文リスト
- Experts Weights Averaging: A New General Training Scheme for Vision
Transformers [57.62386892571636]
推論コストを増大させることなく性能向上を実現するビジョントランスフォーマー(ViT)のトレーニング手法を提案する。
トレーニング中、ViTのFeed-Forward Networks(FFN)を、特別に設計されたより効率的なMoEに置き換える。
トレーニング後、各MoEを専門家を平均化してFFNに変換し、モデルを推論のために元のViTに変換する。
論文 参考訳(メタデータ) (2023-08-11T12:05:12Z) - When Adversarial Training Meets Vision Transformers: Recipes from
Training to Architecture [32.260596998171835]
ViTがこのような敵の攻撃に対して防衛するためには、依然として敵の訓練が必要である。
対人訓練にはプレトレーニングとSGDが必要であることが判明した。
私たちのコードはhttps://versa.com/mo666666/When-Adrial-Training-Meets-Vision-Transformersで利用可能です。
論文 参考訳(メタデータ) (2022-10-14T05:37:20Z) - Auto-scaling Vision Transformers without Training [84.34662535276898]
本研究では,視覚変換器(ViT)の自動スケーリングフレームワークAs-ViTを提案する。
As-ViTは、ViTを効率的かつ原則的に自動的に発見し、スケールアップする。
As-ViTは統合されたフレームワークとして、分類と検出において高いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-02-24T06:30:55Z) - Training Vision Transformers with Only 2040 Images [35.86457465241119]
視覚変換器(ViT)は、視覚認識のための畳み込みニューラルネットワーク(CNN)の代替として登場した。
本手法は他の手法よりも優れているという理論的解析を行い,特徴のアライメントとインスタンスの類似性の両方を捉えることができる。
様々なViTバックボーンの下で7つの小さなデータセットをスクラッチからトレーニングすると、最先端の結果が得られます。
論文 参考訳(メタデータ) (2022-01-26T03:22:08Z) - Bootstrapping ViTs: Towards Liberating Vision Transformers from
Pre-training [29.20567759071523]
ビジョントランスフォーマー(ViT)は急速に発展し、コンピュータビジョンにおける畳み込みニューラルネットワーク(CNN)の支配に挑戦し始めている。
本稿では,上位境界のネットワークアーキテクチャを保ちながら,CNNのインダクティブバイアスをViTに戻す。
CIFAR-10/100 と ImageNet-1k の限られたトレーニングデータによる実験は、有望な結果を示している。
論文 参考訳(メタデータ) (2021-12-07T07:56:50Z) - Self-slimmed Vision Transformer [52.67243496139175]
視覚変換器(ViT)は、様々な視覚タスクにおいて一般的な構造となり、CNN(Creative Convolutional Neural Network)よりも優れています。
本稿では,バニラVT,すなわちSiTに対する汎用的な自己スリム学習手法を提案する。
具体的には、まず、ViTの推論効率を向上させる新しいToken Slimming Module (TSM) を設計する。
論文 参考訳(メタデータ) (2021-11-24T16:48:57Z) - How to train your ViT? Data, Augmentation, and Regularization in Vision
Transformers [74.06040005144382]
ビジョントランスフォーマー(ViT)は、幅広いビジョンアプリケーションにおいて高い競争力を発揮することが示されている。
我々は,トレーニングデータの量,AugReg,モデルサイズ,計算予算の相互作用をよりよく理解するために,体系的な実証的研究を行う。
私たちは、パブリックなImageNet-21kデータセットでさまざまなサイズのViTモデルをトレーニングします。
論文 参考訳(メタデータ) (2021-06-18T17:58:20Z) - Delving Deep into the Generalization of Vision Transformers under
Distribution Shifts [59.93426322225099]
視覚変換器(ViT)は様々な視覚タスクにおいて印象的な結果を得た。
しかし、分布シフトの違いによる一般化能力はほとんど理解されていない。
この研究は、ViTの分布外一般化に関する包括的な研究を提供する。
論文 参考訳(メタデータ) (2021-06-14T17:21:41Z) - Reveal of Vision Transformers Robustness against Adversarial Attacks [13.985121520800215]
この研究は、CNNと比較して異なる$L_p$ベースの敵攻撃に対するViT変異の堅牢性について研究する。
我々は,バニラ ViT やハイブリッド-ViT が CNN よりも堅牢であることを明らかにする分析を行った。
論文 参考訳(メタデータ) (2021-06-07T15:59:49Z) - DeepViT: Towards Deeper Vision Transformer [92.04063170357426]
近年,視覚変換器 (ViT) が画像分類タスクに応用されている。
より畳み込み層を積み重ねることで改善できる畳み込みニューラルネットワーク(CNN)とは異なり、ViTの性能はより深いスケールで飽和する。
本研究では,アテンションマップの多様性を高めるために,アテンションマップを再生成する手法であるre-attentionを提案する。
論文 参考訳(メタデータ) (2021-03-22T14:32:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。