論文の概要: How to Train Vision Transformer on Small-scale Datasets?
- arxiv url: http://arxiv.org/abs/2210.07240v1
- Date: Thu, 13 Oct 2022 17:59:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-14 16:44:23.536197
- Title: How to Train Vision Transformer on Small-scale Datasets?
- Title(参考訳): 小型データセット上でのビジョントランスの学習方法
- Authors: Hanan Gani, Muzammal Naseer and Mohammad Yaqub
- Abstract要約: 畳み込みニューラルネットワークとは対照的に、Vision Transformerには固有の帰納バイアスがない。
自己教師付き帰納バイアスは,小規模データセットから直接学習可能であることを示す。
これにより、大規模な事前トレーニングやモデルアーキテクチャの変更、損失関数を必要とせずに、これらのモデルをトレーニングすることができる。
- 参考スコア(独自算出の注目度): 4.56717163175988
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Vision Transformer (ViT), a radically different architecture than
convolutional neural networks offers multiple advantages including design
simplicity, robustness and state-of-the-art performance on many vision tasks.
However, in contrast to convolutional neural networks, Vision Transformer lacks
inherent inductive biases. Therefore, successful training of such models is
mainly attributed to pre-training on large-scale datasets such as ImageNet with
1.2M or JFT with 300M images. This hinders the direct adaption of Vision
Transformer for small-scale datasets. In this work, we show that
self-supervised inductive biases can be learned directly from small-scale
datasets and serve as an effective weight initialization scheme for
fine-tuning. This allows to train these models without large-scale
pre-training, changes to model architecture or loss functions. We present
thorough experiments to successfully train monolithic and non-monolithic Vision
Transformers on five small datasets including CIFAR10/100, CINIC10, SVHN,
Tiny-ImageNet and two fine-grained datasets: Aircraft and Cars. Our approach
consistently improves the performance of Vision Transformers while retaining
their properties such as attention to salient regions and higher robustness.
Our codes and pre-trained models are available at:
https://github.com/hananshafi/vits-for-small-scale-datasets.
- Abstract(参考訳): 畳み込みニューラルネットワークとは根本的に異なるアーキテクチャであるViT(Vision Transformer)は、設計の単純さ、堅牢性、多くのビジョンタスクにおける最先端のパフォーマンスなど、さまざまなメリットを提供する。
しかし、畳み込みニューラルネットワークとは対照的に、Vision Transformerには固有の帰納バイアスがない。
したがって、これらのモデルのトレーニングの成功は、主に1.2mのimagenetや300mのイメージを持つjftのような大規模データセットの事前トレーニングに起因している。
これにより、小さなデータセットに対するVision Transformerの直接的な適応が妨げられる。
本研究では,自己教師付き帰納バイアスを小規模データセットから直接学習し,微調整のための有効重み初期化スキームとして機能することを示す。
これにより、大規模な事前トレーニングやモデルアーキテクチャの変更、損失関数を必要とせずに、これらのモデルをトレーニングすることができる。
我々は,CIFAR10/100,CINIC10,SVHN,Tiny-ImageNet,および2つの細粒度データセットであるAircraftとCarsを含む5つの小さなデータセット上で,モノリシックおよび非モノリシックなVision Transformerのトレーニングに成功した実験を行った。
提案手法は視覚変換器の性能を常に向上させつつ,高次領域への注意や高ロバスト性などの特性を維持しながら維持する。
私たちのコードと事前トレーニングされたモデルは、以下の通りである。
関連論文リスト
- Pre-training of Lightweight Vision Transformers on Small Datasets with
Minimally Scaled Images [0.0]
純視覚変換器(ViT)は、マスク付きオートエンコーダ技術を用いて、画像スケーリングを最小限にすることで、事前トレーニングにより優れた性能を達成することができる。
CIFAR-10とCIFAR-100データセットの実験では、パラメータが365万未満のViTモデルと、乗算累積(MAC)数が0.27G未満であった。
論文 参考訳(メタデータ) (2024-02-06T06:41:24Z) - Advancing Plain Vision Transformer Towards Remote Sensing Foundation
Model [97.9548609175831]
約1億のパラメータを持つプレーンビジョントランスフォーマーを利用して、リモートセンシングタスク用にカスタマイズされた大規模なビジョンモデルを提案する。
具体的には、RS画像における大きな画像サイズと様々な向きのオブジェクトを扱うために、回転する様々なウィンドウアテンションを提案する。
検出タスクの実験は、DOTA-V1.0データセット上で81.16%のmAPを達成したすべての最先端モデルよりも、我々のモデルの方が優れていることを示す。
論文 参考訳(メタデータ) (2022-08-08T09:08:40Z) - ViT-P: Rethinking Data-efficient Vision Transformers from Locality [9.515925867530262]
我々は多焦点アテンションバイアスを導入することにより、畳み込みニューラルネットワークのようなデータ効率を向上する。
十分に訓練されたViTの注意距離にインスパイアされ、我々はViTの自己注意をマルチスケールの局所受容野に制限する。
Cifar100では、私たちのViT-P Baseモデルは、ゼロからトレーニングされた最先端の精度(83.16%)を達成する。
論文 参考訳(メタデータ) (2022-03-04T14:49:48Z) - ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for
Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文 参考訳(メタデータ) (2022-02-21T10:40:05Z) - Training Vision Transformers with Only 2040 Images [35.86457465241119]
視覚変換器(ViT)は、視覚認識のための畳み込みニューラルネットワーク(CNN)の代替として登場した。
本手法は他の手法よりも優れているという理論的解析を行い,特徴のアライメントとインスタンスの類似性の両方を捉えることができる。
様々なViTバックボーンの下で7つの小さなデータセットをスクラッチからトレーニングすると、最先端の結果が得られます。
論文 参考訳(メタデータ) (2022-01-26T03:22:08Z) - How to train your ViT? Data, Augmentation, and Regularization in Vision
Transformers [74.06040005144382]
ビジョントランスフォーマー(ViT)は、幅広いビジョンアプリケーションにおいて高い競争力を発揮することが示されている。
我々は,トレーニングデータの量,AugReg,モデルサイズ,計算予算の相互作用をよりよく理解するために,体系的な実証的研究を行う。
私たちは、パブリックなImageNet-21kデータセットでさまざまなサイズのViTモデルをトレーニングします。
論文 参考訳(メタデータ) (2021-06-18T17:58:20Z) - Scaling Vision Transformers [82.08465256393514]
本研究では,Vision Transformerがエラー率,データ,計算の関係をスケールし,特徴付ける方法について検討する。
我々は20億のパラメータを持つViTモデルをトレーニングし、ImageNetの90.45%のトップ-1の精度で新たな最先端技術を実現する。
このモデルは、例えば、ImageNetで84.86%のトップ-1の精度を達成し、1クラスにつき10のサンプルしか持たないような、数ショット学習でもうまく機能する。
論文 参考訳(メタデータ) (2021-06-08T17:47:39Z) - When Vision Transformers Outperform ResNets without Pretraining or
Strong Data Augmentations [111.44860506703307]
Vision Transformer (ViTs) と既存のVisionNetsは、ハンドワイヤ機能やインダクティブスループットを汎用神経アーキテクチャに置き換えようとしている。
本稿では、損失幾何学のレンズからViTとRes-Mixersを解析し、トレーニングおよび推論時のモデルのデータ効率を改善することを目的とする。
最初の数層では、スペーサー活動ニューロンの頑健性が改善していることが示されている。
その結果、ViTsは、大規模な事前トレーニングや強力なデータ拡張なしに、ImageNet上でスクラッチからトレーニングした時に、同様のサイズと滑らかさのネットより優れています。
論文 参考訳(メタデータ) (2021-06-03T02:08:03Z) - Visformer: The Vision-friendly Transformer [105.52122194322592]
我々は視覚に優しいトランスフォーマーから短縮したvisformerという新しいアーキテクチャを提案する。
同じ計算の複雑さにより、VisformerはTransformerベースのモデルとConvolutionベースのモデルの両方をImageNet分類精度で上回る。
論文 参考訳(メタデータ) (2021-04-26T13:13:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。