論文の概要: Efficient Training of Visual Transformers with Small-Size Datasets
- arxiv url: http://arxiv.org/abs/2106.03746v1
- Date: Mon, 7 Jun 2021 16:14:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-08 18:28:02.009287
- Title: Efficient Training of Visual Transformers with Small-Size Datasets
- Title(参考訳): 小型データセットを用いた視覚変換器の効率的な訓練
- Authors: Yahui Liu, Enver Sangineto, Wei Bi, Nicu Sebe, Bruno Lepri and Marco
De Nadai
- Abstract要約: 進化的ネットワーク(CNN)に代わるアーキテクチャパラダイムとして、ビジュアルトランスフォーマー(VT)が登場している。
ImageNetでトレーニングされた場合、同等の精度を持つにもかかわらず、より小さなデータセットでのパフォーマンスは、大きく異なる可能性があることを示す。
本稿では,計算オーバーヘッドの少ない画像から追加情報を抽出できる自己教師型タスクを提案する。
- 参考スコア(独自算出の注目度): 64.60765211331697
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual Transformers (VTs) are emerging as an architectural paradigm
alternative to Convolutional networks (CNNs). Differently from CNNs, VTs can
capture global relations between image elements and they potentially have a
larger representation capacity. However, the lack of the typical convolutional
inductive bias makes these models more data-hungry than common CNNs. In fact,
some local properties of the visual domain which are embedded in the CNN
architectural design, in VTs should be learned from samples. In this paper, we
empirically analyse different VTs, comparing their robustness in a small
training-set regime, and we show that, despite having a comparable accuracy
when trained on ImageNet, their performance on smaller datasets can be largely
different. Moreover, we propose a self-supervised task which can extract
additional information from images with only a negligible computational
overhead. This task encourages the VTs to learn spatial relations within an
image and makes the VT training much more robust when training data are scarce.
Our task is used jointly with the standard (supervised) training and it does
not depend on specific architectural choices, thus it can be easily plugged in
the existing VTs. Using an extensive evaluation with different VTs and
datasets, we show that our method can improve (sometimes dramatically) the
final accuracy of the VTs. The code will be available upon acceptance.
- Abstract(参考訳): visual transformers (vts) は畳み込みネットワーク (cnns) に代わるアーキテクチャパラダイムとして登場している。
CNNと異なり、VTは画像要素間のグローバルな関係を捉えることができ、より大きな表現能力を持つ可能性がある。
しかし、典型的な畳み込み帰納バイアスの欠如により、これらのモデルは一般的なCNNよりもデータに強い。
実際、CNNアーキテクチャ設計に埋め込まれたビジュアルドメインのいくつかのローカルプロパティは、VTでサンプルから学ぶ必要がある。
本稿では,小さなトレーニングセットでのロバスト性を比較することで,異なるvtを経験的に分析し,imagenetでトレーニングした場合と同等の精度を持つものの,より小さなデータセットでの性能は大きく異なる可能性があることを示す。
さらに,計算オーバーヘッドが無視できる画像から追加情報を抽出できる自己教師ありタスクを提案する。
このタスクは、VTが画像内の空間関係を学習することを奨励し、トレーニングデータが不足している場合、VTトレーニングをより堅牢にする。
私たちのタスクは、標準(教師付き)トレーニングと共同で使用され、特定のアーキテクチャ選択に依存しないので、既存のVTに簡単にプラグインすることができます。
異なるVTとデータセットを用いて広範囲な評価を行うことで,VTの最終精度を劇的に向上させることができることを示す。
コードは受理後利用可能になる。
関連論文リスト
- Dataset Quantization [72.61936019738076]
大規模データセットを小さなサブセットに圧縮する新しいフレームワークであるデータセット量子化(DQ)を提案する。
DQは、ImageNet-1kのような大規模データセットを最先端圧縮比で蒸留する最初の方法である。
論文 参考訳(メタデータ) (2023-08-21T07:24:29Z) - Masked autoencoders are effective solution to transformer data-hungry [0.0]
ビジョントランスフォーマー(ViT)は、いくつかのビジョンタスクにおいて、そのグローバルモデリング能力で畳み込みニューラルネットワーク(CNN)を上回っている。
ViTには、畳み込みに固有の帰納バイアスがなく、トレーニングに大量のデータを必要とする。
マスク付きオートエンコーダ(MAE)は、トランスフォーマーが画像自体にもっと焦点を合わせることができる。
論文 参考訳(メタデータ) (2022-12-12T03:15:19Z) - How Well Do Vision Transformers (VTs) Transfer To The Non-Natural Image
Domain? An Empirical Study Involving Art Classification [0.7614628596146599]
視覚変換器(VTs)は畳み込みニューラルネットワーク(CNNs)の代用として有用なものになりつつある
我々は、人気のあるImageNetデータセットで事前訓練されたVTが、非自然な画像領域に転送可能な表現を学習するかどうかを検討する。
以上の結果から,VTはCNNよりも強力な特徴抽出器であることが示唆された。
論文 参考訳(メタデータ) (2022-08-09T12:05:18Z) - Locality Guidance for Improving Vision Transformers on Tiny Datasets [17.352384588114838]
ビジョントランスフォーマー(VT)アーキテクチャはコンピュータビジョンではトレンドになりつつあるが、純粋なVTモデルは小さなデータセットではパフォーマンスが悪い。
本稿では,小さなデータセット上でのVTの性能向上のための局所性ガイダンスを提案する。
論文 参考訳(メタデータ) (2022-07-20T16:41:41Z) - Towards Scale Consistent Monocular Visual Odometry by Learning from the
Virtual World [83.36195426897768]
仮想データから絶対スケールを取得するための新しいフレームワークであるVRVOを提案する。
まず、モノクロ実画像とステレオ仮想データの両方を用いて、スケール対応の異種ネットワークをトレーニングする。
結果として生じるスケール一貫性の相違は、直接VOシステムと統合される。
論文 参考訳(メタデータ) (2022-03-11T01:51:54Z) - Training Vision Transformers with Only 2040 Images [35.86457465241119]
視覚変換器(ViT)は、視覚認識のための畳み込みニューラルネットワーク(CNN)の代替として登場した。
本手法は他の手法よりも優れているという理論的解析を行い,特徴のアライメントとインスタンスの類似性の両方を捉えることができる。
様々なViTバックボーンの下で7つの小さなデータセットをスクラッチからトレーニングすると、最先端の結果が得られます。
論文 参考訳(メタデータ) (2022-01-26T03:22:08Z) - A Comprehensive Study of Vision Transformers on Dense Prediction Tasks [10.013443811899466]
畳み込みニューラルネットワーク(CNN)がビジョンタスクの標準選択である。
近年の研究では、オブジェクト検出やセマンティックセグメンテーションといった課題において、視覚変換器(VT)が同等の性能を発揮することが示されている。
このことは、それらの一般化可能性、堅牢性、信頼性、複雑なタスクの特徴を抽出するときにテクスチャバイアスについていくつかの疑問を投げかける。
論文 参考訳(メタデータ) (2022-01-21T13:18:16Z) - BEVT: BERT Pretraining of Video Transformers [89.08460834954161]
本稿では,映像表現学習を空間表現学習と時間ダイナミクス学習に分離するBEVTを紹介する。
我々は、BEVTが非常に有望な結果を得る3つの挑戦的なビデオベンチマークについて広範な実験を行った。
論文 参考訳(メタデータ) (2021-12-02T18:59:59Z) - How to train your ViT? Data, Augmentation, and Regularization in Vision
Transformers [74.06040005144382]
ビジョントランスフォーマー(ViT)は、幅広いビジョンアプリケーションにおいて高い競争力を発揮することが示されている。
我々は,トレーニングデータの量,AugReg,モデルサイズ,計算予算の相互作用をよりよく理解するために,体系的な実証的研究を行う。
私たちは、パブリックなImageNet-21kデータセットでさまざまなサイズのViTモデルをトレーニングします。
論文 参考訳(メタデータ) (2021-06-18T17:58:20Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。