論文の概要: Token Labeling: Training a 85.4% Top-1 Accuracy Vision Transformer with
56M Parameters on ImageNet
- arxiv url: http://arxiv.org/abs/2104.10858v2
- Date: Fri, 23 Apr 2021 08:50:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-26 11:50:04.375038
- Title: Token Labeling: Training a 85.4% Top-1 Accuracy Vision Transformer with
56M Parameters on ImageNet
- Title(参考訳): Token Labeling: ImageNet上で56Mパラメータを持つ85.4%のTop-1精度ビジョントランスのトレーニング
- Authors: Zihang Jiang, Qibin Hou, Li Yuan, Daquan Zhou, Xiaojie Jin, Anran
Wang, Jiashi Feng
- Abstract要約: ImageNet分類におけるビジョントランスフォーマーの可能性を探るため、トレーニングテクニックのバッグを開発しています。
視覚変換器の構造を微調整し,トークンラベリングを導入することで,我々のモデルはCNNよりも優れた結果が得られることを示す。
- 参考スコア(独自算出の注目度): 86.95679590801494
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper provides a strong baseline for vision transformers on the ImageNet
classification task. While recent vision transformers have demonstrated
promising results in ImageNet classification, their performance still lags
behind powerful convolutional neural networks (CNNs) with approximately the
same model size. In this work, instead of describing a novel transformer
architecture, we explore the potential of vision transformers in ImageNet
classification by developing a bag of training techniques. We show that by
slightly tuning the structure of vision transformers and introducing token
labeling -- a new training objective, our models are able to achieve better
results than the CNN counterparts and other transformer-based classification
models with similar amount of training parameters and computations. Taking a
vision transformer with 26M learnable parameters as an example, we can achieve
an 84.4% Top-1 accuracy on ImageNet. When the model size is scaled up to
56M/150M, the result can be further increased to 85.4%/86.2% without extra
data. We hope this study could provide researchers with useful techniques to
train powerful vision transformers. Our code and all the training details will
be made publicly available at https://github.com/zihangJiang/TokenLabeling.
- Abstract(参考訳): 本稿では,imagenet分類タスクにおける視覚トランスフォーマの強力なベースラインを提供する。
最近のビジョントランスフォーマーは、ImageNet分類において有望な結果を示しているが、そのパフォーマンスは、ほぼ同じモデルサイズで強力な畳み込みニューラルネットワーク(CNN)よりも遅れている。
本研究では,新しいトランスフォーマーアーキテクチャを記述する代わりに,イメージネット分類におけるビジョントランスフォーマーの可能性を探究する。
視覚トランスフォーマーの構造を微調整し、トークンラベリングを導入することで、新たなトレーニング目標として、同様のトレーニングパラメータと計算量を持つcnnや他のトランスフォーマーベースの分類モデルよりも優れた結果が得られることを示した。
例えば、26Mの学習可能なパラメータを持つ視覚変換器を用いて、ImageNet上で84.4%のTop-1精度を達成できる。
モデルサイズが56m/150mまでスケールすると、追加のデータなしでさらに85.4%/86.2%に拡大できる。
この研究は、強力な視覚トランスフォーマーを訓練するための有用な技術を提供することを願っている。
私たちのコードとトレーニングの詳細はhttps://github.com/zihangJiang/TokenLabeling.comで公開されます。
関連論文リスト
- Semi-Supervised Vision Transformers [76.83020291497895]
半教師付き画像分類のための視覚変換器の訓練について検討する。
半教師付き ImageNet 設定では,ビジョントランスフォーマーの性能が良くない。
CNNは小さなラベル付きデータ構造において優れた結果を得る。
論文 参考訳(メタデータ) (2021-11-22T09:28:13Z) - CMT: Convolutional Neural Networks Meet Vision Transformers [68.10025999594883]
画像内の長距離依存関係をキャプチャできるため、画像認識タスクに視覚トランスフォーマーがうまく適用されている。
変圧器と既存の畳み込みニューラルネットワーク(CNN)の間には、パフォーマンスと計算コストの差がまだ残っている。
長距離依存関係をキャプチャするトランスフォーマーと、局所的な特徴をモデル化するCNNを利用して、新しいトランスフォーマーベースのハイブリッドネットワークを提案する。
特に、私たちのCMT-SはImageNetで83.5%、FLOPでは14倍、EfficientNetでは2倍の精度を実現しています。
論文 参考訳(メタデータ) (2021-07-13T17:47:19Z) - Scaling Vision Transformers [82.08465256393514]
本研究では,Vision Transformerがエラー率,データ,計算の関係をスケールし,特徴付ける方法について検討する。
我々は20億のパラメータを持つViTモデルをトレーニングし、ImageNetの90.45%のトップ-1の精度で新たな最先端技術を実現する。
このモデルは、例えば、ImageNetで84.86%のトップ-1の精度を達成し、1クラスにつき10のサンプルしか持たないような、数ショット学習でもうまく機能する。
論文 参考訳(メタデータ) (2021-06-08T17:47:39Z) - Aggregating Nested Transformers [42.96279765218623]
重なり合わない画像ブロックに局所変換器をネストして階層的に集約するという考え方について検討する。
ブロック集約関数はブロック間非ローカル情報通信において重要な役割を果たす。
実験の結果,提案手法のNesTはより高速に収束し,優れた一般化を実現するためには,より少ないトレーニングデータを必要とすることがわかった。
論文 参考訳(メタデータ) (2021-05-26T17:56:48Z) - Self-Supervised Learning with Swin Transformers [24.956637957269926]
ビジョントランスフォーマーをバックボーンアーキテクチャとして,MoBYと呼ばれる自己監視型学習アプローチを提案する。
このアプローチには基本的に新しい発明がなく、MoCo v2とBYOLを組み合わせている。
パフォーマンスは、DeiTをバックボーンとして採用しているMoCo v3とDINOの最近の作品よりもわずかに優れていますが、はるかに軽いトリックがあります。
論文 参考訳(メタデータ) (2021-05-10T17:59:45Z) - Going deeper with Image Transformers [102.61950708108022]
我々は画像分類のためのより深いトランスフォーマーネットワークを構築し最適化する。
深部変圧器の精度を大幅に向上する2つの変圧器アーキテクチャ変更を行う。
私たちの最高のモデルは、再評価ラベルとImagenet-V2 /マッチ周波数を備えたImagenetの新しい状態を確立します。
論文 参考訳(メタデータ) (2021-03-31T17:37:32Z) - Training data-efficient image transformers & distillation through
attention [93.22667339525832]
Imagenetのみのトレーニングにより,コンボリューションフリーなコンボリューショントランスを試作した。
参照ビジョン変換器(86Mパラメータ)は、トップ1の精度83.1%を達成する。
論文 参考訳(メタデータ) (2020-12-23T18:42:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。