論文の概要: Training data-efficient image transformers & distillation through
attention
- arxiv url: http://arxiv.org/abs/2012.12877v2
- Date: Fri, 15 Jan 2021 15:52:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-25 18:07:00.524863
- Title: Training data-efficient image transformers & distillation through
attention
- Title(参考訳): データ効率のよい画像変換器の訓練と注意による蒸留
- Authors: Hugo Touvron, Matthieu Cord, Matthijs Douze, Francisco Massa,
Alexandre Sablayrolles, Herv\'e J\'egou
- Abstract要約: Imagenetのみのトレーニングにより,コンボリューションフリーなコンボリューショントランスを試作した。
参照ビジョン変換器(86Mパラメータ)は、トップ1の精度83.1%を達成する。
- 参考スコア(独自算出の注目度): 93.22667339525832
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, neural networks purely based on attention were shown to address
image understanding tasks such as image classification. However, these visual
transformers are pre-trained with hundreds of millions of images using an
expensive infrastructure, thereby limiting their adoption.
In this work, we produce a competitive convolution-free transformer by
training on Imagenet only. We train them on a single computer in less than 3
days. Our reference vision transformer (86M parameters) achieves top-1 accuracy
of 83.1% (single-crop evaluation) on ImageNet with no external data.
More importantly, we introduce a teacher-student strategy specific to
transformers. It relies on a distillation token ensuring that the student
learns from the teacher through attention. We show the interest of this
token-based distillation, especially when using a convnet as a teacher. This
leads us to report results competitive with convnets for both Imagenet (where
we obtain up to 85.2% accuracy) and when transferring to other tasks. We share
our code and models.
- Abstract(参考訳): 近年,注意に基づくニューラルネットワークは,画像分類などの画像理解課題に対処することが示されている。
しかし、これらのビジュアルトランスフォーマーは、高価なインフラストラクチャを使って、数億の画像で事前訓練されているため、採用が制限される。
本研究では,imagenet上でのみトレーニングすることにより,コンボリューションフリートランスフォーマを作成する。
3日以内で1台のコンピューターでトレーニングします。
参照ビジョン変換器(86Mパラメータ)は、外部データを持たないImageNet上で、83.1%のトップ1精度を達成する。
さらに,トランスフォーマーに特有な教師教育戦略を提案する。
生徒が注意を通して教師から学ぶことを保証する蒸留トークンに依存している。
特にconvnetを教師として使用する場合,このトークンベースの蒸留の興味を示す。
これにより、Imagenet(85.2%の精度で取得できる)と他のタスクへの転送時に、コンブネットと競合する結果を報告できる。
私たちはコードとモデルを共有します。
関連論文リスト
- Three things everyone should know about Vision Transformers [67.30250766591405]
トランスフォーマーアーキテクチャは コンピュータビジョンにおいて 急速に勢いを増しています
視覚変換器の変種をシンプルかつ容易に実装できる3つの洞察を提供する。
我々は、ImageNet-1kデータセットを用いて、これらの設計選択の影響を評価し、ImageNet-v2テストセットにおける結果を確認した。
論文 参考訳(メタデータ) (2022-03-18T08:23:03Z) - CMT: Convolutional Neural Networks Meet Vision Transformers [68.10025999594883]
画像内の長距離依存関係をキャプチャできるため、画像認識タスクに視覚トランスフォーマーがうまく適用されている。
変圧器と既存の畳み込みニューラルネットワーク(CNN)の間には、パフォーマンスと計算コストの差がまだ残っている。
長距離依存関係をキャプチャするトランスフォーマーと、局所的な特徴をモデル化するCNNを利用して、新しいトランスフォーマーベースのハイブリッドネットワークを提案する。
特に、私たちのCMT-SはImageNetで83.5%、FLOPでは14倍、EfficientNetでは2倍の精度を実現しています。
論文 参考訳(メタデータ) (2021-07-13T17:47:19Z) - Efficient Vision Transformers via Fine-Grained Manifold Distillation [96.50513363752836]
視覚変換器のアーキテクチャは多くのコンピュータビジョンタスクで異常な性能を示した。
ネットワーク性能は向上するが、トランスフォーマーはより多くの計算資源を必要とすることが多い。
本稿では,教師のトランスフォーマーから,画像と分割パッチの関係を通して有用な情報を抽出することを提案する。
論文 参考訳(メタデータ) (2021-07-03T08:28:34Z) - Co-advise: Cross Inductive Bias Distillation [39.61426495884721]
視覚変換器を訓練するための新しい蒸留法を提案する。
我々は,学生トランスフォーマーを共同で助言するために,異なるアーキテクチャ的帰納バイアスを持つ軽量な教員を紹介した。
私たちのビジョントランスフォーマー(CivT)は、ImageNetで同じアーキテクチャの以前のトランスフォーマーよりも優れています。
論文 参考訳(メタデータ) (2021-06-23T13:19:59Z) - BEiT: BERT Pre-Training of Image Transformers [43.704968112586876]
本稿では,画像変換器の双方向表現を表す自己教師型視覚表現モデルBEiTを紹介する。
具体的には、各画像には事前トレーニング、すなわち画像パッチと視覚トークンの2つのビューがある。
まず最初にオリジナル画像を視覚トークンに"トークン"します。次にランダムに画像パッチをマスクして、バックボーントランスフォーマーに入力します。
事前学習の目的は、破損した画像パッチに基づいて元の視覚トークンを復元することである。
論文 参考訳(メタデータ) (2021-06-15T16:02:37Z) - Self-Supervised Learning with Swin Transformers [24.956637957269926]
ビジョントランスフォーマーをバックボーンアーキテクチャとして,MoBYと呼ばれる自己監視型学習アプローチを提案する。
このアプローチには基本的に新しい発明がなく、MoCo v2とBYOLを組み合わせている。
パフォーマンスは、DeiTをバックボーンとして採用しているMoCo v3とDINOの最近の作品よりもわずかに優れていますが、はるかに軽いトリックがあります。
論文 参考訳(メタデータ) (2021-05-10T17:59:45Z) - Token Labeling: Training a 85.4% Top-1 Accuracy Vision Transformer with
56M Parameters on ImageNet [86.95679590801494]
ImageNet分類におけるビジョントランスフォーマーの可能性を探るため、トレーニングテクニックのバッグを開発しています。
視覚変換器の構造を微調整し,トークンラベリングを導入することで,我々のモデルはCNNよりも優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2021-04-22T04:43:06Z) - Going deeper with Image Transformers [102.61950708108022]
我々は画像分類のためのより深いトランスフォーマーネットワークを構築し最適化する。
深部変圧器の精度を大幅に向上する2つの変圧器アーキテクチャ変更を行う。
私たちの最高のモデルは、再評価ラベルとImagenet-V2 /マッチ周波数を備えたImagenetの新しい状態を確立します。
論文 参考訳(メタデータ) (2021-03-31T17:37:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。