論文の概要: Tokens-to-Token ViT: Training Vision Transformers from Scratch on
ImageNet
- arxiv url: http://arxiv.org/abs/2101.11986v1
- Date: Thu, 28 Jan 2021 13:25:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-01-31 18:14:30.050619
- Title: Tokens-to-Token ViT: Training Vision Transformers from Scratch on
ImageNet
- Title(参考訳): tokens-to-token vit: training vision transformers from scratch on imagenet
- Authors: Li Yuan, Yunpeng Chen, Tao Wang, Weihao Yu, Yujun Shi, Francis EH Tay,
Jiashi Feng, Shuicheng Yan
- Abstract要約: 視覚課題を解決するために,新しいTokens-To-Token Vision Transformer (T2T-ViT)を提案する。
T2T-ViTは、バニラViTのパラメータ数とMACを200%削減し、ImageNetでスクラッチからトレーニングすると2.5%以上の改善を実現している。
例えば、ResNet50に匹敵するサイズを持つT2T-ViTは、ImageNet上で80.7%のトップ1の精度を達成できる。
- 参考スコア(独自算出の注目度): 128.96032932640364
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers, which are popular for language modeling, have been explored for
solving vision tasks recently, e.g., the Vision Transformers (ViT) for image
classification. The ViT model splits each image into a sequence of tokens with
fixed length and then applies multiple Transformer layers to model their global
relation for classification. However, ViT achieves inferior performance
compared with CNNs when trained from scratch on a midsize dataset (e.g.,
ImageNet). We find it is because: 1) the simple tokenization of input images
fails to model the important local structure (e.g., edges, lines) among
neighboring pixels, leading to its low training sample efficiency; 2) the
redundant attention backbone design of ViT leads to limited feature richness in
fixed computation budgets and limited training samples.
To overcome such limitations, we propose a new Tokens-To-Token Vision
Transformers (T2T-ViT), which introduces 1) a layer-wise Tokens-to-Token (T2T)
transformation to progressively structurize the image to tokens by recursively
aggregating neighboring Tokens into one Token (Tokens-to-Token), such that
local structure presented by surrounding tokens can be modeled and tokens
length can be reduced; 2) an efficient backbone with a deep-narrow structure
for vision transformers motivated by CNN architecture design after extensive
study. Notably, T2T-ViT reduces the parameter counts and MACs of vanilla ViT by
200\%, while achieving more than 2.5\% improvement when trained from scratch on
ImageNet. It also outperforms ResNets and achieves comparable performance with
MobileNets when directly training on ImageNet. For example, T2T-ViT with
ResNet50 comparable size can achieve 80.7\% top-1 accuracy on ImageNet. (Code:
https://github.com/yitu-opensource/T2T-ViT)
- Abstract(参考訳): 言語モデリングに人気があるトランスフォーマーは、画像分類のためのビジョントランスフォーマー(ViT)など、近年では視覚タスクの解決のために研究されている。
ViTモデルは、各画像を一定長さのトークン列に分割し、次に複数のトランスフォーマー層を適用して、分類のためのグローバルな関係をモデル化する。
しかし、ViTは中規模データセット(イメージネットなど)でスクラッチからトレーニングされた場合、CNNと比較してパフォーマンスが劣る。
1)入力画像の単純なトークン化は隣接画素間の重要な局所構造(エッジ、ラインなど)のモデル化に失敗し、そのトレーニングサンプル効率が低下すること、2) vitの冗長な注意バックボーン設計は、固定された計算予算と限られたトレーニングサンプルの機能が限られていることに起因している。
To overcome such limitations, we propose a new Tokens-To-Token Vision Transformers (T2T-ViT), which introduces 1) a layer-wise Tokens-to-Token (T2T) transformation to progressively structurize the image to tokens by recursively aggregating neighboring Tokens into one Token (Tokens-to-Token), such that local structure presented by surrounding tokens can be modeled and tokens length can be reduced; 2) an efficient backbone with a deep-narrow structure for vision transformers motivated by CNN architecture design after extensive study.
特に、T2T-ViT はバニラ ViT のパラメータ数と MAC を 200 % 削減し、ImageNet でゼロから訓練すると 2.5 % 以上の改善を達成します。
また、ResNetsを上回り、ImageNetで直接トレーニングする際にMobileNetsと匹敵するパフォーマンスを実現します。
例えば、ResNet50と同等のサイズのT2T-ViTは、ImageNet上で80.7\%のtop-1精度を達成できる。
コード: https://github.com/yitu-opensource/T2T-ViT)
関連論文リスト
- Make A Long Image Short: Adaptive Token Length for Vision Transformers [5.723085628967456]
本稿では、長い画像の短縮によるViTモデルを高速化するための革新的なアプローチを提案する。
具体的には、テスト時に各画像に対してトークン長を適応的に割り当て、推論速度を高速化する手法を提案する。
論文 参考訳(メタデータ) (2023-07-05T08:10:17Z) - Making Vision Transformers Efficient from A Token Sparsification View [26.42498120556985]
本稿では,グローバル・ローカル・ビジョン・トランスフォーマのための新しいセマンティック・トークンViT(STViT)を提案する。
提案手法は,対象検出やインスタンスセグメンテーションにおける元のネットワークと比較して,30%以上のFLOPを削減できる。
さらに,STViTに基づいて詳細な空間情報を復元するためのSTViT-R(ecover)ネットワークを設計し,下流タスクに有効である。
論文 参考訳(メタデータ) (2023-03-15T15:12:36Z) - Make A Long Image Short: Adaptive Token Length for Vision Transformers [17.21663067385715]
視覚変換器は各画像を一定長さのトークン列に分割し、自然言語処理における単語と同じ方法でトークンを処理する。
推論中にトークン長を適応的に割り当てる新しい手法を提案する。
論文 参考訳(メタデータ) (2021-12-03T02:48:51Z) - Vision Transformer with Progressive Sampling [73.60630716500154]
本稿では,識別領域を特定するための反復的・漸進的なサンプリング手法を提案する。
ImageNetでスクラッチからトレーニングされた場合、PS-ViTはトップ1の精度でバニラViTよりも3.8%高いパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-08-03T18:04:31Z) - Scaling Vision Transformers [82.08465256393514]
本研究では,Vision Transformerがエラー率,データ,計算の関係をスケールし,特徴付ける方法について検討する。
我々は20億のパラメータを持つViTモデルをトレーニングし、ImageNetの90.45%のトップ-1の精度で新たな最先端技術を実現する。
このモデルは、例えば、ImageNetで84.86%のトップ-1の精度を達成し、1クラスにつき10のサンプルしか持たないような、数ショット学習でもうまく機能する。
論文 参考訳(メタデータ) (2021-06-08T17:47:39Z) - So-ViT: Mind Visual Tokens for Vision Transformer [27.243241133304785]
本稿では,視覚トークンの2次相互分散プールとクラストークンを組み合わせ,最終分類を行う新しい分類パラダイムを提案する。
我々は,視覚トークン埋め込みのためのオフ・ザ・棚畳み込みに基づく軽量階層モジュールを開発した。
その結果、我々のモデルは、スクラッチからトレーニングされた場合、競合するViTモデルよりも優れ、最先端のCNNモデルと同等かそれ以上であることがわかった。
論文 参考訳(メタデータ) (2021-04-22T09:05:09Z) - Token Labeling: Training a 85.4% Top-1 Accuracy Vision Transformer with
56M Parameters on ImageNet [86.95679590801494]
ImageNet分類におけるビジョントランスフォーマーの可能性を探るため、トレーニングテクニックのバッグを開発しています。
視覚変換器の構造を微調整し,トークンラベリングを導入することで,我々のモデルはCNNよりも優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2021-04-22T04:43:06Z) - CrossViT: Cross-Attention Multi-Scale Vision Transformer for Image
Classification [17.709880544501758]
異なるサイズの画像パッチを組み合わせて、より強力な画像特徴を生成するデュアルブランチトランスを提案します。
我々のアプローチは、異なる計算複雑性の2つの別々の分岐を持つ小さなパッチトークンと大きなパッチトークンを処理します。
私たちの提案するクロスアテンションは、計算とメモリの複雑さの両方に線形時間しか必要としない。
論文 参考訳(メタデータ) (2021-03-27T13:03:17Z) - DeepViT: Towards Deeper Vision Transformer [92.04063170357426]
近年,視覚変換器 (ViT) が画像分類タスクに応用されている。
より畳み込み層を積み重ねることで改善できる畳み込みニューラルネットワーク(CNN)とは異なり、ViTの性能はより深いスケールで飽和する。
本研究では,アテンションマップの多様性を高めるために,アテンションマップを再生成する手法であるre-attentionを提案する。
論文 参考訳(メタデータ) (2021-03-22T14:32:07Z) - Scalable Visual Transformers with Hierarchical Pooling [61.05787583247392]
本稿では,視覚的トークンを徐々にプールしてシーケンス長を縮小する階層的ビジュアルトランスフォーマ(hvt)を提案する。
計算の複雑さを増すことなく、深さ/幅/解像度/パッチサイズの寸法をスケールすることで、大きなメリットをもたらします。
当社のHVTはImageNetとCIFAR-100データセットの競合ベースラインを上回っています。
論文 参考訳(メタデータ) (2021-03-19T03:55:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。