論文の概要: Vision Transformers in 2022: An Update on Tiny ImageNet
- arxiv url: http://arxiv.org/abs/2205.10660v1
- Date: Sat, 21 May 2022 19:48:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-05 09:47:00.854872
- Title: Vision Transformers in 2022: An Update on Tiny ImageNet
- Title(参考訳): 2022年の視覚トランスフォーマー:小さなイメージネットのアップデート
- Authors: Ethan Huynh
- Abstract要約: 本稿では,Tiny ImageNet上での視覚変換器の性能について報告する。
Vision Transformer (ViT)、Data Efficient Image Transformer (DeiT)、Class Attention in Image Transformer (CaiT)、Swin Transformerなどです。
スイニングトランスフォーマーは現在の最先端の結果を91.35%の精度で破る。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The recent advances in image transformers have shown impressive results and
have largely closed the gap between traditional CNN architectures. The standard
procedure is to train on large datasets like ImageNet-21k and then finetune on
ImageNet-1k. After finetuning, researches will often consider the transfer
learning performance on smaller datasets such as CIFAR-10/100 but have left out
Tiny ImageNet. This paper offers an update on vision transformers' performance
on Tiny ImageNet. I include Vision Transformer (ViT) , Data Efficient Image
Transformer (DeiT), Class Attention in Image Transformer (CaiT), and Swin
Transformers. In addition, Swin Transformers beats the current state-of-the-art
result with a validation accuracy of 91.35%. Code is available here:
https://github.com/ehuynh1106/TinyImageNet-Transformers
- Abstract(参考訳): 最近の画像トランスフォーマーの進歩は目覚ましい結果を示し、従来のCNNアーキテクチャのギャップを大きく埋めてきた。
標準的な手順は、ImageNet-21kのような大規模なデータセットでトレーニングし、ImageNet-1kで微調整する。
微調整の後、CIFAR-10/100のような小さなデータセットでの転送学習のパフォーマンスをよく検討するが、Tiny ImageNetを除外した。
本稿では,視覚トランスフォーマーの小型イメージネットにおける性能について述べる。
Vision Transformer (ViT)、Data Efficient Image Transformer (DeiT)、Class Attention in Image Transformer (CaiT)、Swin Transformerなどです。
さらに、Swin Transformersは現在の最先端の結果を91.35%の精度で破る。
https://github.com/ehuynh1106/TinyImageNet-Transformers
関連論文リスト
- Explicitly Increasing Input Information Density for Vision Transformers
on Small Datasets [26.257612622358614]
ビジョントランスフォーマーはビジョンタスクにおけるビジョントランスフォーマー(ViT)の実装が成功して以来、近年多くの注目を集めている。
本稿では,周波数領域における入力情報密度を明示的に向上することを提案する。
5つの小規模データセットに対して提案手法の有効性を示す実験を行った。
論文 参考訳(メタデータ) (2022-10-25T20:24:53Z) - CMT: Convolutional Neural Networks Meet Vision Transformers [68.10025999594883]
画像内の長距離依存関係をキャプチャできるため、画像認識タスクに視覚トランスフォーマーがうまく適用されている。
変圧器と既存の畳み込みニューラルネットワーク(CNN)の間には、パフォーマンスと計算コストの差がまだ残っている。
長距離依存関係をキャプチャするトランスフォーマーと、局所的な特徴をモデル化するCNNを利用して、新しいトランスフォーマーベースのハイブリッドネットワークを提案する。
特に、私たちのCMT-SはImageNetで83.5%、FLOPでは14倍、EfficientNetでは2倍の精度を実現しています。
論文 参考訳(メタデータ) (2021-07-13T17:47:19Z) - Aggregating Nested Transformers [42.96279765218623]
重なり合わない画像ブロックに局所変換器をネストして階層的に集約するという考え方について検討する。
ブロック集約関数はブロック間非ローカル情報通信において重要な役割を果たす。
実験の結果,提案手法のNesTはより高速に収束し,優れた一般化を実現するためには,より少ないトレーニングデータを必要とすることがわかった。
論文 参考訳(メタデータ) (2021-05-26T17:56:48Z) - Token Labeling: Training a 85.4% Top-1 Accuracy Vision Transformer with
56M Parameters on ImageNet [86.95679590801494]
ImageNet分類におけるビジョントランスフォーマーの可能性を探るため、トレーニングテクニックのバッグを開発しています。
視覚変換器の構造を微調整し,トークンラベリングを導入することで,我々のモデルはCNNよりも優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2021-04-22T04:43:06Z) - Going deeper with Image Transformers [102.61950708108022]
我々は画像分類のためのより深いトランスフォーマーネットワークを構築し最適化する。
深部変圧器の精度を大幅に向上する2つの変圧器アーキテクチャ変更を行う。
私たちの最高のモデルは、再評価ラベルとImagenet-V2 /マッチ周波数を備えたImagenetの新しい状態を確立します。
論文 参考訳(メタデータ) (2021-03-31T17:37:32Z) - CvT: Introducing Convolutions to Vision Transformers [44.74550305869089]
畳み込み視覚変換器(CvT)は、視覚変換器(ViT)の性能と効率を向上する。
新しいアーキテクチャはViTに畳み込み、両方の設計で最高のものを生み出す。
論文 参考訳(メタデータ) (2021-03-29T17:58:22Z) - Tokens-to-Token ViT: Training Vision Transformers from Scratch on
ImageNet [128.96032932640364]
視覚課題を解決するために,新しいTokens-To-Token Vision Transformer (T2T-ViT)を提案する。
T2T-ViTは、バニラViTのパラメータ数とMACを200%削減し、ImageNetでスクラッチからトレーニングすると2.5%以上の改善を実現している。
例えば、ResNet50に匹敵するサイズを持つT2T-ViTは、ImageNet上で80.7%のトップ1の精度を達成できる。
論文 参考訳(メタデータ) (2021-01-28T13:25:28Z) - Training data-efficient image transformers & distillation through
attention [93.22667339525832]
Imagenetのみのトレーニングにより,コンボリューションフリーなコンボリューショントランスを試作した。
参照ビジョン変換器(86Mパラメータ)は、トップ1の精度83.1%を達成する。
論文 参考訳(メタデータ) (2020-12-23T18:42:10Z) - An Image is Worth 16x16 Words: Transformers for Image Recognition at
Scale [112.94212299087653]
ビジョントランスフォーマー(ViT)は、最先端の畳み込みネットワークと比較して優れた結果を得ると同時に、トレーニングする計算リソースを著しく少なくする。
論文 参考訳(メタデータ) (2020-10-22T17:55:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。