論文の概要: VOLO: Vision Outlooker for Visual Recognition
- arxiv url: http://arxiv.org/abs/2106.13112v2
- Date: Mon, 28 Jun 2021 14:40:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-29 11:10:25.012382
- Title: VOLO: Vision Outlooker for Visual Recognition
- Title(参考訳): VOLO:視覚認識の視覚的見通し
- Authors: Li Yuan, Qibin Hou, Zihang Jiang, Jiashi Feng, Shuicheng Yan
- Abstract要約: 視覚変換器 (ViT) はイメージネット分類において自己注意に基づくモデルの可能性を示している。
我々は、新しい展望の展望を導入し、VoLO(Vision Outlooker)と呼ばれる、シンプルで一般的なアーキテクチャを提示する。
グローバルな依存性モデリングを粗いレベルで重視する自己注意とは異なり、展望はより詳細な機能やコンテキストをトークンに効率的にエンコードする。
実験の結果、私たちのVOLOはImageNet-1K分類で87.1%のトップ1の精度を達成しており、これはこの競合ベンチマークで87%以上の精度で最初のモデルである。
- 参考スコア(独自算出の注目度): 148.12522298731807
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual recognition has been dominated by convolutional neural networks (CNNs)
for years. Though recently the prevailing vision transformers (ViTs) have shown
great potential of self-attention based models in ImageNet classification,
their performance is still inferior to that of the latest SOTA CNNs if no extra
data are provided. In this work, we try to close the performance gap and
demonstrate that attention-based models are indeed able to outperform CNNs. We
find a major factor limiting the performance of ViTs for ImageNet
classification is their low efficacy in encoding fine-level features into the
token representations. To resolve this, we introduce a novel outlook attention
and present a simple and general architecture, termed Vision Outlooker (VOLO).
Unlike self-attention that focuses on global dependency modeling at a coarse
level, the outlook attention efficiently encodes finer-level features and
contexts into tokens, which is shown to be critically beneficial to recognition
performance but largely ignored by the self-attention. Experiments show that
our VOLO achieves 87.1% top-1 accuracy on ImageNet-1K classification, which is
the first model exceeding 87% accuracy on this competitive benchmark, without
using any extra training data In addition, the pre-trained VOLO transfers well
to downstream tasks, such as semantic segmentation. We achieve 84.3% mIoU score
on the cityscapes validation set and 54.3% on the ADE20K validation set. Code
is available at \url{https://github.com/sail-sg/volo}.
- Abstract(参考訳): 視覚認識は長年、畳み込みニューラルネットワーク(CNN)によって支配されてきた。
近年,vts (prevailing vision transformers) は,イメージネット分類における自己着脱型モデルの潜在性は高いが,データ提供がなければ,その性能は最新の sota cnn よりも劣っている。
本研究では,パフォーマンスギャップを解消し,注意に基づくモデルがCNNよりも優れていることを示す。
ImageNet分類におけるViTの性能を制限する主要な要因は、トークン表現に微細な特徴をエンコードする際の効果が低いことである。
これを解決するために,新しいoutlook attentionを導入し,単純で汎用的なアーキテクチャであるvision outlooker(volo)を提案する。
粗いレベルでのグローバルな依存性モデリングに焦点を当てた自己注意とは異なり、展望はより細かいレベルの特徴やコンテキストをトークンに効率的にエンコードする。
実験の結果、VOLOはImageNet-1K分類において87.1%の精度を達成しており、これはこの競合ベンチマークにおいて、余分なトレーニングデータを用いることなく、最初のモデルである87%を超える精度である。
都市景観検証セットで84.3% mIoU、ADE20K検証セットで54.3%を得る。
コードは \url{https://github.com/sail-sg/volo} で入手できる。
関連論文リスト
- Combined CNN and ViT features off-the-shelf: Another astounding baseline for recognition [49.14350399025926]
本稿では,ImageNet Large Scale Visual Recognition Challengeのために開発された事前学習型アーキテクチャを,近視認識に適用する。
CNNとViTの中間層の特徴は、近視画像に基づいて個人を認識するのに適した方法である。
論文 参考訳(メタデータ) (2024-07-28T11:52:36Z) - SeiT++: Masked Token Modeling Improves Storage-efficient Training [36.95646819348317]
近年のDeep Neural Network(DNN)モデルでは,コンピュータビジョンタスクのパフォーマンスが大幅に向上している。
高度に一般化可能で高性能なビジョンモデルを実現するには、拡張データセットが必要である。
SeiTによる最近のブレークスルーは、Vector-Quantized (VQ)特徴ベクトル(トークン)を視覚分類のためのネットワーク入力として使用することを提案した。
本稿では,自己指導型事前学習のためのMasked Token Modeling (MTM)を統合し,SeyTを拡張した。
論文 参考訳(メタデータ) (2023-12-15T04:11:34Z) - FasterViT: Fast Vision Transformers with Hierarchical Attention [63.50580266223651]
我々は、コンピュータビジョン(CV)アプリケーションのための高速スループットに焦点を当てた、FasterViTという名前のハイブリッドCNN-ViTニューラルネットワークの新たなファミリーを設計する。
新たに導入した階層的注意(HAT)アプローチは,グローバルな自己意識を2次複雑性で分解し,計算コストを削減した多面的注意に分解する。
論文 参考訳(メタデータ) (2023-06-09T18:41:37Z) - ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders [104.05133094625137]
完全畳み込み型マスク付きオートエンコーダフレームワークと,新たなグローバル応答正規化層を提案する。
この自己教師付き学習技術とアーキテクチャ改善の共設計により、純粋なConvNetの性能を大幅に向上させるConvNeXt V2と呼ばれる新しいモデルファミリが生まれる。
論文 参考訳(メタデータ) (2023-01-02T18:59:31Z) - Masked Unsupervised Self-training for Zero-shot Image Classification [98.23094305347709]
Masked Unsupervised Self-Training (MUST)は、疑似ラベルと生画像という2つの異なる、補完的な監督源を活用する新しいアプローチである。
MUSTはCLIPを大きなマージンで改善し、教師なしと教師なしの分類のパフォーマンスギャップを狭める。
論文 参考訳(メタデータ) (2022-06-07T02:03:06Z) - Understanding The Robustness in Vision Transformers [140.1090560977082]
自己注意は、改善された中レベルの表現を通して堅牢性を促進する。
我々は、この能力を強化するために、フルアテンショナルネットワーク(FAN)のファミリーを提案する。
我々のモデルは、76.8Mパラメータを持つImageNet-1kおよびImageNet-C上で、最先端の87.1%の精度と35.8%のmCEを達成する。
論文 参考訳(メタデータ) (2022-04-26T17:16:32Z) - Attend and Guide (AG-Net): A Keypoints-driven Attention-based Deep
Network for Image Recognition [13.230646408771868]
本稿では,新しいアテンション機構を用いて,きめ細かい変化をリンクする意味のある特徴を学習するエンド・ツー・エンドCNNモデルを提案する。
意味領域(SR)とその空間分布を識別することで画像内の空間構造をキャプチャし、画像の微妙な変化をモデル化する鍵であることが証明された。
このフレームワークは6つの多様なベンチマークデータセットで評価される。
論文 参考訳(メタデータ) (2021-10-23T09:43:36Z) - So-ViT: Mind Visual Tokens for Vision Transformer [27.243241133304785]
本稿では,視覚トークンの2次相互分散プールとクラストークンを組み合わせ,最終分類を行う新しい分類パラダイムを提案する。
我々は,視覚トークン埋め込みのためのオフ・ザ・棚畳み込みに基づく軽量階層モジュールを開発した。
その結果、我々のモデルは、スクラッチからトレーニングされた場合、競合するViTモデルよりも優れ、最先端のCNNモデルと同等かそれ以上であることがわかった。
論文 参考訳(メタデータ) (2021-04-22T09:05:09Z) - Compounding the Performance Improvements of Assembled Techniques in a
Convolutional Neural Network [6.938261599173859]
基本CNNモデルの精度とロバスト性を改善する方法について述べる。
提案したResNet-50は、トップ1の精度を76.3%から82.78%、mCEを76.0%から48.9%、mFRを57.7%から32.3%に改善した。
CVPR 2019でiFood Competition Fine-Grained Visual Recognitionで1位を獲得した。
論文 参考訳(メタデータ) (2020-01-17T12:42:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。