論文の概要: VOLO: Vision Outlooker for Visual Recognition
- arxiv url: http://arxiv.org/abs/2106.13112v1
- Date: Thu, 24 Jun 2021 15:46:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-25 15:06:10.017684
- Title: VOLO: Vision Outlooker for Visual Recognition
- Title(参考訳): VOLO:視覚認識の視覚的見通し
- Authors: Li Yuan, Qibin Hou, Zihang Jiang, Jiashi Feng, Shuicheng Yan
- Abstract要約: 視覚変換器 (ViTs) は ImageNet 分類法において自己注意型モデルの優れたポテンタイアを示す。
本研究では,パフォーマンスギャップを解消し,注意に基づくモデルがCNNよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 148.12522298731807
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual recognition has been dominated by convolutionalneural networks (CNNs)
for years. Though recently the pre-vailing vision transformers (ViTs) have
shown great poten-tial of self-attention based models in ImageNet
classifica-tion, their performance is still inferior to latest SOTA CNNsif no
extra data are provided. In this work, we aim to closethe performance gap and
demonstrate that attention-basedmodels are indeed able to outperform CNNs. We
found thatthe main factor limiting the performance of ViTs for Ima-geNet
classification is their low efficacy in encoding fine-level features into the
token representations. To resolvethis, we introduce a noveloutlook attentionand
present asimple and general architecture, termed Vision Outlooker(VOLO). Unlike
self-attention that focuses on global depen-dency modeling at a coarse level,
the outlook attention aimsto efficiently encode finer-level features and
contexts intotokens, which are shown to be critical for recognition
per-formance but largely ignored by the self-attention. Experi-ments show that
our VOLO achieves 87.1% top-1 accuracyon ImageNet-1K classification, being the
first model exceed-ing 87% accuracy on this competitive benchmark, withoutusing
any extra training data. In addition, the pre-trainedVOLO transfers well to
downstream tasks, such as seman-tic segmentation. We achieve 84.3% mIoU score
on thecityscapes validation set and 54.3% on the ADE20K valida-tion set. Code
is available at https://github.com/sail-sg/volo.
- Abstract(参考訳): 視覚認識は長年にわたって畳み込み神経ネットワーク(cnns)によって支配されてきた。
近年,vts (pre-vailing vision transformers) は,imagenet classifica-tion における自己着脱型モデルの強力な性能を示しているが,その性能は最新の sota cnns に劣っている。
本研究では,パフォーマンスギャップを解消し,注意ベースモデルがCNNよりも優れていることを示す。
Ima-geNet分類におけるViTの性能を制限する主な要因は,トークン表現に微細な特徴をエンコードする際の有効性が低いことである。
これを解決するために,目新しさに注意を向け,単純で汎用的なアーキテクチャであるvision outlooker(volo)を提案する。
粗いレベルでのグローバルデペン・ダレンシ・モデリングに焦点を当てた自己注意とは違って、視点の注目は、より細かいレベルの特徴や文脈を効果的にエンコードすることを目的としている。
実験によると、imagenet-1k分類ではvoloが87.1%のtop-1精度を達成し、トレーニングデータなしでこのベンチマークで87%の精度を超えた最初のモデルとなった。
さらに、事前訓練されたVOLOは、セマンティックセグメンテーションのような下流タスクによく転送される。
都市景観検証セットで84.3% mIoU、ADE20Kバリデーションセットで54.3%を得る。
コードはhttps://github.com/sail-sg/voloで入手できる。
関連論文リスト
- Combined CNN and ViT features off-the-shelf: Another astounding baseline for recognition [49.14350399025926]
本稿では,ImageNet Large Scale Visual Recognition Challengeのために開発された事前学習型アーキテクチャを,近視認識に適用する。
CNNとViTの中間層の特徴は、近視画像に基づいて個人を認識するのに適した方法である。
論文 参考訳(メタデータ) (2024-07-28T11:52:36Z) - SeiT++: Masked Token Modeling Improves Storage-efficient Training [36.95646819348317]
近年のDeep Neural Network(DNN)モデルでは,コンピュータビジョンタスクのパフォーマンスが大幅に向上している。
高度に一般化可能で高性能なビジョンモデルを実現するには、拡張データセットが必要である。
SeiTによる最近のブレークスルーは、Vector-Quantized (VQ)特徴ベクトル(トークン)を視覚分類のためのネットワーク入力として使用することを提案した。
本稿では,自己指導型事前学習のためのMasked Token Modeling (MTM)を統合し,SeyTを拡張した。
論文 参考訳(メタデータ) (2023-12-15T04:11:34Z) - FasterViT: Fast Vision Transformers with Hierarchical Attention [63.50580266223651]
我々は、コンピュータビジョン(CV)アプリケーションのための高速スループットに焦点を当てた、FasterViTという名前のハイブリッドCNN-ViTニューラルネットワークの新たなファミリーを設計する。
新たに導入した階層的注意(HAT)アプローチは,グローバルな自己意識を2次複雑性で分解し,計算コストを削減した多面的注意に分解する。
論文 参考訳(メタデータ) (2023-06-09T18:41:37Z) - ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders [104.05133094625137]
完全畳み込み型マスク付きオートエンコーダフレームワークと,新たなグローバル応答正規化層を提案する。
この自己教師付き学習技術とアーキテクチャ改善の共設計により、純粋なConvNetの性能を大幅に向上させるConvNeXt V2と呼ばれる新しいモデルファミリが生まれる。
論文 参考訳(メタデータ) (2023-01-02T18:59:31Z) - Masked Unsupervised Self-training for Zero-shot Image Classification [98.23094305347709]
Masked Unsupervised Self-Training (MUST)は、疑似ラベルと生画像という2つの異なる、補完的な監督源を活用する新しいアプローチである。
MUSTはCLIPを大きなマージンで改善し、教師なしと教師なしの分類のパフォーマンスギャップを狭める。
論文 参考訳(メタデータ) (2022-06-07T02:03:06Z) - Understanding The Robustness in Vision Transformers [140.1090560977082]
自己注意は、改善された中レベルの表現を通して堅牢性を促進する。
我々は、この能力を強化するために、フルアテンショナルネットワーク(FAN)のファミリーを提案する。
我々のモデルは、76.8Mパラメータを持つImageNet-1kおよびImageNet-C上で、最先端の87.1%の精度と35.8%のmCEを達成する。
論文 参考訳(メタデータ) (2022-04-26T17:16:32Z) - Attend and Guide (AG-Net): A Keypoints-driven Attention-based Deep
Network for Image Recognition [13.230646408771868]
本稿では,新しいアテンション機構を用いて,きめ細かい変化をリンクする意味のある特徴を学習するエンド・ツー・エンドCNNモデルを提案する。
意味領域(SR)とその空間分布を識別することで画像内の空間構造をキャプチャし、画像の微妙な変化をモデル化する鍵であることが証明された。
このフレームワークは6つの多様なベンチマークデータセットで評価される。
論文 参考訳(メタデータ) (2021-10-23T09:43:36Z) - So-ViT: Mind Visual Tokens for Vision Transformer [27.243241133304785]
本稿では,視覚トークンの2次相互分散プールとクラストークンを組み合わせ,最終分類を行う新しい分類パラダイムを提案する。
我々は,視覚トークン埋め込みのためのオフ・ザ・棚畳み込みに基づく軽量階層モジュールを開発した。
その結果、我々のモデルは、スクラッチからトレーニングされた場合、競合するViTモデルよりも優れ、最先端のCNNモデルと同等かそれ以上であることがわかった。
論文 参考訳(メタデータ) (2021-04-22T09:05:09Z) - Compounding the Performance Improvements of Assembled Techniques in a
Convolutional Neural Network [6.938261599173859]
基本CNNモデルの精度とロバスト性を改善する方法について述べる。
提案したResNet-50は、トップ1の精度を76.3%から82.78%、mCEを76.0%から48.9%、mFRを57.7%から32.3%に改善した。
CVPR 2019でiFood Competition Fine-Grained Visual Recognitionで1位を獲得した。
論文 参考訳(メタデータ) (2020-01-17T12:42:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。