論文の概要: So-ViT: Mind Visual Tokens for Vision Transformer
- arxiv url: http://arxiv.org/abs/2104.10935v1
- Date: Thu, 22 Apr 2021 09:05:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-23 14:10:06.627847
- Title: So-ViT: Mind Visual Tokens for Vision Transformer
- Title(参考訳): So-ViT:視覚変換のためのマインドビジュアルトークン
- Authors: Jiangtao Xie, Ruiren Zeng, Qilong Wang, Ziqi Zhou, Peihua Li
- Abstract要約: 本稿では,視覚トークンの2次相互分散プールとクラストークンを組み合わせ,最終分類を行う新しい分類パラダイムを提案する。
我々は,視覚トークン埋め込みのためのオフ・ザ・棚畳み込みに基づく軽量階層モジュールを開発した。
その結果、我々のモデルは、スクラッチからトレーニングされた場合、競合するViTモデルよりも優れ、最先端のCNNモデルと同等かそれ以上であることがわかった。
- 参考スコア(独自算出の注目度): 27.243241133304785
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recently the vision transformer (ViT) architecture, where the backbone purely
consists of self-attention mechanism, has achieved very promising performance
in visual classification. However, the high performance of the original ViT
heavily depends on pretraining using ultra large-scale datasets, and it
significantly underperforms on ImageNet-1K if trained from scratch. This paper
makes the efforts toward addressing this problem, by carefully considering the
role of visual tokens. First, for classification head, existing ViT only
exploits class token while entirely neglecting rich semantic information
inherent in high-level visual tokens. Therefore, we propose a new
classification paradigm, where the second-order, cross-covariance pooling of
visual tokens is combined with class token for final classification. Meanwhile,
a fast singular value power normalization is proposed for improving the
second-order pooling. Second, the original ViT employs the naive embedding of
fixed-size image patches, lacking the ability to model translation equivariance
and locality. To alleviate this problem, we develop a light-weight,
hierarchical module based on off-the-shelf convolutions for visual token
embedding. The proposed architecture, which we call So-ViT, is thoroughly
evaluated on ImageNet-1K. The results show our models, when trained from
scratch, outperform the competing ViT variants, while being on par with or
better than state-of-the-art CNN models. Code is available at
https://github.com/jiangtaoxie/So-ViT
- Abstract(参考訳): 近年の視覚変換器(ViT)アーキテクチャは、バックボーンが純粋に自己認識機構から構成されており、視覚分類において非常に有望な性能を実現している。
しかし、オリジナルのvitの高性能は、超大規模データセットを使った事前トレーニングに大きく依存しており、スクラッチからトレーニングするとimagenet-1kにかなり劣る。
本稿では,視覚的トークンの役割を慎重に検討し,この問題への取り組みを行う。
まず、分類ヘッドの場合、既存のViTはクラストークンのみを使用し、ハイレベルなビジュアルトークンに固有のリッチなセマンティック情報を完全に無視する。
そこで本研究では,視覚トークンの2次相互分散をクラストークンと組み合わせ,最終分類を行う新しい分類パラダイムを提案する。
一方, 2次プール化を改善するために, 高速特異値パワー正規化を提案する。
第2に、オリジナルのViTは、固定サイズのイメージパッチの単純埋め込みを採用し、翻訳の等価性と局所性をモデル化する能力に欠ける。
この問題を軽減するために,視覚トークン埋め込みのためのオフ・ザ・棚畳み込みに基づく軽量階層モジュールを開発した。
提案アーキテクチャはSo-ViTと呼ばれ,ImageNet-1K上で徹底的に評価されている。
その結果、我々のモデルは、スクラッチからトレーニングされた場合、競合するViTモデルよりも優れ、最先端のCNNモデルと同等かそれ以上であることがわかった。
コードはhttps://github.com/jiangtaoxie/So-ViTで入手できる。
関連論文リスト
- A Comparative Survey of Vision Transformers for Feature Extraction in Texture Analysis [9.687982148528187]
畳み込みニューラルネットワーク(CNN)は現在、最高のテクスチャ分析アプローチの1つである。
視覚変換器(ViT)は、物体認識などのタスクにおいてCNNの性能を上回っている。
この研究は、テクスチャに依存するタスクに移行する際に、事前訓練された様々なViTアーキテクチャを探索する。
論文 参考訳(メタデータ) (2024-06-10T09:48:13Z) - Rethinking Hierarchicies in Pre-trained Plain Vision Transformer [76.35955924137986]
マスク付き画像モデリング(MIM)による自己教師付き事前学習型視覚変換器(ViT)は非常に効果的であることが証明されている。
カスタマイズされたアルゴリズムは、平易なViTのためにバニラと単純なMAEを使用する代わりに、例えばGreenMIMのような階層的なViTのために慎重に設計されるべきである。
本稿では,自己指導型事前学習から階層型アーキテクチャ設計を遠ざける新しいアイデアを提案する。
論文 参考訳(メタデータ) (2022-11-03T13:19:23Z) - Patch-level Representation Learning for Self-supervised Vision
Transformers [68.8862419248863]
視覚変換器(ViT)は近年、より優れたアーキテクチャ選択として多くの注目を集めており、様々な視覚タスクにおいて畳み込みネットワークよりも優れています。
これに触発された私たちは、パッチレベルの表現をより良く学習するための、SelfPatchという、シンプルで効果的なビジュアルプリテキストタスクを設計しました。
我々は、既存のSSLメソッドの様々な視覚的タスクに対する性能を大幅に改善できることを実証した。
論文 参考訳(メタデータ) (2022-06-16T08:01:19Z) - ViT-FOD: A Vision Transformer based Fine-grained Object Discriminator [21.351034332423374]
細粒度画像分類(FGVC)タスクのための新しいViTに基づく細粒度物体識別器を提案する。
ViTバックボーンの他に、APC(Attention Patch Combination)、CRF(Critical Regions Filter)、CTI(Complementary Tokens Integration)という3つの新しいコンポーネントが導入されている。
我々は広く使われているデータセットに関する包括的な実験を行い、その結果、ViT-FODが最先端のパフォーマンスを達成できることを実証した。
論文 参考訳(メタデータ) (2022-03-24T02:34:57Z) - PaCa-ViT: Learning Patch-to-Cluster Attention in Vision Transformers [9.63371509052453]
本稿では、視覚変換器(ViT)におけるパッチ・クラスタ・アテンション(PaCa)の学習を提案する。
提案したPaCaモジュールは、効率的かつ解釈可能なViTバックボーンとセマンティックセグメンテーションヘッドネットワークの設計に使用される。
線形複雑性のため、MS-COCOやMIT-ADE20kのPVTモデルよりもはるかに効率的である。
論文 参考訳(メタデータ) (2022-03-22T18:28:02Z) - VOLO: Vision Outlooker for Visual Recognition [148.12522298731807]
視覚変換器 (ViT) はイメージネット分類において自己注意に基づくモデルの可能性を示している。
我々は、新しい展望の展望を導入し、VoLO(Vision Outlooker)と呼ばれる、シンプルで一般的なアーキテクチャを提示する。
グローバルな依存性モデリングを粗いレベルで重視する自己注意とは異なり、展望はより詳細な機能やコンテキストをトークンに効率的にエンコードする。
実験の結果、私たちのVOLOはImageNet-1K分類で87.1%のトップ1の精度を達成しており、これはこの競合ベンチマークで87%以上の精度で最初のモデルである。
論文 参考訳(メタデータ) (2021-06-24T15:46:54Z) - DeepViT: Towards Deeper Vision Transformer [92.04063170357426]
近年,視覚変換器 (ViT) が画像分類タスクに応用されている。
より畳み込み層を積み重ねることで改善できる畳み込みニューラルネットワーク(CNN)とは異なり、ViTの性能はより深いスケールで飽和する。
本研究では,アテンションマップの多様性を高めるために,アテンションマップを再生成する手法であるre-attentionを提案する。
論文 参考訳(メタデータ) (2021-03-22T14:32:07Z) - Scalable Visual Transformers with Hierarchical Pooling [61.05787583247392]
本稿では,視覚的トークンを徐々にプールしてシーケンス長を縮小する階層的ビジュアルトランスフォーマ(hvt)を提案する。
計算の複雑さを増すことなく、深さ/幅/解像度/パッチサイズの寸法をスケールすることで、大きなメリットをもたらします。
当社のHVTはImageNetとCIFAR-100データセットの競合ベースラインを上回っています。
論文 参考訳(メタデータ) (2021-03-19T03:55:58Z) - Tokens-to-Token ViT: Training Vision Transformers from Scratch on
ImageNet [128.96032932640364]
視覚課題を解決するために,新しいTokens-To-Token Vision Transformer (T2T-ViT)を提案する。
T2T-ViTは、バニラViTのパラメータ数とMACを200%削減し、ImageNetでスクラッチからトレーニングすると2.5%以上の改善を実現している。
例えば、ResNet50に匹敵するサイズを持つT2T-ViTは、ImageNet上で80.7%のトップ1の精度を達成できる。
論文 参考訳(メタデータ) (2021-01-28T13:25:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。