論文の概要: SimViT: Exploring a Simple Vision Transformer with sliding windows
- arxiv url: http://arxiv.org/abs/2112.13085v1
- Date: Fri, 24 Dec 2021 15:18:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-28 16:00:43.502896
- Title: SimViT: Exploring a Simple Vision Transformer with sliding windows
- Title(参考訳): SimViT:スライディングウィンドウを備えたシンプルな視覚変換器
- Authors: Gang Li, Di Xu, Xing Cheng, Lingyu Si, Changwen Zheng
- Abstract要約: 視覚変換器に空間構造と局所情報を組み込む視覚変換器SimViTを導入する。
SimViTは、密集予測タスクのために異なるレイヤからマルチスケール階層的特徴を抽出する。
私たちのSimViT-Microは、ImageNet-1kデータセットで71.1%のトップ-1の精度を達成するのに、3.3Mパラメータしか必要としない。
- 参考スコア(独自算出の注目度): 3.3107339588116123
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although vision Transformers have achieved excellent performance as backbone
models in many vision tasks, most of them intend to capture global relations of
all tokens in an image or a window, which disrupts the inherent spatial and
local correlations between patches in 2D structure. In this paper, we introduce
a simple vision Transformer named SimViT, to incorporate spatial structure and
local information into the vision Transformers. Specifically, we introduce
Multi-head Central Self-Attention(MCSA) instead of conventional Multi-head
Self-Attention to capture highly local relations. The introduction of sliding
windows facilitates the capture of spatial structure. Meanwhile, SimViT
extracts multi-scale hierarchical features from different layers for dense
prediction tasks. Extensive experiments show the SimViT is effective and
efficient as a general-purpose backbone model for various image processing
tasks. Especially, our SimViT-Micro only needs 3.3M parameters to achieve 71.1%
top-1 accuracy on ImageNet-1k dataset, which is the smallest size vision
Transformer model by now. Our code will be available in
https://github.com/ucasligang/SimViT.
- Abstract(参考訳): 視覚変換器は多くの視覚タスクにおいてバックボーンモデルとして優れた性能を発揮しているが、そのほとんどは画像やウィンドウ内の全てのトークンのグローバルな関係を捉えることを目的としており、2D構造におけるパッチ間の固有の空間的および局所的相関を乱す。
本稿では、空間構造と局所情報を視覚変換器に組み込むための、SimViTというシンプルな視覚変換器を提案する。
具体的には,従来のマルチヘッド・セルフ・アテンションの代わりに,MCSA(Multi-head Central Self-Attention)を導入した。
スライディングウィンドウの導入は、空間構造のキャプチャを容易にする。
一方、SimViTは複数の層から複数の階層的特徴を抽出し、密集予測を行う。
広範な実験により、simvitは様々な画像処理タスクの汎用バックボーンモデルとして効果的かつ効率的であることが示されている。
特に我々のSimViT-Microは、ImageNet-1kデータセットで71.1%の精度を達成するために3.3Mパラメータしか必要としていない。
私たちのコードはhttps://github.com/ucasligang/simvitで利用可能です。
関連論文リスト
- Depth-Wise Convolutions in Vision Transformers for Efficient Training on Small Datasets [11.95214938154427]
Vision Transformer (ViT)は、イメージをパッチに分割することで、グローバルな情報をキャプチャする。
ViTは、画像やビデオデータセットのトレーニング中に誘導バイアスを欠く。
本稿では,ViTモデルのショートカットとして,軽量なDepth-Wise Convolutionモジュールを提案する。
論文 参考訳(メタデータ) (2024-07-28T04:23:40Z) - How to Train Vision Transformer on Small-scale Datasets? [4.56717163175988]
畳み込みニューラルネットワークとは対照的に、Vision Transformerには固有の帰納バイアスがない。
自己教師付き帰納バイアスは,小規模データセットから直接学習可能であることを示す。
これにより、大規模な事前トレーニングやモデルアーキテクチャの変更、損失関数を必要とせずに、これらのモデルをトレーニングすることができる。
論文 参考訳(メタデータ) (2022-10-13T17:59:19Z) - HiViT: Hierarchical Vision Transformer Meets Masked Image Modeling [126.89573619301953]
我々はHiViT(Hierarchical ViT)という階層型視覚変換器の新しい設計を提案する。
HiViTはMIMで高い効率と優れたパフォーマンスを享受する。
ImageNet-1K上でMAEを実行する場合、HiViT-BはViT-Bよりも0.6%精度が向上し、Swin-Bよりも1.9$times$スピードアップしたと報告している。
論文 参考訳(メタデータ) (2022-05-30T09:34:44Z) - Vision Transformer with Convolutions Architecture Search [72.70461709267497]
本稿では,畳み込み型アーキテクチャサーチ(VTCAS)を用いたアーキテクチャ探索手法を提案する。
VTCASによって探索された高性能バックボーンネットワークは、畳み込みニューラルネットワークの望ましい特徴をトランスフォーマーアーキテクチャに導入する。
これは、特に低照度屋内シーンにおいて、物体認識のためのニューラルネットワークの堅牢性を高める。
論文 参考訳(メタデータ) (2022-03-20T02:59:51Z) - ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for
Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文 参考訳(メタデータ) (2022-02-21T10:40:05Z) - MPViT: Multi-Path Vision Transformer for Dense Prediction [43.89623453679854]
Vision Transformers (ViTs) は、単一スケールパッチによるマルチスケール表現のためのシンプルなマルチステージ構造を構築する。
OuriTsのスケールは5Mから73Mまでで、最先端のVision Transformerよりも優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2021-12-21T06:34:50Z) - Pruning Self-attentions into Convolutional Layers in Single Path [89.55361659622305]
ビジョントランスフォーマー(ViT)は、様々なコンピュータビジョンタスクに対して印象的なパフォーマンスを実現している。
トレーニング済みのViTを効率よく自動圧縮するSPViT(Single-Path Vision Transformer pruning)を提案する。
われわれのSPViTはDeiT-Bで52.0%のFLOPをトリミングできる。
論文 参考訳(メタデータ) (2021-11-23T11:35:54Z) - Vision Transformer with Progressive Sampling [73.60630716500154]
本稿では,識別領域を特定するための反復的・漸進的なサンプリング手法を提案する。
ImageNetでスクラッチからトレーニングされた場合、PS-ViTはトップ1の精度でバニラViTよりも3.8%高いパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-08-03T18:04:31Z) - ViTAE: Vision Transformer Advanced by Exploring Intrinsic Inductive Bias [76.16156833138038]
コンボリューション, ie, ViTAEから内在性IBを探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
各トランス層では、ViTAEはマルチヘッド自己保持モジュールと平行な畳み込みブロックを持ち、その特徴は融合されフィードフォワードネットワークに供給される。
論文 参考訳(メタデータ) (2021-06-07T05:31:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。