論文の概要: SP-ViT: Learning 2D Spatial Priors for Vision Transformers
- arxiv url: http://arxiv.org/abs/2206.07662v1
- Date: Wed, 15 Jun 2022 16:54:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-16 14:12:17.993246
- Title: SP-ViT: Learning 2D Spatial Priors for Vision Transformers
- Title(参考訳): SP-ViT:視覚変換器のための2次元空間優先学習
- Authors: Yuxuan Zhou, Wangmeng Xiang, Chao Li, Biao Wang, Xihan Wei, Lei Zhang,
Margret Keuper, Xiansheng Hua
- Abstract要約: 本稿では,視覚変換器に適した新しいバニラ自己注意法である空間優先自己注意法(SP-SA)を提案する。
畳み込み帰納バイアスとは異なり,提案したSPはモデル自体から学習され,様々な空間的関係を考慮に入れている。
我々の最大のモデルSP-ViT-Lは86.3%のTop-1精度を達成し、パラメータの数を約50%削減した。
- 参考スコア(独自算出の注目度): 39.146204041993485
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, transformers have shown great potential in image classification and
established state-of-the-art results on the ImageNet benchmark. However,
compared to CNNs, transformers converge slowly and are prone to overfitting in
low-data regimes due to the lack of spatial inductive biases. Such spatial
inductive biases can be especially beneficial since the 2D structure of an
input image is not well preserved in transformers. In this work, we present
Spatial Prior-enhanced Self-Attention (SP-SA), a novel variant of vanilla
Self-Attention (SA) tailored for vision transformers. Spatial Priors (SPs) are
our proposed family of inductive biases that highlight certain groups of
spatial relations. Unlike convolutional inductive biases, which are forced to
focus exclusively on hard-coded local regions, our proposed SPs are learned by
the model itself and take a variety of spatial relations into account.
Specifically, the attention score is calculated with emphasis on certain kinds
of spatial relations at each head, and such learned spatial foci can be
complementary to each other. Based on SP-SA we propose the SP-ViT family, which
consistently outperforms other ViT models with similar GFlops or parameters.
Our largest model SP-ViT-L achieves a record-breaking 86.3% Top-1 accuracy with
a reduction in the number of parameters by almost 50% compared to previous
state-of-the-art model (150M for SP-ViT-L vs 271M for CaiT-M-36) among all
ImageNet-1K models trained on 224x224 and fine-tuned on 384x384 resolution w/o
extra data.
- Abstract(参考訳): 近年、トランスフォーマーは画像分類に大きな可能性を示し、ImageNetベンチマークで最先端の結果を確立している。
しかし、cnnと比較すると、トランスフォーマーは緩やかに収束し、空間的インダクティブバイアスの欠如により低データのレジームではオーバーフィットしがちである。
このような空間誘導バイアスは、入力画像の2次元構造がトランスによく保存されていないため、特に有益である。
本研究では,視覚トランスフォーマーに適したバニラ自己注意(Vanilla Self-Attention, SA)の新たな変種であるSP-SAを提案する。
空間的優先順位(sps)は,ある空間的関係群を強調する帰納的バイアスの族である。
畳み込み帰納バイアスとは違い,提案したSPはモデル自体から学習し,様々な空間的関係を考慮に入れている。
具体的には、各頭部の特定の空間関係を重視して注意スコアを算出し、これらの学習された空間相関を相補的にすることができる。
SP-SAに基づいて、同様のGFlopやパラメータを持つ他のViTモデルよりも一貫して優れているSP-ViTファミリを提案する。
我々の最大のモデルSP-ViT-Lは、224x224でトレーニングされたすべてのImageNet-1Kモデルのうち、384x384解像度w/o余剰データのうち、過去の最先端モデル(SP-ViT-Lが150M、CaiT-M-36が271M)と比較してパラメータ数を約50%削減し、86.3%のTop-1精度を達成した。
関連論文リスト
- Cascaded Dual Vision Transformer for Accurate Facial Landmark Detection [9.912884384424542]
本稿では,D-ViT (Dual Vision Transformer) とLong Skip Connections (LSC) の2つのユニークな設計からなる,視覚変換器に基づく新しい顔ランドマーク検出器を提案する。
本稿では,これらの線形基底間の相互接続を学習し,チャネル分割型VTを用いてランドマーク間の固有幾何学的関係をモデル化する。
また,全ての予測ブロックに低レベルの画像特徴を提供するために,長いスキップ接続を用いることで,中間管理によって有用な情報が破棄されるのを防ぐことも提案する。
論文 参考訳(メタデータ) (2024-11-08T07:26:39Z) - From Saliency to DINO: Saliency-guided Vision Transformer for Few-shot
Keypoint Detection [36.9781808268263]
FSKD(Few-shot Keypoint Detection)は、参照サンプルに応じて、新規またはベースキーポイントを含むキーポイントをローカライズする。
FSKDは、ユビキタスノイズと曖昧な局所パターンを克服するために、キーポイント類似性学習に意味論的に意味のある関係を必要とする。
数発のキーポイント検出のための新しいサリエンシ誘導型視覚変換器であるSalViTを提案する。
論文 参考訳(メタデータ) (2023-04-06T15:22:34Z) - Bridging the Gap Between Vision Transformers and Convolutional Neural
Networks on Small Datasets [91.25055890980084]
小さなデータセットでスクラッチからトレーニングする場合、ビジョントランスフォーマー(ViT)と畳み込みニューラルネットワーク(CNN)の間には、依然として極端なパフォーマンスギャップがある。
本稿では2つの帰納バイアスを緩和する解として動的ハイブリッドビジョン変換器(DHVT)を提案する。
我々のDHVTは、CIFAR-100が85.68%、22.8Mパラメータが82.3%、ImageNet-1Kが24.0Mパラメータが82.3%の軽量モデルで、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-10-12T06:54:39Z) - Vicinity Vision Transformer [53.43198716947792]
線形複雑度を有する視覚変換器に局所性バイアスを導入するビシニティ注意法を提案する。
提案手法は,従来の手法よりも50%少ないパラメータで,最先端の画像分類精度を実現する。
論文 参考訳(メタデータ) (2022-06-21T17:33:53Z) - ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for
Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文 参考訳(メタデータ) (2022-02-21T10:40:05Z) - Pruning Self-attentions into Convolutional Layers in Single Path [89.55361659622305]
ビジョントランスフォーマー(ViT)は、様々なコンピュータビジョンタスクに対して印象的なパフォーマンスを実現している。
トレーニング済みのViTを効率よく自動圧縮するSPViT(Single-Path Vision Transformer pruning)を提案する。
われわれのSPViTはDeiT-Bで52.0%のFLOPをトリミングできる。
論文 参考訳(メタデータ) (2021-11-23T11:35:54Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。