論文の概要: A survey of the Vision Transformers and its CNN-Transformer based
Variants
- arxiv url: http://arxiv.org/abs/2305.09880v2
- Date: Thu, 25 May 2023 08:42:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 19:47:44.684695
- Title: A survey of the Vision Transformers and its CNN-Transformer based
Variants
- Title(参考訳): 視覚トランスフォーマーとそのcnnトランスフォーマーに基づく変種に関する調査
- Authors: Asifullah Khan, Zunaira Rauf, Anabia Sohail, Abdul Rehman, Hifsa Asif,
Aqsa Asif, and Umair Farooq
- Abstract要約: 近年、様々なコンピュータビジョンアプリケーションのための畳み込みニューラルネットワーク(CNN)の代替として、ビジョントランスフォーマーが普及している。
これらのビジョントランスフォーマーは、画像内のグローバルな関係に焦点を合わせる能力が大きいが、一般化が不十分になる可能性があるためである。
この調査は、様々なコンピュータビジョンタスクにおいて優れた性能を達成するためのハイブリッドビジョントランスフォーマーの可能性を強調している。
- 参考スコア(独自算出の注目度): 0.5540875567089276
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision transformers have recently become popular as a possible alternative to
convolutional neural networks (CNNs) for a variety of computer vision
applications. These vision transformers due to their ability to focus on global
relationships in images have large capacity, but may result in poor
generalization as compared to CNNs. Very recently, the hybridization of
convolution and self-attention mechanisms in vision transformers is gaining
popularity due to their ability of exploiting both local and global image
representations. These CNN-Transformer architectures also known as hybrid
vision transformers have shown remarkable results for vision applications.
Recently, due to the rapidly growing number of these hybrid vision
transformers, there is a need for a taxonomy and explanation of these
architectures. This survey presents a taxonomy of the recent vision transformer
architectures, and more specifically that of the hybrid vision transformers.
Additionally, the key features of each architecture such as the attention
mechanisms, positional embeddings, multi-scale processing, and convolution are
also discussed. This survey highlights the potential of hybrid vision
transformers to achieve outstanding performance on a variety of computer vision
tasks. Moreover, it also points towards the future directions of this rapidly
evolving field.
- Abstract(参考訳): 視覚トランスフォーマーは最近、様々なコンピュータビジョンアプリケーションのための畳み込みニューラルネットワーク(cnns)の代替として人気を博した。
これらのビジョントランスフォーマーは、画像内のグローバルな関係に焦点を合わせる能力が大きいが、CNNと比較して一般化が不十分になる可能性がある。
近年,視覚変換器における畳み込みと自己認識機構のハイブリッド化が注目されている。
これらのcnn-transformerアーキテクチャはハイブリッドビジョントランスフォーマーとしても知られ、視覚応用において顕著な結果を示している。
近年、これらのハイブリッド視覚トランスフォーマーが急速に増えているため、これらのアーキテクチャの分類と説明が必要である。
本調査では,近年のビジョントランスフォーマーアーキテクチャの分類,特にハイブリッドビジョントランスフォーマーの分類について述べる。
さらに,注意機構,位置埋め込み,マルチスケール処理,畳み込みといった各アーキテクチャの重要な特徴についても述べる。
この調査は、様々なコンピュータビジョンタスクにおいて優れた性能を達成するためのハイブリッドビジョントランスフォーマーの可能性を強調している。
さらに、この急速に発展する分野の今後の方向性も指している。
関連論文リスト
- Holistically Explainable Vision Transformers [136.27303006772294]
本稿では,B-cos変換器を提案する。
具体的には、各モデルコンポーネント(多層パーセプトロン、注意層、トークン化モジュールなど)を動的線形に定式化する。
提案した設計をViT(Vision Transformers)に適用し,Bcos-ViTと呼ばれるモデルが高解釈可能であり,ベースラインのViTと競合することを示す。
論文 参考訳(メタデータ) (2023-01-20T16:45:34Z) - What Makes for Good Tokenizers in Vision Transformer? [62.44987486771936]
変圧器は自己注意を用いて対関係を抽出することができる。
優れたトークンライザとなるものは、コンピュータビジョンではよく理解されていない。
Tokens (MoTo) を横断する変調は、正規化によるトークン間モデリング機能を備えている。
TokenPropの正規化対象は、標準トレーニング体制で採用されている。
論文 参考訳(メタデータ) (2022-12-21T15:51:43Z) - Multi-manifold Attention for Vision Transformers [21.709020908944467]
この研究は、ビジョントランスフォーマーネットワークにおける標準的なアテンション機構に代えて、マルチマニフォールドアテンションと呼ばれる新しいアテンション機構を提案する。
提案した視覚変換器は、識別的特徴に注意を向けるようになり、分類結果が改善される。
論文 参考訳(メタデータ) (2022-07-18T12:53:53Z) - Aggregated Pyramid Vision Transformer: Split-transform-merge Strategy
for Image Recognition without Convolutions [1.1032962642000486]
この作業は、Vision Transformerをピラミッドアーキテクチャと組み合わせ、Split-merge-transformを使用してグループエンコーダを提案し、ネットワークアーキテクチャAggregated Pyramid Vision Transformer (APVT) と命名する。
CIFAR-10データセット上で画像分類タスクを行い、COCO 2017データセット上でオブジェクト検出タスクを実行する。
論文 参考訳(メタデータ) (2022-03-02T09:14:28Z) - Can Vision Transformers Perform Convolution? [78.42076260340869]
画像パッチを入力とする単一のViT層が任意の畳み込み操作を構成的に実行可能であることを示す。
我々は、CNNを表現するビジョントランスフォーマーのヘッド数を低くする。
論文 参考訳(メタデータ) (2021-11-02T03:30:17Z) - Vision Transformers for Dense Prediction [77.34726150561087]
高密度予測タスクのバックボーンとして、畳み込みネットワークの代わりにビジョントランスを活用するアーキテクチャである高密度ビジョントランスを紹介します。
実験により,このアーキテクチャは高密度予測タスクにおいて大幅な改善をもたらすことが示された。
論文 参考訳(メタデータ) (2021-03-24T18:01:17Z) - Transformers in Vision: A Survey [101.07348618962111]
トランスフォーマーは、入力シーケンス要素間の長い依存関係をモデリングし、シーケンスの並列処理をサポートします。
変圧器は設計に最小限の誘導バイアスを必要とし、自然にセット関数として適しています。
本調査は,コンピュータビジョン分野におけるトランスフォーマーモデルの概要を概観することを目的としている。
論文 参考訳(メタデータ) (2021-01-04T18:57:24Z) - A Survey on Visual Transformer [108.08449948200844]
Transformerは、主に自己認識機構に基づくディープニューラルネットワークの一種である。
本稿では,これら視覚トランスフォーマーモデルを異なるタスクに分類し,その利点と欠点を分析して検討する。
論文 参考訳(メタデータ) (2020-12-23T09:37:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。