論文の概要: A survey of the Vision Transformers and their CNN-Transformer based Variants
- arxiv url: http://arxiv.org/abs/2305.09880v4
- Date: Sat, 27 Jul 2024 11:01:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-31 01:16:44.589095
- Title: A survey of the Vision Transformers and their CNN-Transformer based Variants
- Title(参考訳): 視覚変換器とそのCNN変換器に基づく変数の検討
- Authors: Asifullah Khan, Zunaira Rauf, Anabia Sohail, Abdul Rehman, Hifsa Asif, Aqsa Asif, Umair Farooq,
- Abstract要約: ビジョントランスフォーマーは、様々なコンピュータビジョンアプリケーションのための畳み込みニューラルネットワーク(CNN)の代替として人気がある。
これらのトランスフォーマーは、画像のグローバルな関係にフォーカスする能力を持ち、大きな学習能力を提供する。
近年,視覚変換器による畳み込み操作と自己認識機構のハイブリッド化が出現し,局所的およびグローバルな画像表現の両面を利用した。
- 参考スコア(独自算出の注目度): 0.48163317476588563
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision transformers have become popular as a possible substitute to convolutional neural networks (CNNs) for a variety of computer vision applications. These transformers, with their ability to focus on global relationships in images, offer large learning capacity. However, they may suffer from limited generalization as they do not tend to model local correlation in images. Recently, in vision transformers hybridization of both the convolution operation and self-attention mechanism has emerged, to exploit both the local and global image representations. These hybrid vision transformers, also referred to as CNN-Transformer architectures, have demonstrated remarkable results in vision applications. Given the rapidly growing number of hybrid vision transformers, it has become necessary to provide a taxonomy and explanation of these hybrid architectures. This survey presents a taxonomy of the recent vision transformer architectures and more specifically that of the hybrid vision transformers. Additionally, the key features of these architectures such as the attention mechanisms, positional embeddings, multi-scale processing, and convolution are also discussed. In contrast to the previous survey papers that are primarily focused on individual vision transformer architectures or CNNs, this survey uniquely emphasizes the emerging trend of hybrid vision transformers. By showcasing the potential of hybrid vision transformers to deliver exceptional performance across a range of computer vision tasks, this survey sheds light on the future directions of this rapidly evolving architecture.
- Abstract(参考訳): ビジョントランスフォーマーは、様々なコンピュータビジョンアプリケーションのための畳み込みニューラルネットワーク(CNN)の代替として人気がある。
これらのトランスフォーマーは、画像のグローバルな関係にフォーカスする能力を持ち、大きな学習能力を提供する。
しかし、画像の局所的相関をモデル化しないため、限定的な一般化に悩まされることがある。
近年,視覚変換器による畳み込み操作と自己認識機構のハイブリダイゼーションが出現し,局所的および大域的画像表現の両面を利用した。
これらのハイブリッド・ビジョン・トランスフォーマーは、CNN-Transformerアーキテクチャとしても知られており、視覚応用において顕著な成果を上げている。
ハイブリット・ビジョン・トランスフォーマーが急速に増えていることから、これらのハイブリッド・アーキテクチャの分類と説明を提供する必要がある。
本調査では,近年のビジョントランスフォーマーアーキテクチャの分類,特にハイブリッドビジョントランスフォーマーの分類について述べる。
さらに,アテンション機構,位置埋め込み,マルチスケール処理,畳み込みなど,これらのアーキテクチャの重要な特徴についても論じる。
個々のビジョントランスフォーマーアーキテクチャ(CNN)に主に焦点を絞った以前の調査論文とは対照的に、この調査はハイブリッドビジョントランスフォーマーの新たなトレンドを強調している。
ハイブリット・ビジョン・トランスフォーマーが様々なコンピュータビジョンタスクにまたがって優れたパフォーマンスをもたらす可能性を示すことで、この急速に進化するアーキテクチャの今後の方向性に光を当てることになる。
関連論文リスト
- ViT-LCA: A Neuromorphic Approach for Vision Transformers [0.0]
本稿では、視覚変換器と局所競合アルゴリズム(LCA)を組み合わせて、効率的なニューロモルフィック展開を容易にする新しいモデルを提案する。
実験の結果、VT-LCAはImageNet-1Kデータセット上で高い精度を実現し、他のスパイキング視覚変換器よりもはるかに少ないエネルギーを消費することがわかった。
論文 参考訳(メタデータ) (2024-10-31T18:41:30Z) - Multi-Dimensional Hyena for Spatial Inductive Bias [69.3021852589771]
自己注意に依存しないデータ効率の高い視覚変換器を提案する。
代わりに、非常に最近のハイエナ層の複数の軸に新しい一般化を用いる。
ハイエナN-DをベースとしたハイブリッドなアプローチをViTの第1層に適用し,それに続いて従来の注目層を取り入れた手法により,様々な視覚トランスフォーマーアーキテクチャの性能が一貫して向上することを示す。
論文 参考訳(メタデータ) (2023-09-24T10:22:35Z) - Interpret Vision Transformers as ConvNets with Dynamic Convolutions [70.59235381143831]
我々は、ビジョントランスフォーマーを動的畳み込みを備えたConvNetと解釈し、既存のトランスフォーマーと動的コンバータを統一されたフレームワークで特徴付けることができる。
ConvNetsの設計空間から視覚変換器を考えることができるため、我々の解釈もネットワーク設計を導くことができる。
論文 参考訳(メタデータ) (2023-09-19T16:00:49Z) - What Makes for Good Tokenizers in Vision Transformer? [62.44987486771936]
変圧器は自己注意を用いて対関係を抽出することができる。
優れたトークンライザとなるものは、コンピュータビジョンではよく理解されていない。
Tokens (MoTo) を横断する変調は、正規化によるトークン間モデリング機能を備えている。
TokenPropの正規化対象は、標準トレーニング体制で採用されている。
論文 参考訳(メタデータ) (2022-12-21T15:51:43Z) - Multi-manifold Attention for Vision Transformers [12.862540139118073]
ビジョントランスフォーマーは、いくつかのコンピュータビジョンタスクにおける最先端の性能のために、今日では非常に人気がある。
本研究では, 変圧器のバニラ自己注意の代替として, マルチマニフォールドマルチヘッドアテンションと呼ばれる新しいアテンション機構を提案する。
論文 参考訳(メタデータ) (2022-07-18T12:53:53Z) - Aggregated Pyramid Vision Transformer: Split-transform-merge Strategy
for Image Recognition without Convolutions [1.1032962642000486]
この作業は、Vision Transformerをピラミッドアーキテクチャと組み合わせ、Split-merge-transformを使用してグループエンコーダを提案し、ネットワークアーキテクチャAggregated Pyramid Vision Transformer (APVT) と命名する。
CIFAR-10データセット上で画像分類タスクを行い、COCO 2017データセット上でオブジェクト検出タスクを実行する。
論文 参考訳(メタデータ) (2022-03-02T09:14:28Z) - Can Vision Transformers Perform Convolution? [78.42076260340869]
画像パッチを入力とする単一のViT層が任意の畳み込み操作を構成的に実行可能であることを示す。
我々は、CNNを表現するビジョントランスフォーマーのヘッド数を低くする。
論文 参考訳(メタデータ) (2021-11-02T03:30:17Z) - Transformers in Vision: A Survey [101.07348618962111]
トランスフォーマーは、入力シーケンス要素間の長い依存関係をモデリングし、シーケンスの並列処理をサポートします。
変圧器は設計に最小限の誘導バイアスを必要とし、自然にセット関数として適しています。
本調査は,コンピュータビジョン分野におけるトランスフォーマーモデルの概要を概観することを目的としている。
論文 参考訳(メタデータ) (2021-01-04T18:57:24Z) - A Survey on Visual Transformer [126.56860258176324]
Transformerは、主に自己認識機構に基づくディープニューラルネットワークの一種である。
本稿では、これらの視覚変換器モデルについて、異なるタスクで分類し、それらの利点と欠点を分析することでレビューする。
論文 参考訳(メタデータ) (2020-12-23T09:37:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。