論文の概要: Vision Transformer with Convolutions Architecture Search
- arxiv url: http://arxiv.org/abs/2203.10435v1
- Date: Sun, 20 Mar 2022 02:59:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-22 16:53:54.006085
- Title: Vision Transformer with Convolutions Architecture Search
- Title(参考訳): アーキテクチャ検索の畳み込みによるビジョントランスフォーマー
- Authors: Haichao Zhang, Kuangrong Hao, Witold Pedrycz, Lei Gao, Xuesong Tang,
and Bing Wei
- Abstract要約: 本稿では,畳み込み型アーキテクチャサーチ(VTCAS)を用いたアーキテクチャ探索手法を提案する。
VTCASによって探索された高性能バックボーンネットワークは、畳み込みニューラルネットワークの望ましい特徴をトランスフォーマーアーキテクチャに導入する。
これは、特に低照度屋内シーンにおいて、物体認識のためのニューラルネットワークの堅牢性を高める。
- 参考スコア(独自算出の注目度): 72.70461709267497
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers exhibit great advantages in handling computer vision tasks. They
model image classification tasks by utilizing a multi-head attention mechanism
to process a series of patches consisting of split images. However, for complex
tasks, Transformer in computer vision not only requires inheriting a bit of
dynamic attention and global context, but also needs to introduce features
concerning noise reduction, shifting, and scaling invariance of objects.
Therefore, here we take a step forward to study the structural characteristics
of Transformer and convolution and propose an architecture search method-Vision
Transformer with Convolutions Architecture Search (VTCAS). The high-performance
backbone network searched by VTCAS introduces the desirable features of
convolutional neural networks into the Transformer architecture while
maintaining the benefits of the multi-head attention mechanism. The searched
block-based backbone network can extract feature maps at different scales.
These features are compatible with a wider range of visual tasks, such as image
classification (32 M parameters, 82.0% Top-1 accuracy on ImageNet-1K) and
object detection (50.4% mAP on COCO2017). The proposed topology based on the
multi-head attention mechanism and CNN adaptively associates relational
features of pixels with multi-scale features of objects. It enhances the
robustness of the neural network for object recognition, especially in the low
illumination indoor scene.
- Abstract(参考訳): トランスフォーマーはコンピュータビジョンタスクの処理において大きな利点を示す。
彼らはマルチヘッドアテンション機構を利用して画像分類タスクをモデル化し、分割画像からなる一連のパッチを処理する。
しかし、複雑なタスクでは、コンピュータビジョンにおけるトランスフォーマーは、少しダイナミックな注意とグローバルなコンテキストを継承するだけでなく、ノイズの低減、シフト、オブジェクトのスケール不変性に関する機能を導入する必要がある。
そこで本研究では,トランスフォーマーとコンボリューションの構造特性について考察し,コンボリューションアーキテクチャサーチ(VTCAS)を用いたアーキテクチャ探索手法を提案する。
VTCASによって探索された高性能バックボーンネットワークは、マルチヘッドアテンション機構の利点を維持しつつ、畳み込みニューラルネットワークの望ましい特徴をTransformerアーキテクチャに導入する。
検索されたブロックベースのバックボーンネットワークは、異なるスケールで特徴マップを抽出することができる。
これらの特徴は、画像分類(32Mパラメータ、ImageNet-1KのTop-1精度82.0%)やオブジェクト検出(COCO2017の50.4% mAP)など、幅広い視覚的タスクと互換性がある。
マルチヘッドアテンション機構に基づくトポロジーとcnnは,画素のリレーショナル特徴とオブジェクトのマルチスケール特徴を適応的に関連付ける。
これは、特に低照度屋内シーンにおいて、物体認識のためのニューラルネットワークの堅牢性を高める。
関連論文リスト
- NiNformer: A Network in Network Transformer with Token Mixing as a Gating Function Generator [1.3812010983144802]
このアテンション機構はコンピュータビジョンでビジョントランスフォーマー ViT として使用された。
コストがかかり、効率的な最適化のためにかなりのサイズのデータセットを必要とするという欠点がある。
本稿では,新しい計算ブロックを標準ViTブロックの代替として導入し,計算負荷を削減する。
論文 参考訳(メタデータ) (2024-03-04T19:08:20Z) - ReViT: Enhancing Vision Transformers Feature Diversity with Attention Residual Connections [8.372189962601077]
視覚変換器(ViT)自己保持機構は、深い層に特徴的崩壊を特徴とする。
本稿では,ViTに基づくアーキテクチャを改良するための新たな注意学習手法を提案する。
論文 参考訳(メタデータ) (2024-02-17T14:44:10Z) - ClusVPR: Efficient Visual Place Recognition with Clustering-based
Weighted Transformer [13.0858576267115]
ClusVPRは重複する領域における冗長な情報の特定の問題と、小さなオブジェクトの表現に対処する新しいアプローチである。
ClusVPRはClustering-based weighted Transformer Network (CWTNet)と呼ばれるユニークなパラダイムを導入した
また,パラメータ数を大幅に削減し,モデル効率を向上させる最適化VLAD層を導入する。
論文 参考訳(メタデータ) (2023-10-06T09:01:15Z) - Vision Transformer with Quadrangle Attention [76.35955924137986]
窓面に基づく注意を一般的な四角形定式化に拡張する新しい四角形注意法(QA)を提案する。
提案手法では,既定のウィンドウを対象の四角形に変換するために,変換行列を予測し,エンドツーエンドで学習可能な四角形回帰モジュールを用いる。
QAをプレーンかつ階層的な視覚変換器に統合し、QFormerという名の新しいアーキテクチャを作成します。
論文 参考訳(メタデータ) (2023-03-27T11:13:50Z) - SIM-Trans: Structure Information Modeling Transformer for Fine-grained
Visual Categorization [59.732036564862796]
本稿では,オブジェクト構造情報を変換器に組み込んだSIM-Trans(Structure Information Modeling Transformer)を提案する。
提案した2つのモジュールは軽量化されており、任意のトランスフォーマーネットワークにプラグインでき、エンドツーエンドで容易に訓練できる。
実験と解析により,提案したSIM-Transが細粒度視覚分類ベンチマークの最先端性能を達成することを示した。
論文 参考訳(メタデータ) (2022-08-31T03:00:07Z) - Transformer-Guided Convolutional Neural Network for Cross-View
Geolocalization [20.435023745201878]
本稿ではトランスフォーマー誘導型畳み込みニューラルネットワーク(TransGCNN)アーキテクチャを提案する。
我々のTransGCNNは、入力画像からCNNのバックボーン抽出特徴マップと、グローバルコンテキストをモデル化するTransformerヘッドで構成される。
CVUSAとCVACT_valでそれぞれ94.12%,84.92%の精度を達成した。
論文 参考訳(メタデータ) (2022-04-21T08:46:41Z) - Rich CNN-Transformer Feature Aggregation Networks for Super-Resolution [50.10987776141901]
近年の視覚変換器と自己注意は,様々なコンピュータビジョンタスクにおいて有望な成果を上げている。
我々は,CNNの局所的特徴とトランスフォーマーが捉えた長距離依存性を活用する,超解像(SR)タスクのための効果的なハイブリッドアーキテクチャを提案する。
提案手法は,多数のベンチマークデータセットから最先端のSR結果を得る。
論文 参考訳(メタデータ) (2022-03-15T06:52:25Z) - Less is More: Pay Less Attention in Vision Transformers [61.05787583247392]
注意の少ないvIsion Transformerは、畳み込み、完全接続層、自己アテンションが、画像パッチシーケンスを処理するためにほぼ同等な数学的表現を持つという事実に基づいている。
提案したLITは、画像分類、オブジェクト検出、インスタンス分割を含む画像認識タスクにおいて有望な性能を達成する。
論文 参考訳(メタデータ) (2021-05-29T05:26:07Z) - Transformers in Vision: A Survey [101.07348618962111]
トランスフォーマーは、入力シーケンス要素間の長い依存関係をモデリングし、シーケンスの並列処理をサポートします。
変圧器は設計に最小限の誘導バイアスを必要とし、自然にセット関数として適しています。
本調査は,コンピュータビジョン分野におけるトランスフォーマーモデルの概要を概観することを目的としている。
論文 参考訳(メタデータ) (2021-01-04T18:57:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。