論文の概要: Aggregated Pyramid Vision Transformer: Split-transform-merge Strategy
for Image Recognition without Convolutions
- arxiv url: http://arxiv.org/abs/2203.00960v1
- Date: Wed, 2 Mar 2022 09:14:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-03 15:42:50.039173
- Title: Aggregated Pyramid Vision Transformer: Split-transform-merge Strategy
for Image Recognition without Convolutions
- Title(参考訳): Aggregated Pyramid Vision Transformer:畳み込みのない画像認識のための分割変換マージ戦略
- Authors: Rui-Yang Ju, Ting-Yu Lin, Jen-Shiun Chiang, Jia-Hao Jian, Yu-Shian
Lin, and Liu-Rui-Yi Huang
- Abstract要約: この作業は、Vision Transformerをピラミッドアーキテクチャと組み合わせ、Split-merge-transformを使用してグループエンコーダを提案し、ネットワークアーキテクチャAggregated Pyramid Vision Transformer (APVT) と命名する。
CIFAR-10データセット上で画像分類タスクを行い、COCO 2017データセット上でオブジェクト検出タスクを実行する。
- 参考スコア(独自算出の注目度): 1.1032962642000486
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the achievements of Transformer in the field of natural language
processing, the encoder-decoder and the attention mechanism in Transformer have
been applied to computer vision. Recently, in multiple tasks of computer vision
(image classification, object detection, semantic segmentation, etc.),
state-of-the-art convolutional neural networks have introduced some concepts of
Transformer. This proves that Transformer has a good prospect in the field of
image recognition. After Vision Transformer was proposed, more and more works
began to use self-attention to completely replace the convolutional layer. This
work is based on Vision Transformer, combined with the pyramid architecture,
using Split-transform-merge to propose the group encoder and name the network
architecture Aggregated Pyramid Vision Transformer (APVT). We perform image
classification tasks on the CIFAR-10 dataset and object detection tasks on the
COCO 2017 dataset. Compared with other network architectures that use
Transformer as the backbone, APVT has excellent results while reducing the
computational cost. We hope this improved strategy can provide a reference for
future Transformer research in computer vision.
- Abstract(参考訳): 自然言語処理の分野でのトランスフォーマの成果により、エンコーダ・デコーダとトランスフォーマの注意機構がコンピュータビジョンに応用されている。
近年、コンピュータビジョン(画像分類、オブジェクト検出、セマンティックセグメンテーションなど)の複数のタスクにおいて、最先端の畳み込みニューラルネットワークがTransformerの概念を導入している。
このことは、Transformerが画像認識の分野で優れていることを証明している。
視覚トランスフォーマーが提案された後、さらに多くの作品が畳み込み層を完全に置き換えるためにセルフ・アテンションを使い始めた。
この研究は、Vision Transformerをピラミッドアーキテクチャと組み合わせ、Split-transform-mergeを使ってグループエンコーダを提案し、ネットワークアーキテクチャAggregated Pyramid Vision Transformer (APVT) と名付けた。
coco 2017データセットでcifar-10データセットで画像分類タスクとオブジェクト検出タスクを実行する。
バックボーンとしてTransformerを使用する他のネットワークアーキテクチャと比較して、APVTは計算コストを削減しつつ優れた結果が得られる。
この改良戦略が将来のコンピュータビジョンにおけるTransformer研究の参考になることを期待している。
関連論文リスト
- MDS-ViTNet: Improving saliency prediction for Eye-Tracking with Vision Transformer [0.0]
MDS-ViTNet(Multi Decoder Saliency by Vision Transformer Network)を提案する。
このアプローチは、マーケティング、医療、ロボティクス、小売など、さまざまな分野において大きな可能性を秘めている。
我々の訓練されたモデルは、いくつかのベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2024-05-29T20:28:04Z) - Vision Transformer with Progressive Sampling [73.60630716500154]
本稿では,識別領域を特定するための反復的・漸進的なサンプリング手法を提案する。
ImageNetでスクラッチからトレーニングされた場合、PS-ViTはトップ1の精度でバニラViTよりも3.8%高いパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-08-03T18:04:31Z) - PPT Fusion: Pyramid Patch Transformerfor a Case Study in Image Fusion [37.993611194758195]
画像から意味情報を抽出する問題に対処するため,Patch Pyramid Transformer(PPT)を提案する。
実験により, 現状の核融合法に対して優れた性能を示した。
論文 参考訳(メタデータ) (2021-07-29T13:57:45Z) - Fully Transformer Networks for Semantic ImageSegmentation [26.037770622551882]
エンコーダデコーダをベースとしたFully Transformer Networks (FTN) を用いた意味的イメージセグメンテーションのための新しいフレームワークについて検討する。
階層的特徴を段階的に学習するエンコーダとして、標準視覚変換器(ViT)の計算複雑性を低減しつつ、ピラミッド群変換器(PGT)を提案する。
次に,セマンティックイメージセグメンテーションのためのPGTエンコーダの複数レベルから意味レベルと空間レベル情報を融合する特徴ピラミッドトランス (FPT) を提案する。
論文 参考訳(メタデータ) (2021-06-08T05:15:28Z) - Transformer-Based Deep Image Matching for Generalizable Person
Re-identification [114.56752624945142]
画像マッチングと距離学習にトランスフォーマーを適用する可能性について検討する。
視覚変換器 (ViT) とデコーダ付きバニラ変換器 (Vanilla Transformer) はイメージ・ツー・イメージ・アテンションの欠如により画像マッチングに適していないことがわかった。
そこで本研究では,クエリキーの類似性のみを保ちながら,ソフトマックス重み付けによる注意の完全な実装を省略する,単純化されたデコーダを提案する。
論文 参考訳(メタデータ) (2021-05-30T05:38:33Z) - Swin-Unet: Unet-like Pure Transformer for Medical Image Segmentation [63.46694853953092]
Swin-Unetは、医用画像セグメンテーション用のUnetライクなトランスフォーマーである。
トークン化されたイメージパッチは、TransformerベースのU字型デコーダデコーダアーキテクチャに供給される。
論文 参考訳(メタデータ) (2021-05-12T09:30:26Z) - Transformers in Vision: A Survey [101.07348618962111]
トランスフォーマーは、入力シーケンス要素間の長い依存関係をモデリングし、シーケンスの並列処理をサポートします。
変圧器は設計に最小限の誘導バイアスを必要とし、自然にセット関数として適しています。
本調査は,コンピュータビジョン分野におけるトランスフォーマーモデルの概要を概観することを目的としている。
論文 参考訳(メタデータ) (2021-01-04T18:57:24Z) - Transformer for Image Quality Assessment [14.975436239088312]
畳み込みニューラルネットワーク(CNN)により抽出された特徴マップの上部に浅層トランスフォーマーエンコーダを用いるアーキテクチャを提案する。
適応位置埋め込みは、任意の解像度で画像を処理するためにトランスフォーマーエンコーダで使用されます。
提案したTRIQアーキテクチャは優れた性能を実現する。
論文 参考訳(メタデータ) (2020-12-30T18:43:11Z) - A Survey on Visual Transformer [126.56860258176324]
Transformerは、主に自己認識機構に基づくディープニューラルネットワークの一種である。
本稿では、これらの視覚変換器モデルについて、異なるタスクで分類し、それらの利点と欠点を分析することでレビューする。
論文 参考訳(メタデータ) (2020-12-23T09:37:54Z) - An Image is Worth 16x16 Words: Transformers for Image Recognition at
Scale [112.94212299087653]
ビジョントランスフォーマー(ViT)は、最先端の畳み込みネットワークと比較して優れた結果を得ると同時に、トレーニングする計算リソースを著しく少なくする。
論文 参考訳(メタデータ) (2020-10-22T17:55:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。