論文の概要: A Survey of Visual Transformers
- arxiv url: http://arxiv.org/abs/2111.06091v1
- Date: Thu, 11 Nov 2021 07:56:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-12 14:36:46.843700
- Title: A Survey of Visual Transformers
- Title(参考訳): 視覚変換器に関する調査
- Authors: Yang Liu, Yao Zhang, Yixin Wang, Feng Hou, Jin Yuan, Jiang Tian, Yang
Zhang, Zhongchao Shi, Jianping Fan, Zhiqiang He
- Abstract要約: 注意に基づくエンコーダデコーダアーキテクチャであるTransformerは、自然言語処理の分野に革命をもたらした。
コンピュータビジョン(CV)分野へのトランスフォーマーアーキテクチャの適用に関する先駆的な研究が最近行われている。
我々は,3つの基本的なCVタスクに対して,100以上の異なる視覚変換器の総合的なレビューを行った。
- 参考スコア(独自算出の注目度): 30.082304742571598
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer, an attention-based encoder-decoder architecture, has
revolutionized the field of natural language processing. Inspired by this
significant achievement, some pioneering works have recently been done on
adapting Transformerliked architectures to Computer Vision (CV) fields, which
have demonstrated their effectiveness on various CV tasks. Relying on
competitive modeling capability, visual Transformers have achieved impressive
performance on multiple benchmarks such as ImageNet, COCO, and ADE20k as
compared with modern Convolution Neural Networks (CNN). In this paper, we have
provided a comprehensive review of over one hundred different visual
Transformers for three fundamental CV tasks (classification, detection, and
segmentation), where a taxonomy is proposed to organize these methods according
to their motivations, structures, and usage scenarios. Because of the
differences in training settings and oriented tasks, we have also evaluated
these methods on different configurations for easy and intuitive comparison
instead of only various benchmarks. Furthermore, we have revealed a series of
essential but unexploited aspects that may empower Transformer to stand out
from numerous architectures, e.g., slack high-level semantic embeddings to
bridge the gap between visual and sequential Transformers. Finally, three
promising future research directions are suggested for further investment.
- Abstract(参考訳): 注意に基づくエンコーダデコーダアーキテクチャであるTransformerは、自然言語処理の分野に革命をもたらした。
この重要な成果に触発されて、Transformerのようなアーキテクチャをコンピュータビジョン(CV)の分野に適用する先駆的な研究が最近行われ、様々なCVタスクにおいてその効果が示された。
コンボリューションニューラルネット(cnn)と比較して、視覚トランスフォーマーはimagenet、coco、ade20kといった複数のベンチマークで印象的なパフォーマンスを達成している。
本稿では,3つの基本的なCVタスク(分類,検出,セグメンテーション)に対して,100以上の視覚変換器を包括的に検討し,その動機,構造,利用シナリオに応じてこれらの手法を体系化する分類法を提案する。
トレーニング設定と指向タスクの違いから,これらのメソッドをさまざまな構成で評価して,さまざまなベンチマークではなく,簡単かつ直感的な比較を行った。
さらに我々は、トランスフォーマーが視覚的およびシーケンシャルなトランスフォーマー間のギャップを埋めるために、高レベルのセマンティックな埋め込みをスラックするなど、多くのアーキテクチャから際立つことができるような、必要不可欠な側面を明らかにした。
最後に、3つの将来的な研究方向が、さらなる投資のために提案されている。
関連論文リスト
- Interpret Vision Transformers as ConvNets with Dynamic Convolutions [70.59235381143831]
我々は、ビジョントランスフォーマーを動的畳み込みを備えたConvNetと解釈し、既存のトランスフォーマーと動的コンバータを統一されたフレームワークで特徴付けることができる。
ConvNetsの設計空間から視覚変換器を考えることができるため、我々の解釈もネットワーク設計を導くことができる。
論文 参考訳(メタデータ) (2023-09-19T16:00:49Z) - Learning Explicit Object-Centric Representations with Vision
Transformers [81.38804205212425]
我々は、マスク付き自動符号化の自己超越タスクを構築し、トランスフォーマーを用いたオブジェクト中心表現学習の有効性を探求する。
複数のマルチオブジェクト・ベンチマークのセグメンテーション・メトリクスによって測定された単純なシーンを効率的に分解できることを示す。
論文 参考訳(メタデータ) (2022-10-25T16:39:49Z) - 3D Vision with Transformers: A Survey [114.86385193388439]
自然言語処理におけるトランスフォーマーアーキテクチャの成功は、コンピュータビジョン分野の注目を集めている。
本稿では,異なる3次元視覚タスクのための100以上のトランスフォーマー手法の体系的,徹底的なレビューを行う。
我々は3次元視覚におけるトランスフォーマー設計について議論し、様々な3次元表現でデータを処理できるようにする。
論文 参考訳(メタデータ) (2022-08-08T17:59:11Z) - Rich CNN-Transformer Feature Aggregation Networks for Super-Resolution [50.10987776141901]
近年の視覚変換器と自己注意は,様々なコンピュータビジョンタスクにおいて有望な成果を上げている。
我々は,CNNの局所的特徴とトランスフォーマーが捉えた長距離依存性を活用する,超解像(SR)タスクのための効果的なハイブリッドアーキテクチャを提案する。
提案手法は,多数のベンチマークデータセットから最先端のSR結果を得る。
論文 参考訳(メタデータ) (2022-03-15T06:52:25Z) - Vision Transformer Architecture Search [64.73920718915282]
現在の視覚変換器(ViT)は、自然言語処理(NLP)タスクから単純に継承される。
ハードウェア予算に類似した最適アーキテクチャを探索するために,ViTASと呼ばれるアーキテクチャ探索手法を提案する。
検索したアーキテクチャは、ImageNetで74.7%の精度で、現在のベースラインのViTアーキテクチャよりも2.5%高い。
論文 参考訳(メタデータ) (2021-06-25T15:39:08Z) - Point Cloud Learning with Transformer [2.3204178451683264]
我々は,マルチレベルマルチスケールポイントトランスフォーマ(mlmspt)と呼ばれる新しいフレームワークを提案する。
具体的には、点ピラミッド変換器を用いて、多様な分解能やスケールを持つ特徴をモデル化する。
マルチレベルトランスモジュールは、各スケールの異なるレベルからコンテキスト情報を集約し、それらの相互作用を強化するように設計されている。
論文 参考訳(メタデータ) (2021-04-28T08:39:21Z) - Transformers in Vision: A Survey [101.07348618962111]
トランスフォーマーは、入力シーケンス要素間の長い依存関係をモデリングし、シーケンスの並列処理をサポートします。
変圧器は設計に最小限の誘導バイアスを必要とし、自然にセット関数として適しています。
本調査は,コンピュータビジョン分野におけるトランスフォーマーモデルの概要を概観することを目的としている。
論文 参考訳(メタデータ) (2021-01-04T18:57:24Z) - Toward Transformer-Based Object Detection [12.704056181392415]
ビジョントランスフォーマーは、共通の検出タスクヘッドによってバックボーンとして使用することができ、競合するCOCO結果を生成する。
vit-frcnnは、大きな事前訓練能力と高速微調整性能を含むトランスフォーマーに関連するいくつかの既知の特性を示す。
ViT-FRCNNは、オブジェクト検出などの複雑な視覚タスクの純粋なトランスフォーマーソリューションへの重要なステップストーンであると考えています。
論文 参考訳(メタデータ) (2020-12-17T22:33:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。