論文の概要: A Survey on Visual Transformer
- arxiv url: http://arxiv.org/abs/2012.12556v6
- Date: Mon, 10 Jul 2023 13:54:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-11 19:53:49.753855
- Title: A Survey on Visual Transformer
- Title(参考訳): 視覚変換器に関する調査
- Authors: Kai Han, Yunhe Wang, Hanting Chen, Xinghao Chen, Jianyuan Guo, Zhenhua
Liu, Yehui Tang, An Xiao, Chunjing Xu, Yixing Xu, Zhaohui Yang, Yiman Zhang,
Dacheng Tao
- Abstract要約: Transformerは、主に自己認識機構に基づくディープニューラルネットワークの一種である。
本稿では、これらの視覚変換器モデルについて、異なるタスクで分類し、それらの利点と欠点を分析することでレビューする。
- 参考スコア(独自算出の注目度): 126.56860258176324
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer, first applied to the field of natural language processing, is a
type of deep neural network mainly based on the self-attention mechanism.
Thanks to its strong representation capabilities, researchers are looking at
ways to apply transformer to computer vision tasks. In a variety of visual
benchmarks, transformer-based models perform similar to or better than other
types of networks such as convolutional and recurrent neural networks. Given
its high performance and less need for vision-specific inductive bias,
transformer is receiving more and more attention from the computer vision
community. In this paper, we review these vision transformer models by
categorizing them in different tasks and analyzing their advantages and
disadvantages. The main categories we explore include the backbone network,
high/mid-level vision, low-level vision, and video processing. We also include
efficient transformer methods for pushing transformer into real device-based
applications. Furthermore, we also take a brief look at the self-attention
mechanism in computer vision, as it is the base component in transformer.
Toward the end of this paper, we discuss the challenges and provide several
further research directions for vision transformers.
- Abstract(参考訳): Transformerは、自然言語処理の分野に最初に適用され、主に自己認識機構に基づくディープニューラルネットワークの一種である。
強力な表現能力のおかげで、研究者はコンピュータビジョンタスクにトランスフォーマーを適用する方法を模索している。
様々な視覚的ベンチマークでは、トランスフォーマーベースのモデルは畳み込みニューラルネットワークやリカレントニューラルネットワークのような他のタイプのネットワークと同等かそれ以上の性能を発揮する。
高い性能と、視覚特有の帰納バイアスの必要性から、トランスフォーマーはコンピュータビジョンコミュニティからますます注目を集めている。
本稿では,これらの視覚トランスフォーマーモデルを異なるタスクに分類し,その利点と欠点を分析して検討する。
私たちが調査する主なカテゴリは、バックボーンネットワーク、高/中レベルのビジョン、低レベルのビジョン、ビデオ処理です。
また、トランスフォーマーを実際のデバイスベースアプリケーションへプッシュする効率的なトランスフォーマー手法も含んでいる。
さらに,トランスフォーマのベースコンポーネントであるため,コンピュータビジョンにおける自己着脱機構についても簡単に検討する。
本稿では,この課題について論じ,視覚変換器のさらなる研究の方向性について述べる。
関連論文リスト
- ViTs are Everywhere: A Comprehensive Study Showcasing Vision
Transformers in Different Domain [0.0]
ビジョントランスフォーマー(ViT)は、多くの視覚問題に対して、より人気があり支配的なソリューションになりつつある。
ViTは畳み込みニューラルネットワーク(CNN)でいくつかの困難を克服できる
論文 参考訳(メタデータ) (2023-10-09T12:31:30Z) - Interpret Vision Transformers as ConvNets with Dynamic Convolutions [70.59235381143831]
我々は、ビジョントランスフォーマーを動的畳み込みを備えたConvNetと解釈し、既存のトランスフォーマーと動的コンバータを統一されたフレームワークで特徴付けることができる。
ConvNetsの設計空間から視覚変換器を考えることができるため、我々の解釈もネットワーク設計を導くことができる。
論文 参考訳(メタデータ) (2023-09-19T16:00:49Z) - A survey of the Vision Transformers and their CNN-Transformer based Variants [0.48163317476588563]
ビジョントランスフォーマーは、様々なコンピュータビジョンアプリケーションのための畳み込みニューラルネットワーク(CNN)の代替として人気がある。
これらのトランスフォーマーは、画像のグローバルな関係にフォーカスする能力を持ち、大きな学習能力を提供する。
近年,視覚変換器による畳み込み操作と自己認識機構のハイブリッド化が出現し,局所的およびグローバルな画像表現の両面を利用した。
論文 参考訳(メタデータ) (2023-05-17T01:27:27Z) - Advances in Medical Image Analysis with Vision Transformers: A
Comprehensive Review [6.953789750981636]
医療画像におけるトランスフォーマーの応用に関する百科事典のレビューを行う。
具体的には,医療画像解析タスクにおけるトランスフォーマー関連文献の体系的,徹底的なレビューを行う。
論文 参考訳(メタデータ) (2023-01-09T16:56:23Z) - Vision Transformers for Action Recognition: A Survey [41.69370782177517]
コンピュータビジョン問題を解決する強力なツールとして、ビジョントランスフォーマーが登場している。
最近の技術は、多数のビデオ関連タスクを解決するために、画像領域を超えたトランスフォーマーの有効性を証明している。
人間の行動認識は、広く応用されているため、研究コミュニティから特別に注目を集めている。
論文 参考訳(メタデータ) (2022-09-13T02:57:05Z) - 3D Vision with Transformers: A Survey [114.86385193388439]
自然言語処理におけるトランスフォーマーアーキテクチャの成功は、コンピュータビジョン分野の注目を集めている。
本稿では,異なる3次元視覚タスクのための100以上のトランスフォーマー手法の体系的,徹底的なレビューを行う。
我々は3次元視覚におけるトランスフォーマー設計について議論し、様々な3次元表現でデータを処理できるようにする。
論文 参考訳(メタデータ) (2022-08-08T17:59:11Z) - Can Vision Transformers Perform Convolution? [78.42076260340869]
画像パッチを入力とする単一のViT層が任意の畳み込み操作を構成的に実行可能であることを示す。
我々は、CNNを表現するビジョントランスフォーマーのヘッド数を低くする。
論文 参考訳(メタデータ) (2021-11-02T03:30:17Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z) - Transformers in Vision: A Survey [101.07348618962111]
トランスフォーマーは、入力シーケンス要素間の長い依存関係をモデリングし、シーケンスの並列処理をサポートします。
変圧器は設計に最小限の誘導バイアスを必要とし、自然にセット関数として適しています。
本調査は,コンピュータビジョン分野におけるトランスフォーマーモデルの概要を概観することを目的としている。
論文 参考訳(メタデータ) (2021-01-04T18:57:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。