論文の概要: Transformers in Vision: A Survey
- arxiv url: http://arxiv.org/abs/2101.01169v2
- Date: Mon, 22 Feb 2021 11:40:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-12 01:34:59.953537
- Title: Transformers in Vision: A Survey
- Title(参考訳): 視覚におけるトランスフォーマー: サーベイ
- Authors: Salman Khan, Muzammal Naseer, Munawar Hayat, Syed Waqas Zamir, Fahad
Shahbaz Khan, Mubarak Shah
- Abstract要約: トランスフォーマーは、入力シーケンス要素間の長い依存関係をモデリングし、シーケンスの並列処理をサポートします。
変圧器は設計に最小限の誘導バイアスを必要とし、自然にセット関数として適しています。
本調査は,コンピュータビジョン分野におけるトランスフォーマーモデルの概要を概観することを目的としている。
- 参考スコア(独自算出の注目度): 101.07348618962111
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Astounding results from Transformer models on natural language tasks have
intrigued the vision community to study their application to computer vision
problems. Among their salient benefits, Transformers enable modeling long
dependencies between input sequence elements and support parallel processing of
sequence as compared to recurrent networks e.g., Long short-term memory (LSTM).
Different from convolutional networks, Transformers require minimal inductive
biases for their design and are naturally suited as set-functions. Furthermore,
the straightforward design of Transformers allows processing multiple
modalities (e.g., images, videos, text and speech) using similar processing
blocks and demonstrates excellent scalability to very large capacity networks
and huge datasets. These strengths have led to exciting progress on a number of
vision tasks using Transformer networks. This survey aims to provide a
comprehensive overview of the Transformer models in the computer vision
discipline. We start with an introduction to fundamental concepts behind the
success of Transformers i.e., self-attention, large-scale pre-training, and
bidirectional encoding. We then cover extensive applications of transformers in
vision including popular recognition tasks (e.g., image classification, object
detection, action recognition, and segmentation), generative modeling,
multi-modal tasks (e.g., visual-question answering, visual reasoning, and
visual grounding), video processing (e.g., activity recognition, video
forecasting), low-level vision (e.g., image super-resolution, image
enhancement, and colorization) and 3D analysis (e.g., point cloud
classification and segmentation). We compare the respective advantages and
limitations of popular techniques both in terms of architectural design and
their experimental value. Finally, we provide an analysis on open research
directions and possible future works.
- Abstract(参考訳): 自然言語タスクにおけるTransformerモデルの結果は、コンピュータビジョン問題への応用を研究するビジョンコミュニティの興味を引いている。
その顕著な利点のうち、トランスフォーマーは入力シーケンス要素間の長い依存関係をモデル化し、リカレントネットワーク(例えばlong short-term memory(lstm))と比較してシーケンスの並列処理をサポートする。
畳み込みネットワークと異なり、トランスフォーマーは設計に最小限の帰納的バイアスを必要とし、自然に集合関数として適合する。
さらに、トランスフォーマーの簡単な設計により、同様の処理ブロックを使用して複数のモダリティ(画像、ビデオ、テキスト、音声など)を処理でき、非常に大きな容量のネットワークや巨大なデータセットに対して優れたスケーラビリティを示す。
これらの強みは、Transformerネットワークを使った多くのビジョンタスクのエキサイティングな進歩につながった。
本調査は,コンピュータビジョン分野におけるトランスフォーマーモデルの概要を明らかにすることを目的とする。
まず,トランスフォーマーの成功を支える基本概念,すなわち自己注意,大規模事前学習,双方向符号化の導入から始める。
We then cover extensive applications of transformers in vision including popular recognition tasks (e.g., image classification, object detection, action recognition, and segmentation), generative modeling, multi-modal tasks (e.g., visual-question answering, visual reasoning, and visual grounding), video processing (e.g., activity recognition, video forecasting), low-level vision (e.g., image super-resolution, image enhancement, and colorization) and 3D analysis (e.g., point cloud classification and segmentation).
アーキテクチャ設計と実験的価値の両方の観点から,人気のある手法の長所と限界を比較した。
最後に,オープン研究の方向性と今後の課題について分析する。
関連論文リスト
- ViTs are Everywhere: A Comprehensive Study Showcasing Vision
Transformers in Different Domain [0.0]
ビジョントランスフォーマー(ViT)は、多くの視覚問題に対して、より人気があり支配的なソリューションになりつつある。
ViTは畳み込みニューラルネットワーク(CNN)でいくつかの困難を克服できる
論文 参考訳(メタデータ) (2023-10-09T12:31:30Z) - Vision Transformer with Quadrangle Attention [76.35955924137986]
窓面に基づく注意を一般的な四角形定式化に拡張する新しい四角形注意法(QA)を提案する。
提案手法では,既定のウィンドウを対象の四角形に変換するために,変換行列を予測し,エンドツーエンドで学習可能な四角形回帰モジュールを用いる。
QAをプレーンかつ階層的な視覚変換器に統合し、QFormerという名の新しいアーキテクチャを作成します。
論文 参考訳(メタデータ) (2023-03-27T11:13:50Z) - Holistically Explainable Vision Transformers [136.27303006772294]
本稿では,B-cos変換器を提案する。
具体的には、各モデルコンポーネント(多層パーセプトロン、注意層、トークン化モジュールなど)を動的線形に定式化する。
提案した設計をViT(Vision Transformers)に適用し,Bcos-ViTと呼ばれるモデルが高解釈可能であり,ベースラインのViTと競合することを示す。
論文 参考訳(メタデータ) (2023-01-20T16:45:34Z) - 3D Vision with Transformers: A Survey [114.86385193388439]
自然言語処理におけるトランスフォーマーアーキテクチャの成功は、コンピュータビジョン分野の注目を集めている。
本稿では,異なる3次元視覚タスクのための100以上のトランスフォーマー手法の体系的,徹底的なレビューを行う。
我々は3次元視覚におけるトランスフォーマー設計について議論し、様々な3次元表現でデータを処理できるようにする。
論文 参考訳(メタデータ) (2022-08-08T17:59:11Z) - Video Transformers: A Survey [42.314208650554264]
ビデオデータのモデル化にトランスフォーマーを適用するための貢献とトレンドについて検討する。
具体的には、ビデオの埋め込みとトークン化の方法を掘り下げて、大きなCNNバックボーンの非常にウィドスプレッドな使用法を見つけます。
また,ビデオトランスフォーマーの訓練に使用される自己監督的損失の分析を行った。
論文 参考訳(メタデータ) (2022-01-16T07:31:55Z) - A Survey of Visual Transformers [30.082304742571598]
注意に基づくエンコーダデコーダアーキテクチャであるTransformerは、自然言語処理の分野に革命をもたらした。
コンピュータビジョン(CV)分野へのトランスフォーマーアーキテクチャの適用に関する先駆的な研究が最近行われている。
我々は,3つの基本的なCVタスクに対して,100以上の異なる視覚変換器の総合的なレビューを行った。
論文 参考訳(メタデータ) (2021-11-11T07:56:04Z) - Multiscale Vision Transformers [79.76412415996892]
本稿では,マルチスケール特徴階層をトランスフォーマモデルに結びつけることで,映像・画像認識のためのマルチスケールビジョントランス (MViT) を提案する。
我々は,視覚信号の密集性を様々な映像認識タスクでモデル化するために,この基本アーキテクチャの事前評価を行う。
論文 参考訳(メタデータ) (2021-04-22T17:59:45Z) - A Survey on Visual Transformer [126.56860258176324]
Transformerは、主に自己認識機構に基づくディープニューラルネットワークの一種である。
本稿では、これらの視覚変換器モデルについて、異なるタスクで分類し、それらの利点と欠点を分析することでレビューする。
論文 参考訳(メタデータ) (2020-12-23T09:37:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。