論文の概要: A Comprehensive Study of Vision Transformers on Dense Prediction Tasks
- arxiv url: http://arxiv.org/abs/2201.08683v1
- Date: Fri, 21 Jan 2022 13:18:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-24 14:29:28.396085
- Title: A Comprehensive Study of Vision Transformers on Dense Prediction Tasks
- Title(参考訳): ディエンス予測課題における視覚変換器の総合的研究
- Authors: Kishaan Jeeveswaran, Senthilkumar Kathiresan, Arnav Varma, Omar Magdy,
Bahram Zonooz, and Elahe Arani
- Abstract要約: 畳み込みニューラルネットワーク(CNN)がビジョンタスクの標準選択である。
近年の研究では、オブジェクト検出やセマンティックセグメンテーションといった課題において、視覚変換器(VT)が同等の性能を発揮することが示されている。
このことは、それらの一般化可能性、堅牢性、信頼性、複雑なタスクの特徴を抽出するときにテクスチャバイアスについていくつかの疑問を投げかける。
- 参考スコア(独自算出の注目度): 10.013443811899466
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Convolutional Neural Networks (CNNs), architectures consisting of
convolutional layers, have been the standard choice in vision tasks. Recent
studies have shown that Vision Transformers (VTs), architectures based on
self-attention modules, achieve comparable performance in challenging tasks
such as object detection and semantic segmentation. However, the image
processing mechanism of VTs is different from that of conventional CNNs. This
poses several questions about their generalizability, robustness, reliability,
and texture bias when used to extract features for complex tasks. To address
these questions, we study and compare VT and CNN architectures as feature
extractors in object detection and semantic segmentation. Our extensive
empirical results show that the features generated by VTs are more robust to
distribution shifts, natural corruptions, and adversarial attacks in both
tasks, whereas CNNs perform better at higher image resolutions in object
detection. Furthermore, our results demonstrate that VTs in dense prediction
tasks produce more reliable and less texture-biased predictions.
- Abstract(参考訳): 畳み込みニューラルネットワーク(cnns)は畳み込み層からなるアーキテクチャであり、視覚タスクの標準的な選択である。
近年、視覚トランスフォーマー(vts)は自己着脱モジュールに基づくアーキテクチャであり、オブジェクト検出やセマンティクスセグメンテーションといった課題において同等の性能を達成している。
しかし,VTの画像処理機構は従来のCNNとは異なる。
これは、複雑なタスクの機能を抽出する際に、それらの一般化可能性、ロバスト性、信頼性、テクスチャバイアスに関するいくつかの疑問を提起する。
これらの問題に対処するため,VTとCNNアーキテクチャをオブジェクト検出とセマンティックセグメンテーションにおける特徴抽出器として研究・比較する。
広範な実験結果から,vtsが生成する機能は,分布シフト,自然腐敗,両タスクの敵対的攻撃に対してより頑健であり,cnnはオブジェクト検出における高分解能で優れた性能を示す。
さらに, 密度予測タスクにおけるVTは, より信頼性が高く, テクスチャバイアスの少ない予測をもたらすことを示した。
関連論文リスト
- Towards Evaluating the Robustness of Visual State Space Models [63.14954591606638]
視覚状態空間モデル(VSSM)は視覚知覚タスクにおいて顕著な性能を示した。
しかし、自然と敵対的な摂動の下での頑丈さは依然として重要な懸念事項である。
様々な摂動シナリオ下でのVSSMの頑健さを総合的に評価する。
論文 参考訳(メタデータ) (2024-06-13T17:59:44Z) - A Comparative Survey of Vision Transformers for Feature Extraction in Texture Analysis [9.687982148528187]
畳み込みニューラルネットワーク(CNN)は現在、最高のテクスチャ分析アプローチの1つである。
視覚変換器(ViT)は、物体認識などのタスクにおいてCNNの性能を上回っている。
この研究は、テクスチャに依存するタスクに移行する際に、事前訓練された様々なViTアーキテクチャを探索する。
論文 参考訳(メタデータ) (2024-06-10T09:48:13Z) - Vision Transformer with Convolutions Architecture Search [72.70461709267497]
本稿では,畳み込み型アーキテクチャサーチ(VTCAS)を用いたアーキテクチャ探索手法を提案する。
VTCASによって探索された高性能バックボーンネットワークは、畳み込みニューラルネットワークの望ましい特徴をトランスフォーマーアーキテクチャに導入する。
これは、特に低照度屋内シーンにおいて、物体認識のためのニューラルネットワークの堅牢性を高める。
論文 参考訳(メタデータ) (2022-03-20T02:59:51Z) - Rich CNN-Transformer Feature Aggregation Networks for Super-Resolution [50.10987776141901]
近年の視覚変換器と自己注意は,様々なコンピュータビジョンタスクにおいて有望な成果を上げている。
我々は,CNNの局所的特徴とトランスフォーマーが捉えた長距離依存性を活用する,超解像(SR)タスクのための効果的なハイブリッドアーキテクチャを提案する。
提案手法は,多数のベンチマークデータセットから最先端のSR結果を得る。
論文 参考訳(メタデータ) (2022-03-15T06:52:25Z) - Do Vision Transformers See Like Convolutional Neural Networks? [45.69780772718875]
近年の研究では、画像分類タスクにおいて、(Vision) Transformer Model (ViT) が同等またはそれ以上の性能を達成できることが示されている。
畳み込みネットワークのように振る舞うのか、それとも全く異なる視覚表現を学ぶのか?
例えば、ViTはすべての層にわたってより均一な表現を持つ。
論文 参考訳(メタデータ) (2021-08-19T17:27:03Z) - Efficient Training of Visual Transformers with Small-Size Datasets [64.60765211331697]
進化的ネットワーク(CNN)に代わるアーキテクチャパラダイムとして、ビジュアルトランスフォーマー(VT)が登場している。
ImageNetでトレーニングされた場合、同等の精度を持つにもかかわらず、より小さなデータセットでのパフォーマンスは、大きく異なる可能性があることを示す。
本稿では,計算オーバーヘッドの少ない画像から追加情報を抽出できる自己教師型タスクを提案する。
論文 参考訳(メタデータ) (2021-06-07T16:14:06Z) - Intriguing Properties of Vision Transformers [114.28522466830374]
視覚変換器(ViT)は、様々なマシンビジョン問題にまたがって印象的な性能を誇示している。
我々は、この問題を広範囲の実験を通して体系的に研究し、高性能畳み込みニューラルネットワーク(CNN)との比較を行った。
ViTsの効果的な特徴は、自己認識機構によって可能なフレキシブルな受容と動的場によるものであることを示す。
論文 参考訳(メタデータ) (2021-05-21T17:59:18Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z) - Understanding Robustness of Transformers for Image Classification [34.51672491103555]
Vision Transformer (ViT)は画像分類のためにResNetsを抜いた。
Transformerアーキテクチャの詳細は、これらのネットワークが堅牢かどうかを疑問に思っている。
ViTモデルは、少なくともResNetが広範囲の摂動に匹敵するほど堅牢であることがわかった。
論文 参考訳(メタデータ) (2021-03-26T16:47:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。