論文の概要: Understanding Robustness of Transformers for Image Classification
- arxiv url: http://arxiv.org/abs/2103.14586v1
- Date: Fri, 26 Mar 2021 16:47:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-29 14:39:30.238439
- Title: Understanding Robustness of Transformers for Image Classification
- Title(参考訳): 画像分類のための変圧器のロバスト性理解
- Authors: Srinadh Bhojanapalli, Ayan Chakrabarti, Daniel Glasner, Daliang Li,
Thomas Unterthiner, Andreas Veit
- Abstract要約: Vision Transformer (ViT)は画像分類のためにResNetsを抜いた。
Transformerアーキテクチャの詳細は、これらのネットワークが堅牢かどうかを疑問に思っている。
ViTモデルは、少なくともResNetが広範囲の摂動に匹敵するほど堅牢であることがわかった。
- 参考スコア(独自算出の注目度): 34.51672491103555
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep Convolutional Neural Networks (CNNs) have long been the architecture of
choice for computer vision tasks. Recently, Transformer-based architectures
like Vision Transformer (ViT) have matched or even surpassed ResNets for image
classification. However, details of the Transformer architecture -- such as the
use of non-overlapping patches -- lead one to wonder whether these networks are
as robust. In this paper, we perform an extensive study of a variety of
different measures of robustness of ViT models and compare the findings to
ResNet baselines. We investigate robustness to input perturbations as well as
robustness to model perturbations. We find that when pre-trained with a
sufficient amount of data, ViT models are at least as robust as the ResNet
counterparts on a broad range of perturbations. We also find that Transformers
are robust to the removal of almost any single layer, and that while
activations from later layers are highly correlated with each other, they
nevertheless play an important role in classification.
- Abstract(参考訳): 深層畳み込みニューラルネットワーク(deep convolutional neural networks, cnns)は、コンピュータビジョンタスクのアーキテクチャである。
近年、Vision Transformer (ViT)のようなTransformerベースのアーキテクチャは、画像分類のためにResNetsと一致または超えている。
しかし、Transformerアーキテクチャの詳細(オーバーラップしないパッチの使用など)は、これらのネットワークがこれほど堅牢かどうか疑問を呈している。
本稿では,ViTモデルのロバスト性に関する様々な尺度について広範な研究を行い,その結果をResNetベースラインと比較する。
入力摂動に対するロバスト性およびモデル摂動に対するロバスト性について検討する。
十分な量のデータで事前トレーニングされた場合、ViTモデルは少なくともResNetが広範囲の摂動に匹敵するロバストであることがわかった。
また, トランスフォーマは, ほとんどすべての単層除去に頑健であり, 後層からの活性化は相互に高い相関性を持つが, 分類において重要な役割を担っていることがわかった。
関連論文リスト
- Investigating the Robustness and Properties of Detection Transformers
(DETR) Toward Difficult Images [1.5727605363545245]
トランスフォーマーベースのオブジェクト検出器(DETR)は、マシンビジョンタスク間で大きな性能を示している。
対処すべき重要な問題は、このモデルアーキテクチャがどのように異なるイメージニュアンスを扱うことができるかである。
本研究では,DeTRの性能を異なる実験で測定し,ネットワークのベンチマークを行った。
論文 参考訳(メタデータ) (2023-10-12T23:38:52Z) - Vision Transformer with Convolutions Architecture Search [72.70461709267497]
本稿では,畳み込み型アーキテクチャサーチ(VTCAS)を用いたアーキテクチャ探索手法を提案する。
VTCASによって探索された高性能バックボーンネットワークは、畳み込みニューラルネットワークの望ましい特徴をトランスフォーマーアーキテクチャに導入する。
これは、特に低照度屋内シーンにおいて、物体認識のためのニューラルネットワークの堅牢性を高める。
論文 参考訳(メタデータ) (2022-03-20T02:59:51Z) - Rich CNN-Transformer Feature Aggregation Networks for Super-Resolution [50.10987776141901]
近年の視覚変換器と自己注意は,様々なコンピュータビジョンタスクにおいて有望な成果を上げている。
我々は,CNNの局所的特徴とトランスフォーマーが捉えた長距離依存性を活用する,超解像(SR)タスクのための効果的なハイブリッドアーキテクチャを提案する。
提案手法は,多数のベンチマークデータセットから最先端のSR結果を得る。
論文 参考訳(メタデータ) (2022-03-15T06:52:25Z) - A Comprehensive Study of Vision Transformers on Dense Prediction Tasks [10.013443811899466]
畳み込みニューラルネットワーク(CNN)がビジョンタスクの標準選択である。
近年の研究では、オブジェクト検出やセマンティックセグメンテーションといった課題において、視覚変換器(VT)が同等の性能を発揮することが示されている。
このことは、それらの一般化可能性、堅牢性、信頼性、複雑なタスクの特徴を抽出するときにテクスチャバイアスについていくつかの疑問を投げかける。
論文 参考訳(メタデータ) (2022-01-21T13:18:16Z) - ConvNets vs. Transformers: Whose Visual Representations are More
Transferable? [49.62201738334348]
本研究では,15個のシングルタスクおよびマルチタスク性能評価において,ConvNetと視覚変換器の伝達学習能力について検討する。
13の下流タスクでTransformerベースのバックボーンの一貫性のあるアドバンテージを観察した。
論文 参考訳(メタデータ) (2021-08-11T16:20:38Z) - Less is More: Pay Less Attention in Vision Transformers [61.05787583247392]
注意の少ないvIsion Transformerは、畳み込み、完全接続層、自己アテンションが、画像パッチシーケンスを処理するためにほぼ同等な数学的表現を持つという事実に基づいている。
提案したLITは、画像分類、オブジェクト検出、インスタンス分割を含む画像認識タスクにおいて有望な性能を達成する。
論文 参考訳(メタデータ) (2021-05-29T05:26:07Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z) - Transformers in Vision: A Survey [101.07348618962111]
トランスフォーマーは、入力シーケンス要素間の長い依存関係をモデリングし、シーケンスの並列処理をサポートします。
変圧器は設計に最小限の誘導バイアスを必要とし、自然にセット関数として適しています。
本調査は,コンピュータビジョン分野におけるトランスフォーマーモデルの概要を概観することを目的としている。
論文 参考訳(メタデータ) (2021-01-04T18:57:24Z) - Toward Transformer-Based Object Detection [12.704056181392415]
ビジョントランスフォーマーは、共通の検出タスクヘッドによってバックボーンとして使用することができ、競合するCOCO結果を生成する。
vit-frcnnは、大きな事前訓練能力と高速微調整性能を含むトランスフォーマーに関連するいくつかの既知の特性を示す。
ViT-FRCNNは、オブジェクト検出などの複雑な視覚タスクの純粋なトランスフォーマーソリューションへの重要なステップストーンであると考えています。
論文 参考訳(メタデータ) (2020-12-17T22:33:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。