論文の概要: Rethinking the Design Principles of Robust Vision Transformer
- arxiv url: http://arxiv.org/abs/2105.07926v1
- Date: Mon, 17 May 2021 15:04:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-18 14:41:21.955404
- Title: Rethinking the Design Principles of Robust Vision Transformer
- Title(参考訳): ロバストな視覚トランスフォーマの設計原理再考
- Authors: Xiaofeng Mao, Gege Qi, Yuefeng Chen, Xiaodan Li, Shaokai Ye, Yuan He,
Hui Xue
- Abstract要約: 視覚トランスフォーマー (vit) は、従来の畳み込みニューラルネットワーク (cnns) をほとんどの視覚タスクで上回っていることを示した。
本稿では, ViTs の設計原理を堅牢性に基づいて再考する。
堅牢な設計部品を組み合わせることで、ロバストビジョントランス(RVT)を提案します。
- 参考スコア(独自算出の注目度): 28.538786330184642
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances on Vision Transformers (ViT) have shown that
self-attention-based networks, which take advantage of long-range dependencies
modeling ability, surpassed traditional convolution neural networks (CNNs) in
most vision tasks. To further expand the applicability for computer vision,
many improved variants are proposed to re-design the Transformer architecture
by considering the superiority of CNNs, i.e., locality, translation invariance,
for better performance. However, these methods only consider the standard
accuracy or computation cost of the model. In this paper, we rethink the design
principles of ViTs based on the robustness. We found some design components
greatly harm the robustness and generalization ability of ViTs while some
others are beneficial. By combining the robust design components, we propose
Robust Vision Transformer (RVT). RVT is a new vision transformer, which has
superior performance and strong robustness. We further propose two new
plug-and-play techniques called position-aware attention rescaling and
patch-wise augmentation to train our RVT. The experimental results on ImageNet
and six robustness benchmarks show the advanced robustness and generalization
ability of RVT compared with previous Transformers and state-of-the-art CNNs.
Our RVT-S* also achieves Top-1 rank on multiple robustness leaderboards
including ImageNet-C and ImageNet-Sketch. The code will be available at
https://github.com/vtddggg/Robust-Vision-Transformer.
- Abstract(参考訳): ビジョントランスフォーマー(ViT)の最近の進歩は、多くの視覚タスクにおいて、長距離依存モデリング能力を利用する自己注意型ネットワークが従来の畳み込みニューラルネットワーク(CNN)を上回っていることを示している。
コンピュータビジョンの適用性をさらに拡大するため、cnn、すなわち局所性、翻訳不変性(translation invariance)の優位性を考慮してトランスフォーマーアーキテクチャを再設計する多くの改良版が提案されている。
しかし、これらの手法はモデルの標準的な精度や計算コストのみを考慮する。
本稿では、ロバスト性に基づくViTの設計原則を再考する。
いくつかのデザインコンポーネントは、ViTの堅牢性と一般化能力を著しく損なうが、他のコンポーネントは有益である。
ロバストな設計要素を組み合わせることで、ロバストビジョントランスフォーマ(rvt)を提案する。
RVTは、優れた性能と強力な堅牢性を持つ新しいビジョントランスフォーマーである。
さらに、位置認識注意再スケーリングとパッチワイド拡張という2つの新しいプラグイン・アンド・プレイ手法を提案する。
ImageNetと6つのロバストネスベンチマークの実験結果は、従来のトランスフォーマーや最先端CNNと比較してRVTの高度なロバストネスと一般化能力を示している。
RVT-S* は ImageNet-C や ImageNet-Sketch など,複数のロバストなリーダボードでトップ1のランクを獲得しています。
コードはhttps://github.com/vtddggg/Robust-Vision-Transformerで入手できる。
関連論文リスト
- Interpret Vision Transformers as ConvNets with Dynamic Convolutions [70.59235381143831]
我々は、ビジョントランスフォーマーを動的畳み込みを備えたConvNetと解釈し、既存のトランスフォーマーと動的コンバータを統一されたフレームワークで特徴付けることができる。
ConvNetsの設計空間から視覚変換器を考えることができるため、我々の解釈もネットワーク設計を導くことができる。
論文 参考訳(メタデータ) (2023-09-19T16:00:49Z) - How to Train Vision Transformer on Small-scale Datasets? [4.56717163175988]
畳み込みニューラルネットワークとは対照的に、Vision Transformerには固有の帰納バイアスがない。
自己教師付き帰納バイアスは,小規模データセットから直接学習可能であることを示す。
これにより、大規模な事前トレーニングやモデルアーキテクチャの変更、損失関数を必要とせずに、これらのモデルをトレーニングすることができる。
論文 参考訳(メタデータ) (2022-10-13T17:59:19Z) - EdgeViTs: Competing Light-weight CNNs on Mobile Devices with Vision
Transformers [88.52500757894119]
自己注意に基づく視覚変換器(ViT)は、コンピュータビジョンにおける畳み込みニューラルネットワーク(CNN)に代わる、非常に競争力のあるアーキテクチャとして登場した。
われわれはEdgeViTsを紹介した。これは新しい軽量ViTのファミリーで、注目に基づく視覚モデルが初めて、最高の軽量CNNと競合することを可能にする。
論文 参考訳(メタデータ) (2022-05-06T18:17:19Z) - Deeper Insights into ViTs Robustness towards Common Corruptions [82.79764218627558]
我々は、CNNのようなアーキテクチャ設計とCNNベースのデータ拡張戦略が、一般的な汚職に対するViTsの堅牢性にどのように影響するかを検討する。
重なり合うパッチ埋め込みと畳み込みフィードフォワードネットワーク(FFN)がロバスト性の向上を実証する。
また、2つの角度から入力値の増大を可能にする新しい条件付き手法も導入する。
論文 参考訳(メタデータ) (2022-04-26T08:22:34Z) - A ConvNet for the 2020s [94.89735578018099]
ビジョントランスフォーマー(ViT)は、最先端の画像分類モデルとしてすぐにConvNetsに取って代わった。
これは、いくつかのConvNetプリエントを再導入した階層型トランスフォーマーであり、トランスフォーマーは一般的なビジョンバックボーンとして実用的である。
本研究では、設計空間を再検討し、純粋なConvNetが達成できることの限界をテストする。
論文 参考訳(メタデータ) (2022-01-10T18:59:10Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z) - LeViT: a Vision Transformer in ConvNet's Clothing for Faster Inference [25.63398340113755]
高速システムにおける精度と効率のトレードオフを最適化する画像分類アーキテクチャのファミリーを設計します。
視覚変換器に位置情報を統合する新しい手法である注意バイアスを導入する。
全体として、LeViTは、スピード/精度のトレードオフに関して、既存のコンベットとビジョントランスを大幅に上回ります。
論文 参考訳(メタデータ) (2021-04-02T16:29:57Z) - Rethinking Spatial Dimensions of Vision Transformers [34.13899937264952]
Vision Transformer (ViT) は、言語処理からコンピュータビジョンタスクまで、トランスフォーマーの応用範囲を広げる。
トランスアーキテクチャにおける空間次元変換の役割とその有効性について検討する。
オリジナルViTモデルに基づく新しいPooling-based Vision Transformer (PiT)を提案する。
論文 参考訳(メタデータ) (2021-03-30T12:51:28Z) - CvT: Introducing Convolutions to Vision Transformers [44.74550305869089]
畳み込み視覚変換器(CvT)は、視覚変換器(ViT)の性能と効率を向上する。
新しいアーキテクチャはViTに畳み込み、両方の設計で最高のものを生み出す。
論文 参考訳(メタデータ) (2021-03-29T17:58:22Z) - On the Adversarial Robustness of Visual Transformers [129.29523847765952]
本研究は、視覚変換器(ViT)の対逆的摂動に対する堅牢性に関する最初の包括的な研究を提供する。
さまざまなホワイトボックスとトランスファーアタック設定でテストされた ViT は、畳み込みニューラルネットワーク (CNN) と比較して、より優れた敵対的堅牢性を持っています。
論文 参考訳(メタデータ) (2021-03-29T14:48:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。