論文の概要: Can CNNs Be More Robust Than Transformers?
- arxiv url: http://arxiv.org/abs/2206.03452v1
- Date: Tue, 7 Jun 2022 17:17:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-08 14:53:58.189119
- Title: Can CNNs Be More Robust Than Transformers?
- Title(参考訳): CNNはトランスフォーマーよりロバストか?
- Authors: Zeyu Wang, Yutong Bai, Yuyin Zhou, Cihang Xie
- Abstract要約: 視覚変換器は10年間、画像認識における畳み込みニューラルネットワーク(CNN)の長い支配を揺るがしている。
最近の研究では、トランスフォーマーは、異なるトレーニング設定に関わらず、本質的にCNNよりも堅牢であることがわかった。
トランスフォーマーのこのような優位性は、それ自体が自己注意型アーキテクチャであると考えられる。
- 参考スコア(独自算出の注目度): 29.615791409258804
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recent success of Vision Transformers is shaking the long dominance of
Convolutional Neural Networks (CNNs) in image recognition for a decade.
Specifically, in terms of robustness on out-of-distribution samples, recent
research finds that Transformers are inherently more robust than CNNs,
regardless of different training setups. Moreover, it is believed that such
superiority of Transformers should largely be credited to their
self-attention-like architectures per se. In this paper, we question that
belief by closely examining the design of Transformers. Our findings lead to
three highly effective architecture designs for boosting robustness, yet simple
enough to be implemented in several lines of code, namely a) patchifying input
images, b) enlarging kernel size, and c) reducing activation layers and
normalization layers. Bringing these components together, we are able to build
pure CNN architectures without any attention-like operations that is as robust
as, or even more robust than, Transformers. We hope this work can help the
community better understand the design of robust neural architectures. The code
is publicly available at https://github.com/UCSC-VLAA/RobustCNN.
- Abstract(参考訳): 最近のVision Transformersの成功は、画像認識における10年間、畳み込みニューラルネットワーク(CNN)の長い支配を揺るがしている。
特に、配布外サンプルの堅牢性に関して、最近の研究では、トランスフォーマーは異なるトレーニング設定に関わらず、本質的にCNNよりも堅牢であることがわかった。
さらに、トランスフォーマーのそのような優位性は、それ自体が自己注意型アーキテクチャであると考えられる。
本稿では,トランスフォーマーの設計を精査することで,その信念を疑問視する。
我々の発見は、ロバスト性を高めるために3つの非常に効果的なアーキテクチャ設計につながったが、数行のコードで実装できるほど単純である。
a) 入力画像のパッチ
b) カーネルサイズを拡大すること,及び
c) 活性化層及び正規化層の減少。
これらのコンポーネントをまとめることで、Transformerほど堅牢で、さらに堅牢な注意のような操作をすることなく、純粋なCNNアーキテクチャを構築することができます。
この作業によって、堅牢なニューラルアーキテクチャの設計をより理解できるようになることを願っています。
コードはhttps://github.com/UCSC-VLAA/RobustCNNで公開されている。
関連論文リスト
- OA-CNNs: Omni-Adaptive Sparse CNNs for 3D Semantic Segmentation [70.17681136234202]
設計上の違いを再検討し、スパースCNNが達成できることの限界をテストする。
本稿では,このギャップを埋めるために,適応受容場(親和性)と適応関係という2つの重要な要素を提案する。
この調査により、軽量モジュールを統合するネットワークのファミリーであるOmni-Adaptive 3D CNN(OA-CNN)が開発された。
論文 参考訳(メタデータ) (2024-03-21T14:06:38Z) - The Counterattack of CNNs in Self-Supervised Learning: Larger Kernel
Size might be All You Need [103.31261028244782]
視覚変換器は、その卓越したスケーリングトレンドのおかげで、コンピュータビジョンにおいて急速に蜂起し、畳み込みニューラルネットワーク(CNN)を徐々に置き換えている。
自己教師付き学習(SSL)に関する最近の研究は、サイムズ事前学習タスクを導入している。
SSLの文脈では、トランスフォーマーやセルフアテンションモジュールは本質的にCNNよりも適していると考えるようになった。
論文 参考訳(メタデータ) (2023-12-09T22:23:57Z) - Interpret Vision Transformers as ConvNets with Dynamic Convolutions [70.59235381143831]
我々は、ビジョントランスフォーマーを動的畳み込みを備えたConvNetと解釈し、既存のトランスフォーマーと動的コンバータを統一されたフレームワークで特徴付けることができる。
ConvNetsの設計空間から視覚変換器を考えることができるため、我々の解釈もネットワーク設計を導くことができる。
論文 参考訳(メタデータ) (2023-09-19T16:00:49Z) - An Impartial Take to the CNN vs Transformer Robustness Contest [89.97450887997925]
最近の最先端のCNNは、現在の最先端のトランスフォーマーよりも堅牢で信頼性があり、時には高くなることがある。
ある建築群が他の建築群よりも圧倒的に優越する傾向にあるが、それらは様々なタスクにおいて同様の並外れたパフォーマンスを享受しているようである。
論文 参考訳(メタデータ) (2022-07-22T21:34:37Z) - Semi-Supervised Vision Transformers [76.83020291497895]
半教師付き画像分類のための視覚変換器の訓練について検討する。
半教師付き ImageNet 設定では,ビジョントランスフォーマーの性能が良くない。
CNNは小さなラベル付きデータ構造において優れた結果を得る。
論文 参考訳(メタデータ) (2021-11-22T09:28:13Z) - Are Transformers More Robust Than CNNs? [17.47001041042089]
トランスフォーマーとCNNの最初のフェア・イン・ディープス比較を提供する。
CNNは、敵の攻撃を防御するトランスフォーマーと同じくらい簡単に堅牢である。
我々の主張は、そのようなより強力な一般化はトランスフォーマーの自己注意型アーキテクチャに大きく恩恵を受けていることを示唆している。
論文 参考訳(メタデータ) (2021-11-10T00:18:59Z) - Investigating Transfer Learning Capabilities of Vision Transformers and
CNNs by Fine-Tuning a Single Trainable Block [0.0]
トランスフォーマーベースのアーキテクチャは、CNNアーキテクチャによる最先端のセットを精度で上回っているが、スクラッチからトレーニングするには計算コストが非常に高い。
転送学習能力について検討し、CNNと比較し、小型データを用いた実世界の問題に適用した場合に、どのアーキテクチャが優れているかを理解する。
変換器をベースとしたアーキテクチャは,CNNよりも高い精度を実現するだけでなく,パラメータの約4倍の精度で実現している。
論文 参考訳(メタデータ) (2021-10-11T13:43:03Z) - Going deeper with Image Transformers [102.61950708108022]
我々は画像分類のためのより深いトランスフォーマーネットワークを構築し最適化する。
深部変圧器の精度を大幅に向上する2つの変圧器アーキテクチャ変更を行う。
私たちの最高のモデルは、再評価ラベルとImagenet-V2 /マッチ周波数を備えたImagenetの新しい状態を確立します。
論文 参考訳(メタデータ) (2021-03-31T17:37:32Z) - On the Robustness of Vision Transformers to Adversarial Examples [7.627299398469961]
視覚変換器のロバスト性について, 逆例を用いて検討する。
我々は,CNNとトランスフォーマーの相互変換が困難であることを示す。
ブラックボックスの敵の下では、クリーンな精度を犠牲にすることなく、アンサンブルが前例のない堅牢性を達成できることが示される。
論文 参考訳(メタデータ) (2021-03-31T00:29:12Z) - Incorporating Convolution Designs into Visual Transformers [24.562955955312187]
我々は、低レベル特徴抽出におけるCNNの利点、局所性の向上、長距離依存の確立におけるトランスフォーマーの利点を組み合わせた新しいtextbfConvolution-enhanced image Transformer (CeiT) を提案する。
ImageNetと7つの下流タスクの実験結果は、大量のトレーニングデータや追加のCNN教師を必要とすることなく、従来のトランスフォーマーや最先端CNNと比較してCeiTの有効性と一般化能力を示している。
論文 参考訳(メタデータ) (2021-03-22T13:16:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。