論文の概要: Are Transformers More Robust Than CNNs?
- arxiv url: http://arxiv.org/abs/2111.05464v1
- Date: Wed, 10 Nov 2021 00:18:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-11 15:05:42.802068
- Title: Are Transformers More Robust Than CNNs?
- Title(参考訳): トランスフォーマーはCNNよりロバストか?
- Authors: Yutong Bai, Jieru Mei, Alan Yuille, Cihang Xie
- Abstract要約: トランスフォーマーとCNNの最初のフェア・イン・ディープス比較を提供する。
CNNは、敵の攻撃を防御するトランスフォーマーと同じくらい簡単に堅牢である。
我々の主張は、そのようなより強力な一般化はトランスフォーマーの自己注意型アーキテクチャに大きく恩恵を受けていることを示唆している。
- 参考スコア(独自算出の注目度): 17.47001041042089
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer emerges as a powerful tool for visual recognition. In addition to
demonstrating competitive performance on a broad range of visual benchmarks,
recent works also argue that Transformers are much more robust than
Convolutions Neural Networks (CNNs). Nonetheless, surprisingly, we find these
conclusions are drawn from unfair experimental settings, where Transformers and
CNNs are compared at different scales and are applied with distinct training
frameworks. In this paper, we aim to provide the first fair & in-depth
comparisons between Transformers and CNNs, focusing on robustness evaluations.
With our unified training setup, we first challenge the previous belief that
Transformers outshine CNNs when measuring adversarial robustness. More
surprisingly, we find CNNs can easily be as robust as Transformers on defending
against adversarial attacks, if they properly adopt Transformers' training
recipes. While regarding generalization on out-of-distribution samples, we show
pre-training on (external) large-scale datasets is not a fundamental request
for enabling Transformers to achieve better performance than CNNs. Moreover,
our ablations suggest such stronger generalization is largely benefited by the
Transformer's self-attention-like architectures per se, rather than by other
training setups. We hope this work can help the community better understand and
benchmark the robustness of Transformers and CNNs. The code and models are
publicly available at https://github.com/ytongbai/ViTs-vs-CNNs.
- Abstract(参考訳): Transformerは視覚認識のための強力なツールとして登場した。
幅広いビジュアルベンチマークでの競合パフォーマンスの実証に加えて、最近の研究は、TransformerがConvolutions Neural Networks(CNN)よりもはるかに堅牢であると主張している。
しかしながら、驚くべきことにこれらの結論は、TransformerとCNNを異なるスケールで比較し、異なるトレーニングフレームワークで適用する不公平な実験的な設定から導かれる。
本稿では,トランスフォーマーとCNNの比較において,ロバストネス評価に着目した最初のフェア&インディース比較を提案する。
当社の統一トレーニングセットアップでは、敵のロバスト性を測定する場合、トランスフォーマーはcnnを上回るという以前の信念に最初に挑戦します。
さらに驚くべきことに、Transformersのトレーニングレシピを適切に採用すれば、Transformersが敵の攻撃から守るのと同じくらい、CNNが堅牢であることは明らかです。
アウト・オブ・ディストリビューション・サンプルの一般化については、(外部)大規模データセットの事前トレーニングは、トランスフォーマーがCNNよりも優れたパフォーマンスを実現するための基本的な要求ではないことを示す。
さらに,このような強固な一般化は,トランスフォーマーの自己着脱的なアーキテクチャが,他のトレーニング設定よりもメリットが大きいことを示唆する。
この作業によって、トランスフォーマーやcnnの堅牢性に関するコミュニティの理解とベンチマークが向上することを期待しています。
コードとモデルはhttps://github.com/ytongbai/ViTs-vs-CNNsで公開されている。
関連論文リスト
- The Counterattack of CNNs in Self-Supervised Learning: Larger Kernel
Size might be All You Need [103.31261028244782]
視覚変換器は、その卓越したスケーリングトレンドのおかげで、コンピュータビジョンにおいて急速に蜂起し、畳み込みニューラルネットワーク(CNN)を徐々に置き換えている。
自己教師付き学習(SSL)に関する最近の研究は、サイムズ事前学習タスクを導入している。
SSLの文脈では、トランスフォーマーやセルフアテンションモジュールは本質的にCNNよりも適していると考えるようになった。
論文 参考訳(メタデータ) (2023-12-09T22:23:57Z) - On the Surprising Effectiveness of Transformers in Low-Labeled Video
Recognition [18.557920268145818]
ビデオビジョントランスフォーマーは、複数の視覚タスクにまたがる畳み込みベースの手法(CNN)と競合することが示されている。
我々の研究は、ビデオ分類の低データ体制を実証的に探求し、驚くべきことに、低ラベルの動画設定においてトランスフォーマーが極めてよく機能することを発見した。
ラベル付きデータのみを用いて、トランスフォーマーは大規模未ラベルデータも活用する複雑な半教師付きCNN法を著しく上回ることを示す。
論文 参考訳(メタデータ) (2022-09-15T17:12:30Z) - An Impartial Take to the CNN vs Transformer Robustness Contest [89.97450887997925]
最近の最先端のCNNは、現在の最先端のトランスフォーマーよりも堅牢で信頼性があり、時には高くなることがある。
ある建築群が他の建築群よりも圧倒的に優越する傾向にあるが、それらは様々なタスクにおいて同様の並外れたパフォーマンスを享受しているようである。
論文 参考訳(メタデータ) (2022-07-22T21:34:37Z) - Can CNNs Be More Robust Than Transformers? [29.615791409258804]
視覚変換器は10年間、画像認識における畳み込みニューラルネットワーク(CNN)の長い支配を揺るがしている。
最近の研究では、トランスフォーマーは、異なるトレーニング設定に関わらず、本質的にCNNよりも堅牢であることがわかった。
トランスフォーマーのこのような優位性は、それ自体が自己注意型アーキテクチャであると考えられる。
論文 参考訳(メタデータ) (2022-06-07T17:17:07Z) - Semi-Supervised Vision Transformers [76.83020291497895]
半教師付き画像分類のための視覚変換器の訓練について検討する。
半教師付き ImageNet 設定では,ビジョントランスフォーマーの性能が良くない。
CNNは小さなラベル付きデータ構造において優れた結果を得る。
論文 参考訳(メタデータ) (2021-11-22T09:28:13Z) - Investigating Transfer Learning Capabilities of Vision Transformers and
CNNs by Fine-Tuning a Single Trainable Block [0.0]
トランスフォーマーベースのアーキテクチャは、CNNアーキテクチャによる最先端のセットを精度で上回っているが、スクラッチからトレーニングするには計算コストが非常に高い。
転送学習能力について検討し、CNNと比較し、小型データを用いた実世界の問題に適用した場合に、どのアーキテクチャが優れているかを理解する。
変換器をベースとしたアーキテクチャは,CNNよりも高い精度を実現するだけでなく,パラメータの約4倍の精度で実現している。
論文 参考訳(メタデータ) (2021-10-11T13:43:03Z) - Going deeper with Image Transformers [102.61950708108022]
我々は画像分類のためのより深いトランスフォーマーネットワークを構築し最適化する。
深部変圧器の精度を大幅に向上する2つの変圧器アーキテクチャ変更を行う。
私たちの最高のモデルは、再評価ラベルとImagenet-V2 /マッチ周波数を備えたImagenetの新しい状態を確立します。
論文 参考訳(メタデータ) (2021-03-31T17:37:32Z) - On the Robustness of Vision Transformers to Adversarial Examples [7.627299398469961]
視覚変換器のロバスト性について, 逆例を用いて検討する。
我々は,CNNとトランスフォーマーの相互変換が困難であることを示す。
ブラックボックスの敵の下では、クリーンな精度を犠牲にすることなく、アンサンブルが前例のない堅牢性を達成できることが示される。
論文 参考訳(メタデータ) (2021-03-31T00:29:12Z) - On the Adversarial Robustness of Visual Transformers [129.29523847765952]
本研究は、視覚変換器(ViT)の対逆的摂動に対する堅牢性に関する最初の包括的な研究を提供する。
さまざまなホワイトボックスとトランスファーアタック設定でテストされた ViT は、畳み込みニューラルネットワーク (CNN) と比較して、より優れた敵対的堅牢性を持っています。
論文 参考訳(メタデータ) (2021-03-29T14:48:24Z) - Face Transformer for Recognition [67.02323570055894]
顔認識におけるトランスフォーマーモデルの性能について検討する。
モデルは大規模な顔認識データベースMS-Celeb-1Mで訓練される。
我々は,Transformer モデルが CNN と同等の性能を示し,パラメータ数とMAC の類似性を実証した。
論文 参考訳(メタデータ) (2021-03-27T03:53:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。