論文の概要: An Impartial Take to the CNN vs Transformer Robustness Contest
- arxiv url: http://arxiv.org/abs/2207.11347v1
- Date: Fri, 22 Jul 2022 21:34:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-26 13:42:25.687405
- Title: An Impartial Take to the CNN vs Transformer Robustness Contest
- Title(参考訳): cnn vs transformer robustnessコンテストへの公平な取り組み
- Authors: Francesco Pinto, Philip H.S. Torr, Puneet K. Dokania
- Abstract要約: 最近の最先端のCNNは、現在の最先端のトランスフォーマーよりも堅牢で信頼性があり、時には高くなることがある。
ある建築群が他の建築群よりも圧倒的に優越する傾向にあるが、それらは様々なタスクにおいて同様の並外れたパフォーマンスを享受しているようである。
- 参考スコア(独自算出の注目度): 89.97450887997925
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Following the surge of popularity of Transformers in Computer Vision, several
studies have attempted to determine whether they could be more robust to
distribution shifts and provide better uncertainty estimates than Convolutional
Neural Networks (CNNs). The almost unanimous conclusion is that they are, and
it is often conjectured more or less explicitly that the reason of this
supposed superiority is to be attributed to the self-attention mechanism. In
this paper we perform extensive empirical analyses showing that recent
state-of-the-art CNNs (particularly, ConvNeXt) can be as robust and reliable or
even sometimes more than the current state-of-the-art Transformers. However,
there is no clear winner. Therefore, although it is tempting to state the
definitive superiority of one family of architectures over another, they seem
to enjoy similar extraordinary performances on a variety of tasks while also
suffering from similar vulnerabilities such as texture, background, and
simplicity biases.
- Abstract(参考訳): コンピュータビジョンにおけるトランスフォーマーの人気が高まった後、いくつかの研究は、分散シフトに対してより堅牢であるかどうかを判断し、畳み込みニューラルネットワーク(CNN)よりも優れた不確実性推定を提供することを試みた。
ほぼ全会一致の結論は、それらが成り立つことであり、しばしば、この仮定された優越性の理由が自己認識機構によるものであると明確に推測される。
本稿では,最近の最先端cnn(特にconvnext)が,現在の最先端トランスフォーマーよりも堅牢で信頼性の高い,あるいは場合によってはそれ以上であることを示す,広範な実証分析を行う。
しかし、明確な勝者は存在しない。
したがって、あるアーキテクチャ群が他よりも圧倒的に優れていることを述べようとする誘惑があるが、テクスチャや背景、単純さといった同様の脆弱性に苦しむ一方で、様々なタスクで同様の並外れたパフォーマンスを享受しているように見える。
関連論文リスト
- Biased Attention: Do Vision Transformers Amplify Gender Bias More than
Convolutional Neural Networks? [2.8391805742728553]
コンピュータビジョンで使用されるディープニューラルネットワークは、性別バイアスのような多くの社会的バイアスを示すことが示されている。
ビジョントランスフォーマー(ViT)は、コンピュータビジョンアプリケーションにおいて、画像分類などの多くのタスクにおいて、畳み込みニューラルネットワーク(CNN)を上回っている。
この研究により、ViTsはCNNよりも男女の偏見を増幅していることがわかった。
論文 参考訳(メタデータ) (2023-09-15T20:59:12Z) - Finding Differences Between Transformers and ConvNets Using
Counterfactual Simulation Testing [82.67716657524251]
本稿では,ニューラルネットワークの自然的変動に対するロバスト性を研究するための反現実的枠組みを提案する。
我々の手法は、最近リリースされた最先端の畳み込みニューラルネットワークとビジョントランスフォーマーの頑健さを公平に比較することができる。
論文 参考訳(メタデータ) (2022-11-29T18:59:23Z) - Can CNNs Be More Robust Than Transformers? [29.615791409258804]
視覚変換器は10年間、画像認識における畳み込みニューラルネットワーク(CNN)の長い支配を揺るがしている。
最近の研究では、トランスフォーマーは、異なるトレーニング設定に関わらず、本質的にCNNよりも堅牢であることがわかった。
トランスフォーマーのこのような優位性は、それ自体が自己注意型アーキテクチャであると考えられる。
論文 参考訳(メタデータ) (2022-06-07T17:17:07Z) - Are Transformers More Robust Than CNNs? [17.47001041042089]
トランスフォーマーとCNNの最初のフェア・イン・ディープス比較を提供する。
CNNは、敵の攻撃を防御するトランスフォーマーと同じくらい簡単に堅牢である。
我々の主張は、そのようなより強力な一般化はトランスフォーマーの自己注意型アーキテクチャに大きく恩恵を受けていることを示唆している。
論文 参考訳(メタデータ) (2021-11-10T00:18:59Z) - Adversarial Robustness Comparison of Vision Transformer and MLP-Mixer to
CNNs [71.44985408214431]
畳み込みニューラルネットワーク(CNN)は、コンピュータビジョンアプリケーションにおいて事実上のゴールドスタンダードとなっている。
現状に挑戦する新しいモデルアーキテクチャが提案されている。
論文 参考訳(メタデータ) (2021-10-06T14:18:47Z) - IA-RED$^2$: Interpretability-Aware Redundancy Reduction for Vision
Transformers [81.31885548824926]
自己注意型モデルであるTransformerは近年,コンピュータビジョン分野における主要なバックボーンになりつつある。
解釈可能性を考慮した冗長度低減フレームワーク(IA-RED$2$)を提案する。
画像タスクとビデオタスクの両方で広範囲に実験を行い、最大1.4倍のスピードアップを実現しました。
論文 参考訳(メタデータ) (2021-06-23T18:29:23Z) - On the Robustness of Vision Transformers to Adversarial Examples [7.627299398469961]
視覚変換器のロバスト性について, 逆例を用いて検討する。
我々は,CNNとトランスフォーマーの相互変換が困難であることを示す。
ブラックボックスの敵の下では、クリーンな精度を犠牲にすることなく、アンサンブルが前例のない堅牢性を達成できることが示される。
論文 参考訳(メタデータ) (2021-03-31T00:29:12Z) - Detecting Adversarial Examples by Input Transformations, Defense
Perturbations, and Voting [71.57324258813674]
畳み込みニューラルネットワーク(CNN)は、視覚認識タスクにおいて超人的性能に達することが証明されている。
CNNは敵の例、すなわち不正な出力をネットワークに強制する悪意のある画像によって簡単に騙される。
本稿では,画像変換による敵例の検出を幅広く検討し,新しい手法を提案する。
論文 参考訳(メタデータ) (2021-01-27T14:50:41Z) - Extreme Value Preserving Networks [65.2037926048262]
最近の証拠は、畳み込みニューラルネットワーク(CNN)がテクスチャに偏りがあることを示しており、CNNはテクスチャに逆らう摂動に対して損なわれない。
本稿では,SIFTの優れた特性を活用してCNNアーキテクチャを改良し,精度と堅牢性を向上させることを目的とする。
論文 参考訳(メタデータ) (2020-11-17T02:06:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。