論文の概要: Exploring Corruption Robustness: Inductive Biases in Vision Transformers
and MLP-Mixers
- arxiv url: http://arxiv.org/abs/2106.13122v1
- Date: Thu, 24 Jun 2021 15:57:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-25 15:15:12.739969
- Title: Exploring Corruption Robustness: Inductive Biases in Vision Transformers
and MLP-Mixers
- Title(参考訳): 破壊ロバスト性を探る:視覚変換器とMLPミキサーの誘導バイアス
- Authors: Katelyn Morrison, Benjamin Gilby, Colton Lipchak, Adam Mattioli,
Adriana Kovashka
- Abstract要約: ビジョントランスフォーマーアーキテクチャは本質的にResNet-50やMixersよりも汚職に対して堅牢であることがわかった。
また、ResNet-50の5倍のパラメータを持つ視覚変換器は、より多くの形状バイアスを持つことがわかった。
- 参考スコア(独自算出の注目度): 22.60666283421962
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, vision transformers and MLP-based models have been developed in
order to address some of the prevalent weaknesses in convolutional neural
networks. Due to the novelty of transformers being used in this domain along
with the self-attention mechanism, it remains unclear to what degree these
architectures are robust to corruptions. Despite some works proposing that data
augmentation remains essential for a model to be robust against corruptions, we
propose to explore the impact that the architecture has on corruption
robustness. We find that vision transformer architectures are inherently more
robust to corruptions than the ResNet-50 and MLP-Mixers. We also find that
vision transformers with 5 times fewer parameters than a ResNet-50 have more
shape bias. Our code is available to reproduce.
- Abstract(参考訳): 近年,畳み込みニューラルネットワークの弱点に対処するために,視覚変換器とMLPベースのモデルが開発されている。
この領域で使用される変圧器の新規性と自己着脱機構のため、これらのアーキテクチャがどの程度腐敗にロバストであるかは定かではない。
データ拡張は、モデルが汚職に対して堅牢であることには不可欠であると主張する研究もあるが、アーキテクチャが汚職に対する堅牢性に与える影響について検討する。
視覚トランスフォーマーアーキテクチャは本質的にResNet-50やMLP-Mixersよりも堅牢である。
また、ResNet-50の5倍のパラメータを持つ視覚変換器は、より多くの形状バイアスを持つことがわかった。
私たちのコードは再現できます。
関連論文リスト
- Transformers in Unsupervised Structure-from-Motion [19.43053045216986]
トランスフォーマーはディープラーニングベースのコンピュータビジョンに革命をもたらし、パフォーマンスが向上し、自然の腐敗や敵の攻撃に対する堅牢性も向上した。
本研究では, モノクロ画素の深度, エゴ車両のトランスフォーメーションと回転, カメラの焦点長と主点を同時に予測する, 頑健なトランスフォーマーに基づくモノクロSfM法を提案する。
我々の研究は、トランスフォーマーベースのアーキテクチャは、自然な汚職や標的外攻撃に対してより堅牢でありながら、同等のパフォーマンスを実現していることを示している。
論文 参考訳(メタデータ) (2023-12-16T20:00:34Z) - Attention Deficit is Ordered! Fooling Deformable Vision Transformers
with Collaborative Adversarial Patches [3.4673556247932225]
変形可能な視覚変換器は、注意モデリングの複雑さを著しく低減する。
最近の研究は、従来の視覚変換器に対する敵攻撃を実証している。
我々は,対象のパッチに注意を向けるようにソースパッチが操作する新たなコラボレーティブアタックを開発する。
論文 参考訳(メタデータ) (2023-11-21T17:55:46Z) - Can CNNs Be More Robust Than Transformers? [29.615791409258804]
視覚変換器は10年間、画像認識における畳み込みニューラルネットワーク(CNN)の長い支配を揺るがしている。
最近の研究では、トランスフォーマーは、異なるトレーニング設定に関わらず、本質的にCNNよりも堅牢であることがわかった。
トランスフォーマーのこのような優位性は、それ自体が自己注意型アーキテクチャであると考えられる。
論文 参考訳(メタデータ) (2022-06-07T17:17:07Z) - DBIA: Data-free Backdoor Injection Attack against Transformer Networks [6.969019759456717]
CV指向トランスネットワークに対するデータフリーバックドア攻撃であるDBIAを提案する。
弊社のアプローチでは、バックドアを高い成功率で埋め込むことができ、被害者のトランスフォーマーの性能への影響も低い。
論文 参考訳(メタデータ) (2021-11-22T08:13:51Z) - Blending Anti-Aliasing into Vision Transformer [57.88274087198552]
不連続なパッチ単位のトークン化プロセスは、ジャッジされたアーティファクトをアテンションマップに暗黙的に導入する。
エイリアス効果は、離散パターンを使用して高周波または連続的な情報を生成し、区別不能な歪みをもたらす。
本稿では,前述の問題を緩和するためのAliasing-Reduction Module(ARM)を提案する。
論文 参考訳(メタデータ) (2021-10-28T14:30:02Z) - The Nuts and Bolts of Adopting Transformer in GANs [124.30856952272913]
高忠実度画像合成のためのGAN(Generative Adversarial Network)フレームワークにおけるTransformerの特性について検討する。
我々の研究は、STrans-Gと呼ばれる畳み込みニューラルネットワーク(CNN)フリージェネレータであるGANにおけるトランスフォーマーの新しい代替設計につながる。
論文 参考訳(メタデータ) (2021-10-25T17:01:29Z) - Adversarial Robustness Comparison of Vision Transformer and MLP-Mixer to
CNNs [71.44985408214431]
畳み込みニューラルネットワーク(CNN)は、コンピュータビジョンアプリケーションにおいて事実上のゴールドスタンダードとなっている。
現状に挑戦する新しいモデルアーキテクチャが提案されている。
論文 参考訳(メタデータ) (2021-10-06T14:18:47Z) - CMT: Convolutional Neural Networks Meet Vision Transformers [68.10025999594883]
画像内の長距離依存関係をキャプチャできるため、画像認識タスクに視覚トランスフォーマーがうまく適用されている。
変圧器と既存の畳み込みニューラルネットワーク(CNN)の間には、パフォーマンスと計算コストの差がまだ残っている。
長距離依存関係をキャプチャするトランスフォーマーと、局所的な特徴をモデル化するCNNを利用して、新しいトランスフォーマーベースのハイブリッドネットワークを提案する。
特に、私たちのCMT-SはImageNetで83.5%、FLOPでは14倍、EfficientNetでは2倍の精度を実現しています。
論文 参考訳(メタデータ) (2021-07-13T17:47:19Z) - IA-RED$^2$: Interpretability-Aware Redundancy Reduction for Vision
Transformers [81.31885548824926]
自己注意型モデルであるTransformerは近年,コンピュータビジョン分野における主要なバックボーンになりつつある。
解釈可能性を考慮した冗長度低減フレームワーク(IA-RED$2$)を提案する。
画像タスクとビデオタスクの両方で広範囲に実験を行い、最大1.4倍のスピードアップを実現しました。
論文 参考訳(メタデータ) (2021-06-23T18:29:23Z) - Understanding Robustness of Transformers for Image Classification [34.51672491103555]
Vision Transformer (ViT)は画像分類のためにResNetsを抜いた。
Transformerアーキテクチャの詳細は、これらのネットワークが堅牢かどうかを疑問に思っている。
ViTモデルは、少なくともResNetが広範囲の摂動に匹敵するほど堅牢であることがわかった。
論文 参考訳(メタデータ) (2021-03-26T16:47:55Z) - A Survey on Visual Transformer [126.56860258176324]
Transformerは、主に自己認識機構に基づくディープニューラルネットワークの一種である。
本稿では、これらの視覚変換器モデルについて、異なるタスクで分類し、それらの利点と欠点を分析することでレビューする。
論文 参考訳(メタデータ) (2020-12-23T09:37:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。