論文の概要: Deeper Insights into ViTs Robustness towards Common Corruptions
- arxiv url: http://arxiv.org/abs/2204.12143v1
- Date: Tue, 26 Apr 2022 08:22:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-27 13:32:46.050362
- Title: Deeper Insights into ViTs Robustness towards Common Corruptions
- Title(参考訳): ViTsのロバスト性に関するより深い洞察
- Authors: Rui Tian, Zuxuan Wu, Qi Dai, Han Hu, Yugang Jiang
- Abstract要約: 我々は、CNNのようなアーキテクチャ設計とCNNベースのデータ拡張戦略が、一般的な汚職に対するViTsの堅牢性にどのように影響するかを検討する。
重なり合うパッチ埋め込みと畳み込みフィードフォワードネットワーク(FFN)がロバスト性の向上を実証する。
また、2つの角度から入力値の増大を可能にする新しい条件付き手法も導入する。
- 参考スコア(独自算出の注目度): 82.79764218627558
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent literature have shown design strategies from Convolutions Neural
Networks (CNNs) benefit Vision Transformers (ViTs) in various vision tasks.
However, it remains unclear how these design choices impact on robustness when
transferred to ViTs. In this paper, we make the first attempt to investigate
how CNN-like architectural designs and CNN-based data augmentation strategies
impact on ViTs' robustness towards common corruptions through an extensive and
rigorous benchmarking. We demonstrate that overlapping patch embedding and
convolutional Feed-Forward Network (FFN) boost performance on robustness.
Furthermore, adversarial noise training is powerful on ViTs while
fourier-domain augmentation fails. Moreover, we introduce a novel conditional
method enabling input-varied augmentations from two angles: (1) Generating
dynamic augmentation parameters conditioned on input images. It conduces to
state-of-the-art performance on robustness through conditional convolutions;
(2) Selecting most suitable augmentation strategy by an extra predictor helps
to achieve the best trade-off between clean accuracy and robustness.
- Abstract(参考訳): 近年、畳み込みニューラルネットワーク(cnns)による視覚変換器(vits)の設計戦略が様々な視覚タスクで示されている。
しかし、これらの設計選択がViTに移行した際のロバスト性にどのように影響するかは不明だ。
本稿では,cnnライクなアーキテクチャ設計とcnnベースのデータ拡張戦略がvitsの共通汚職に対する堅牢性に与える影響を,広範囲かつ厳格なベンチマークによって検証する。
重なり合うパッチ埋め込みと畳み込みフィードフォワードネットワーク(FFN)がロバスト性の向上を実証する。
さらに、フーリエ領域拡張が失敗する間、ViT上では対向ノイズトレーニングが強力である。
さらに,(1)入力画像に条件づけられた動的拡張パラメータの生成という2つの角度から入力変数拡張を可能にする新しい条件付き手法を提案する。
条件付き畳み込みによるロバスト性の最先端化,(2) 余分な予測器による最適な拡張戦略の選択は, クリーンな精度とロバストさの最良のトレードオフを達成するのに役立つ。
関連論文リスト
- Denoising Vision Transformers [43.03068202384091]
本稿では、DVT(Denoising Vision Transformers)と呼ばれる2段階のDenoisingアプローチを提案する。
第1段階では、画像ごとのニューラルネットワークとの横断的な特徴整合を強制することにより、位置的アーティファクトによって汚染されたものからクリーンな特徴を分離する。
第2段階では、クリーンな特徴を生のViT出力から予測するために軽量なトランスフォーマーブロックを訓練し、クリーンな特徴の導出推定を監督として活用する。
論文 参考訳(メタデータ) (2024-01-05T18:59:52Z) - Improving Robustness for Vision Transformer with a Simple Dynamic
Scanning Augmentation [10.27974860479791]
Vision Transformer (ViT)は、最先端のニューラルネットワークに匹敵するコンピュータビジョンタスクにおいて、有望なパフォーマンスを実証している。
しかし、この新しいタイプのディープニューラルネットワークアーキテクチャは、堅牢性の観点からその能力を制限する敵攻撃に対して脆弱である。
本稿では,ViTの精度とロバスト性,特に敵攻撃に直面することを目的とした,新たなコントリビューションを提案する。
論文 参考訳(メタデータ) (2023-11-01T11:10:01Z) - A Light Recipe to Train Robust Vision Transformers [34.51642006926379]
我々は、視覚変換器(ViT)が、回避攻撃に対する機械学習モデルの堅牢性を改善するための基盤となるアーキテクチャとして機能することを示します。
我々は、ImageNetデータセットのサブセットに関する厳密なアブレーション研究を用いて、独自の逆トレーニングレシピを用いて、この目的を達成する。
提案手法は,完全なImageNet-1k上でのViTアーキテクチャと大規模モデルの異なるクラスに一般化可能であることを示す。
論文 参考訳(メタデータ) (2022-09-15T16:00:04Z) - Coarse-to-Fine Vision Transformer [83.45020063642235]
性能を維持しながら計算負担を軽減するための粗視変換器(CF-ViT)を提案する。
提案するCF-ViTは,近代的なViTモデルにおける2つの重要な観測によって動機付けられている。
CF-ViTはLV-ViTのFLOPを53%削減し,スループットも2.01倍に向上した。
論文 参考訳(メタデータ) (2022-03-08T02:57:49Z) - Towards Transferable Adversarial Attacks on Vision Transformers [110.55845478440807]
視覚変換器(ViT)は、コンピュータビジョンの一連のタスクにおいて印象的なパフォーマンスを示してきたが、それでも敵の例に悩まされている。
本稿では、PNA攻撃とPatchOut攻撃を含むデュアルアタックフレームワークを導入し、異なるViT間での対向サンプルの転送性を改善する。
論文 参考訳(メタデータ) (2021-09-09T11:28:25Z) - On Improving Adversarial Transferability of Vision Transformers [97.17154635766578]
視覚変換器(ViT)は、入力画像を、自己注意によるパッチのシーケンスとして処理する。
本稿では,ViTモデルの対角的特徴空間とその伝達性について検討する。
本稿では,ViTモデルのアーキテクチャに特有な2つの新しい戦略を紹介する。
論文 参考訳(メタデータ) (2021-06-08T08:20:38Z) - Rethinking the Design Principles of Robust Vision Transformer [28.538786330184642]
視覚トランスフォーマー (vit) は、従来の畳み込みニューラルネットワーク (cnns) をほとんどの視覚タスクで上回っていることを示した。
本稿では, ViTs の設計原理を堅牢性に基づいて再考する。
堅牢な設計部品を組み合わせることで、ロバストビジョントランス(RVT)を提案します。
論文 参考訳(メタデータ) (2021-05-17T15:04:15Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z) - On the Adversarial Robustness of Visual Transformers [129.29523847765952]
本研究は、視覚変換器(ViT)の対逆的摂動に対する堅牢性に関する最初の包括的な研究を提供する。
さまざまなホワイトボックスとトランスファーアタック設定でテストされた ViT は、畳み込みニューラルネットワーク (CNN) と比較して、より優れた敵対的堅牢性を持っています。
論文 参考訳(メタデータ) (2021-03-29T14:48:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。