論文の概要: Improved Robustness of Vision Transformer via PreLayerNorm in Patch
Embedding
- arxiv url: http://arxiv.org/abs/2111.08413v1
- Date: Tue, 16 Nov 2021 12:32:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-17 22:33:16.480383
- Title: Improved Robustness of Vision Transformer via PreLayerNorm in Patch
Embedding
- Title(参考訳): パッチ埋め込みにおけるPreLayerNormによる視覚変換器のロバスト性の改善
- Authors: Bum Jun Kim, Hyeyeon Choi, Hyeonah Jang, Dong Gu Lee, Wonseok Jeong,
Sang Woo Kim
- Abstract要約: 視覚変換器(ViT)は近年,畳み込みニューラルネットワーク(CNN)を置き換えるさまざまな視覚タスクにおいて,最先端のパフォーマンスを実証している。
本稿では,ViTの挙動とロバスト性について検討する。
- 参考スコア(独自算出の注目度): 4.961852023598131
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision transformers (ViTs) have recently demonstrated state-of-the-art
performance in a variety of vision tasks, replacing convolutional neural
networks (CNNs). Meanwhile, since ViT has a different architecture than CNN, it
may behave differently. To investigate the reliability of ViT, this paper
studies the behavior and robustness of ViT. We compared the robustness of CNN
and ViT by assuming various image corruptions that may appear in practical
vision tasks. We confirmed that for most image transformations, ViT showed
robustness comparable to CNN or more improved. However, for contrast
enhancement, severe performance degradations were consistently observed in ViT.
From a detailed analysis, we identified a potential problem: positional
embedding in ViT's patch embedding could work improperly when the color scale
changes. Here we claim the use of PreLayerNorm, a modified patch embedding
structure to ensure scale-invariant behavior of ViT. ViT with PreLayerNorm
showed improved robustness in various corruptions including contrast-varying
environments.
- Abstract(参考訳): ビジョントランスフォーマー(ViT)は最近、畳み込みニューラルネットワーク(CNN)を置き換える様々なビジョンタスクにおいて最先端のパフォーマンスを実証した。
一方、ViTはCNNとは異なるアーキテクチャであるため、異なる振る舞いをする可能性がある。
本稿では,ViTの信頼性を検討するために,ViTの挙動とロバスト性について検討する。
我々は,CNN と ViT の頑健さを,現実的な視覚タスクに現れる様々な画像劣化を仮定して比較した。
ほとんどの画像変換では、VTはCNNと同等以上の堅牢性を示した。
しかし, コントラスト向上のため, ViTでは高い劣化が観測された。
詳細な分析から、色スケールが変化すると、ViTのパッチへの位置埋め込みが不適切に機能する可能性があるという潜在的な問題を特定した。
ここでは,vit のスケール不変挙動を保証するために修正パッチ埋め込み構造である prelayernorm の使用を主張する。
vitは,コントラスト変動環境を含む各種汚職においてロバスト性が改善した。
関連論文リスト
- Query-Efficient Hard-Label Black-Box Attack against Vision Transformers [9.086983253339069]
ビジョントランスフォーマー(ViT)は、ディープ畳み込みニューラルネットワーク(CNN)として敵対的攻撃から同様のセキュリティリスクに直面している
本稿では,ブラックボックスシナリオ下での敵攻撃に対するViTsの脆弱性について検討する。
本稿では,AdvViTと呼ばれる新しいクエリ効率の高いハードラベル逆攻撃手法を提案する。
論文 参考訳(メタデータ) (2024-06-29T10:09:12Z) - A Comparative Survey of Vision Transformers for Feature Extraction in Texture Analysis [9.687982148528187]
畳み込みニューラルネットワーク(CNN)は現在、最高のテクスチャ分析アプローチの1つである。
視覚変換器(ViT)は、物体認識などのタスクにおいてCNNの性能を上回っている。
この研究は、テクスチャに依存するタスクに移行する際に、事前訓練された様々なViTアーキテクチャを探索する。
論文 参考訳(メタデータ) (2024-06-10T09:48:13Z) - What do Vision Transformers Learn? A Visual Exploration [68.50771218442776]
視覚変換器(ViT)はコンピュータビジョンのデファクトアーキテクチャとして急速に普及しつつある。
本稿では、ViT上での可視化の障害に対処し、ViTとCNNの根本的な相違について検討する。
また、DeiT、CoaT、ConViT、PiT、Swin、Twinなど、さまざまなViT変種に対して大規模な可視化を行っています。
論文 参考訳(メタデータ) (2022-12-13T16:55:12Z) - Self-Distilled Vision Transformer for Domain Generalization [58.76055100157651]
ビジョントランスフォーマー(ViT)は、標準ベンチマークにおけるCNNの優位性に挑戦している。
本稿では,ViTの自己蒸留法として考案された簡易なDG手法を提案する。
5つの挑戦的なデータセットにおいて、異なるDGベースラインと様々なViTバックボーンによる顕著なパフォーマンス向上を実証的に示す。
論文 参考訳(メタデータ) (2022-07-25T17:57:05Z) - Deeper Insights into ViTs Robustness towards Common Corruptions [82.79764218627558]
我々は、CNNのようなアーキテクチャ設計とCNNベースのデータ拡張戦略が、一般的な汚職に対するViTsの堅牢性にどのように影響するかを検討する。
重なり合うパッチ埋め込みと畳み込みフィードフォワードネットワーク(FFN)がロバスト性の向上を実証する。
また、2つの角度から入力値の増大を可能にする新しい条件付き手法も導入する。
論文 参考訳(メタデータ) (2022-04-26T08:22:34Z) - A Unified Pruning Framework for Vision Transformers [40.7622551128182]
ビジョントランス(ViT)とその変種は様々なコンピュータビジョンタスクにおいて有望な性能を達成した。
本稿では, UP-ViT と UP-ViT の両方の構造解析のための統一的な枠組みを提案する。
本手法は,モデル構造の整合性を維持しつつ,すべてのViTsコンポーネントのプルーニングに重点を置いている。
論文 参考訳(メタデータ) (2021-11-30T05:01:02Z) - Understanding and Improving Robustness of Vision Transformers through
Patch-based Negative Augmentation [29.08732248577141]
本稿では,視覚変換器 (ViT) のレンズによる堅牢性について検討する。
変換が元のセマンティクスを大きく損なう場合でも、ViTはパッチベースの変換に驚くほど敏感であることがわかった。
パッチベースの負の増大は、広範囲のImageNetベースのロバストネスベンチマークにおいて、ViTのロバストネスを一貫して改善することを示す。
論文 参考訳(メタデータ) (2021-10-15T04:53:18Z) - Reveal of Vision Transformers Robustness against Adversarial Attacks [13.985121520800215]
この研究は、CNNと比較して異なる$L_p$ベースの敵攻撃に対するViT変異の堅牢性について研究する。
我々は,バニラ ViT やハイブリッド-ViT が CNN よりも堅牢であることを明らかにする分析を行った。
論文 参考訳(メタデータ) (2021-06-07T15:59:49Z) - Intriguing Properties of Vision Transformers [114.28522466830374]
視覚変換器(ViT)は、様々なマシンビジョン問題にまたがって印象的な性能を誇示している。
我々は、この問題を広範囲の実験を通して体系的に研究し、高性能畳み込みニューラルネットワーク(CNN)との比較を行った。
ViTsの効果的な特徴は、自己認識機構によって可能なフレキシブルな受容と動的場によるものであることを示す。
論文 参考訳(メタデータ) (2021-05-21T17:59:18Z) - On the Adversarial Robustness of Visual Transformers [129.29523847765952]
本研究は、視覚変換器(ViT)の対逆的摂動に対する堅牢性に関する最初の包括的な研究を提供する。
さまざまなホワイトボックスとトランスファーアタック設定でテストされた ViT は、畳み込みニューラルネットワーク (CNN) と比較して、より優れた敵対的堅牢性を持っています。
論文 参考訳(メタデータ) (2021-03-29T14:48:24Z) - DeepViT: Towards Deeper Vision Transformer [92.04063170357426]
近年,視覚変換器 (ViT) が画像分類タスクに応用されている。
より畳み込み層を積み重ねることで改善できる畳み込みニューラルネットワーク(CNN)とは異なり、ViTの性能はより深いスケールで飽和する。
本研究では,アテンションマップの多様性を高めるために,アテンションマップを再生成する手法であるre-attentionを提案する。
論文 参考訳(メタデータ) (2021-03-22T14:32:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。