論文の概要: Delving Deep into the Generalization of Vision Transformers under
Distribution Shifts
- arxiv url: http://arxiv.org/abs/2106.07617v1
- Date: Mon, 14 Jun 2021 17:21:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-15 15:55:58.028193
- Title: Delving Deep into the Generalization of Vision Transformers under
Distribution Shifts
- Title(参考訳): 分布シフト下における視覚トランスフォーマの一般化
- Authors: Chongzhi Zhang, Mingyuan Zhang, Shanghang Zhang, Daisheng Jin, Qiang
Zhou, Zhongang Cai, Haiyu Zhao, Shuai Yi, Xianglong Liu, Ziwei Liu
- Abstract要約: 視覚変換器(ViT)は様々な視覚タスクにおいて印象的な結果を得た。
しかし、分布シフトの違いによる一般化能力はほとんど理解されていない。
この研究は、ViTの分布外一般化に関する包括的な研究を提供する。
- 参考スコア(独自算出の注目度): 59.93426322225099
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, Vision Transformers (ViTs) have achieved impressive results on
various vision tasks. Yet, their generalization ability under different
distribution shifts is rarely understood. In this work, we provide a
comprehensive study on the out-of-distribution generalization of ViTs. To
support a systematic investigation, we first present a taxonomy of distribution
shifts by categorizing them into five conceptual groups: corruption shift,
background shift, texture shift, destruction shift, and style shift. Then we
perform extensive evaluations of ViT variants under different groups of
distribution shifts and compare their generalization ability with CNNs. Several
important observations are obtained: 1) ViTs generalize better than CNNs under
multiple distribution shifts. With the same or fewer parameters, ViTs are ahead
of corresponding CNNs by more than 5% in top-1 accuracy under most distribution
shifts. 2) Larger ViTs gradually narrow the in-distribution and
out-of-distribution performance gap. To further improve the generalization of
ViTs, we design the Generalization-Enhanced ViTs by integrating adversarial
learning, information theory, and self-supervised learning. By investigating
three types of generalization-enhanced ViTs, we observe their
gradient-sensitivity and design a smoother learning strategy to achieve a
stable training process. With modified training schemes, we achieve
improvements on performance towards out-of-distribution data by 4% from vanilla
ViTs. We comprehensively compare three generalization-enhanced ViTs with their
corresponding CNNs, and observe that: 1) For the enhanced model, larger ViTs
still benefit more for the out-of-distribution generalization. 2)
generalization-enhanced ViTs are more sensitive to the hyper-parameters than
corresponding CNNs. We hope our comprehensive study could shed light on the
design of more generalizable learning architectures.
- Abstract(参考訳): 近年、視覚変換器(ViT)は様々な視覚タスクにおいて印象的な成果を上げている。
しかし,分布シフトの違いによる一般化能力の理解は稀である。
本研究では,ViTの分布外一般化に関する総合的研究を行う。
組織的な調査を支援するために,まず,これらを5つの概念群(汚職シフト,背景シフト,テクスチャシフト,破壊シフト,スタイルシフト)に分類し,分布シフトの分類を提示する。
次に,分布シフトの異なる群におけるvit変異の広範な評価を行い,その一般化能力とcnnとの比較を行った。
1) ViTsは複数の分布シフトの下でCNNsよりも一般化される。
同じまたは少ないパラメータで、ViTは、ほとんどの分散シフトの下で、トップ1の精度で、対応するCNNよりも5%以上進んでいる。
2) より大きなvitは, 徐々に分布内および分布外性能ギャップを狭くする。
さらに,vitsの一般化をさらに高めるために,敵対的学習,情報理論,自己教師付き学習を統合した一般化型vitの設計を行う。
3種類の一般化型vitを探索することにより,その勾配感受性を観察し,安定したトレーニングプロセスを実現するためのスムースな学習戦略を設計する。
トレーニングスキームの修正により,バニラVTからディストリビューションデータへの性能改善を4%向上する。
我々は3つの一般化されたViTと対応するCNNを包括的に比較し、次のことを観察する。
2) 一般化増強型VTは, 対応するCNNよりも過度パラメータに敏感である。
総合的な研究が,より一般化可能な学習アーキテクチャの設計に光を当ててくれることを願っています。
関連論文リスト
- Self-Distilled Vision Transformer for Domain Generalization [58.76055100157651]
ビジョントランスフォーマー(ViT)は、標準ベンチマークにおけるCNNの優位性に挑戦している。
本稿では,ViTの自己蒸留法として考案された簡易なDG手法を提案する。
5つの挑戦的なデータセットにおいて、異なるDGベースラインと様々なViTバックボーンによる顕著なパフォーマンス向上を実証的に示す。
論文 参考訳(メタデータ) (2022-07-25T17:57:05Z) - SERE: Exploring Feature Self-relation for Self-supervised Transformer [79.5769147071757]
視覚変換器(ViT)は、空間的自己アテンションとチャネルレベルのフィードフォワードネットワークを備えた強力な表現能力を有する。
最近の研究によると、自己教師型学習はViTの大きな可能性を解き放つのに役立つ。
空間次元とチャネル次元のリレーショナルモデリングは、他のネットワークとViTを区別する。
論文 参考訳(メタデータ) (2022-06-10T15:25:00Z) - Self-Promoted Supervision for Few-Shot Transformer [178.52948452353834]
SUN(Self-promoted sUpervisioN)は視覚変換器(ViT)のための数発の学習フレームワークである
SUNは、数ショットの学習データセットでViTを事前トレーニングし、各パッチトークンを導くために、個別のロケーション固有の監視を生成する。
実験によると、ViTを使ったSUNは、ViTを使った他の数発の学習フレームワークを大幅に上回っており、CNNの最先端技術よりも高いパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-03-14T12:53:27Z) - The Principle of Diversity: Training Stronger Vision Transformers Calls
for Reducing All Levels of Redundancy [111.49944789602884]
本稿では,パッチ埋め込み,アテンションマップ,ウェイトスペースという3つのレベルにおいて,冗長性のユビキタスな存在を体系的に研究する。
各レベルにおける表現の多様性とカバレッジを促進するための対応正規化器を提案する。
論文 参考訳(メタデータ) (2022-03-12T04:48:12Z) - How to augment your ViTs? Consistency loss and StyleAug, a random style
transfer augmentation [4.3012765978447565]
Vision Transformer (ViT) アーキテクチャは、最近、様々なコンピュータビジョンタスクで競合する性能を達成した。
ViTsの背景にある動機の1つは、畳み込みニューラルネットワーク(CNN)と比較して誘導バイアスが弱いことである。
論文 参考訳(メタデータ) (2021-12-16T23:56:04Z) - On the Adversarial Robustness of Visual Transformers [129.29523847765952]
本研究は、視覚変換器(ViT)の対逆的摂動に対する堅牢性に関する最初の包括的な研究を提供する。
さまざまなホワイトボックスとトランスファーアタック設定でテストされた ViT は、畳み込みニューラルネットワーク (CNN) と比較して、より優れた敵対的堅牢性を持っています。
論文 参考訳(メタデータ) (2021-03-29T14:48:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。