論文の概要: Self-Distilled Vision Transformer for Domain Generalization
- arxiv url: http://arxiv.org/abs/2207.12392v1
- Date: Mon, 25 Jul 2022 17:57:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-26 13:11:25.323613
- Title: Self-Distilled Vision Transformer for Domain Generalization
- Title(参考訳): 領域一般化のための自己蒸留型視覚トランス
- Authors: Maryam Sultana, Muzammal Naseer, Muhammad Haris Khan, Salman Khan,
Fahad Shahbaz Khan
- Abstract要約: ビジョントランスフォーマー(ViT)は、標準ベンチマークにおけるCNNの優位性に挑戦している。
本稿では,ViTの自己蒸留法として考案された簡易なDG手法を提案する。
5つの挑戦的なデータセットにおいて、異なるDGベースラインと様々なViTバックボーンによる顕著なパフォーマンス向上を実証的に示す。
- 参考スコア(独自算出の注目度): 58.76055100157651
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent past, several domain generalization (DG) methods have been
proposed, showing encouraging performance, however, almost all of them build on
convolutional neural networks (CNNs). There is little to no progress on
studying the DG performance of vision transformers (ViTs), which are
challenging the supremacy of CNNs on standard benchmarks, often built on i.i.d
assumption. This renders the real-world deployment of ViTs doubtful. In this
paper, we attempt to explore ViTs towards addressing the DG problem. Similar to
CNNs, ViTs also struggle in out-of-distribution scenarios and the main culprit
is overfitting to source domains. Inspired by the modular architecture of ViTs,
we propose a simple DG approach for ViTs, coined as self-distillation for ViTs.
It reduces the overfitting to source domains by easing the learning of
input-output mapping problem through curating non-zero entropy supervisory
signals for intermediate transformer blocks. Further, it does not introduce any
new parameters and can be seamlessly plugged into the modular composition of
different ViTs. We empirically demonstrate notable performance gains with
different DG baselines and various ViT backbones in five challenging datasets.
Moreover, we report favorable performance against recent state-of-the-art DG
methods. Our code along with pre-trained models are publicly available at:
https://github.com/maryam089/SDViT
- Abstract(参考訳): 近年、いくつかのドメイン一般化(DG)手法が提案され、性能向上が図られているが、ほとんど全てが畳み込みニューラルネットワーク(CNN)上に構築されている。
視覚変換器(ViT)のDG性能の研究は、標準ベンチマークにおけるCNNの優位性に挑戦するものであり、しばしばi.i.dの仮定に基づいている。
これにより、ViTの実際の展開は疑わしい。
本稿では,DG問題に対処するためのViTの探索を試みる。
CNNと同様、ViTsは配布外シナリオにも苦労しており、主要な原因はソースドメインへの過度な適合である。
ViTsのモジュラーアーキテクチャに着想を得て,VTsの自己蒸留法として考案されたシンプルなDGアプローチを提案する。
中間変圧器ブロックに対する非ゼロエントロピー監督信号の算出により、入力出力マッピング問題の学習を緩和することにより、ソース領域へのオーバーフィッティングを低減する。
さらに、新しいパラメータを導入せず、異なるViTのモジュール構成にシームレスにプラグインすることができる。
5つの挑戦的なデータセットにおいて、異なるDGベースラインと様々なViTバックボーンによる顕著なパフォーマンス向上を実証的に示す。
さらに,最近の最先端DG法に対して良好な性能を示す。
トレーニング済みのモデルとともに、私たちのコードは、https://github.com/maryam089/SDViTで公開されています。
関連論文リスト
- PriViT: Vision Transformers for Fast Private Inference [55.36478271911595]
Vision Transformer (ViT) アーキテクチャは、コンピュータビジョンアプリケーションのための最先端のディープモデルのバックボーンとして登場した。
ViTは、多くの非ポリノミカル操作のため、セキュアなマルチパーティプロトコルを使用したプライベート推論には適していない。
予測精度を維持しつつ,ViTの非線形性を選択的に"テイラー化"するアルゴリズムであるPriViTを提案する。
論文 参考訳(メタデータ) (2023-10-06T21:45:05Z) - Multi-Dimensional Hyena for Spatial Inductive Bias [69.3021852589771]
自己注意に依存しないデータ効率の高い視覚変換器を提案する。
代わりに、非常に最近のハイエナ層の複数の軸に新しい一般化を用いる。
ハイエナN-DをベースとしたハイブリッドなアプローチをViTの第1層に適用し,それに続いて従来の注目層を取り入れた手法により,様々な視覚トランスフォーマーアーキテクチャの性能が一貫して向上することを示す。
論文 参考訳(メタデータ) (2023-09-24T10:22:35Z) - $E(2)$-Equivariant Vision Transformer [11.94180035256023]
Vision Transformer (ViT) はコンピュータビジョンにおいて優れた性能を発揮している。
ViTにおける位置符号化は、データの本質的な等価性を学ぶのを著しく困難にする。
我々は、新しい効果的な位置符号化演算子を用いて、GE-ViT(Group Equivariant Vision Transformer)を設計する。
論文 参考訳(メタデータ) (2023-06-11T16:48:03Z) - What do Vision Transformers Learn? A Visual Exploration [68.50771218442776]
視覚変換器(ViT)はコンピュータビジョンのデファクトアーキテクチャとして急速に普及しつつある。
本稿では、ViT上での可視化の障害に対処し、ViTとCNNの根本的な相違について検討する。
また、DeiT、CoaT、ConViT、PiT、Swin、Twinなど、さまざまなViT変種に対して大規模な可視化を行っています。
論文 参考訳(メタデータ) (2022-12-13T16:55:12Z) - Rethinking Hierarchicies in Pre-trained Plain Vision Transformer [76.35955924137986]
マスク付き画像モデリング(MIM)による自己教師付き事前学習型視覚変換器(ViT)は非常に効果的であることが証明されている。
カスタマイズされたアルゴリズムは、平易なViTのためにバニラと単純なMAEを使用する代わりに、例えばGreenMIMのような階層的なViTのために慎重に設計されるべきである。
本稿では,自己指導型事前学習から階層型アーキテクチャ設計を遠ざける新しいアイデアを提案する。
論文 参考訳(メタデータ) (2022-11-03T13:19:23Z) - Deeper Insights into ViTs Robustness towards Common Corruptions [82.79764218627558]
我々は、CNNのようなアーキテクチャ設計とCNNベースのデータ拡張戦略が、一般的な汚職に対するViTsの堅牢性にどのように影響するかを検討する。
重なり合うパッチ埋め込みと畳み込みフィードフォワードネットワーク(FFN)がロバスト性の向上を実証する。
また、2つの角度から入力値の増大を可能にする新しい条件付き手法も導入する。
論文 参考訳(メタデータ) (2022-04-26T08:22:34Z) - Recent Advances in Vision Transformer: A Survey and Outlook of Recent
Work [1.6317061277457001]
視覚変換器(ViT)は、畳み込みニューラルネットワーク(CNN)と比較して、様々な視覚タスクにおいて、より人気があり支配的な技術になりつつある。
コンピュータビジョンにおける要求技術として、ViTは長距離関係に着目しながら様々な視覚問題を解くことに成功した。
一般的なベンチマークデータセット上で,様々なViTアルゴリズムと代表的CNN手法の性能を徹底的に比較する。
論文 参考訳(メタデータ) (2022-03-03T06:17:03Z) - Discrete Representations Strengthen Vision Transformer Robustness [43.821734467553554]
Vision Transformer (ViT) は、画像認識のための最先端アーキテクチャとして登場しつつある。
本稿では,ベクトル量子化エンコーダによって生成された離散トークンを付加することにより,ViTの入力層に対する簡易かつ効果的なアーキテクチャ変更を提案する。
実験結果から,4つのアーキテクチャ変種に離散表現を追加することで,7つのImageNetロバストネスベンチマークで最大12%のViTロバストネスが向上することが示された。
論文 参考訳(メタデータ) (2021-11-20T01:49:56Z) - Improved Robustness of Vision Transformer via PreLayerNorm in Patch
Embedding [4.961852023598131]
視覚変換器(ViT)は近年,畳み込みニューラルネットワーク(CNN)を置き換えるさまざまな視覚タスクにおいて,最先端のパフォーマンスを実証している。
本稿では,ViTの挙動とロバスト性について検討する。
論文 参考訳(メタデータ) (2021-11-16T12:32:03Z) - ViTGAN: Training GANs with Vision Transformers [46.769407314698434]
視覚変換器(ViT)は、視覚固有の誘導バイアスを少なくしながら、画像認識に競争力を発揮している。
ViTを用いたGANのトレーニングのための新しい正規化手法をいくつか紹介する。
我々のアプローチはViTGANと呼ばれ、3つのデータセット上の主要なCNNベースのGANモデルに匹敵する性能を実現している。
論文 参考訳(メタデータ) (2021-07-09T17:59:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。