論文の概要: Improving Vision Transformers by Revisiting High-frequency Components
- arxiv url: http://arxiv.org/abs/2204.00993v1
- Date: Sun, 3 Apr 2022 05:16:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-05 15:32:00.730829
- Title: Improving Vision Transformers by Revisiting High-frequency Components
- Title(参考訳): 高周波部品の再検討による視覚変換器の改良
- Authors: Jiawang Bai, Li Yuan, Shu-Tao Xia, Shuicheng Yan, Zhifeng Li, and Wei
Liu
- Abstract要約: 視覚変換器(ViT)モデルは,CNNモデルよりも画像の高周波成分の捕捉に効果が低いことを示す。
本稿では,画像の高周波成分を直接補うHATを提案する。
HAT は様々な ViT モデルの性能を継続的に向上させることができることを示す。
- 参考スコア(独自算出の注目度): 106.7140968644414
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The transformer models have shown promising effectiveness in dealing with
various vision tasks. However, compared with training Convolutional Neural
Network (CNN) models, training Vision Transformer (ViT) models is more
difficult and relies on the large-scale training set. To explain this
observation we make a hypothesis that ViT models are less effective in
capturing the high-frequency components of images than CNN models, and verify
it by a frequency analysis. Inspired by this finding, we first investigate the
effects of existing techniques for improving ViT models from a new frequency
perspective, and find that the success of some techniques (e.g., RandAugment)
can be attributed to the better usage of the high-frequency components. Then,
to compensate for this insufficient ability of ViT models, we propose HAT,
which directly augments high-frequency components of images via adversarial
training. We show that HAT can consistently boost the performance of various
ViT models (e.g., +1.2% for ViT-B, +0.5% for Swin-B), and especially enhance
the advanced model VOLO-D5 to 87.3% that only uses ImageNet-1K data, and the
superiority can also be maintained on out-of-distribution data and transferred
to downstream tasks.
- Abstract(参考訳): トランスモデルは様々なビジョンタスクを扱う上で有望な効果を示した。
しかし、CNN(Convolutional Neural Network)モデルのトレーニングに比べ、ViT(Vision Transformer)モデルのトレーニングはより難しく、大規模なトレーニングセットに依存している。
この観察を説明するために、VTモデルはCNNモデルよりも画像の高周波成分の捕捉に効果が低いと仮定し、周波数解析により検証する。
この発見に触発されて、我々はまず、新しい周波数視点からViTモデルを改善する既存の技術の効果を調査し、いくつかの技術(例えばRandAugment)の成功は、高周波コンポーネントのより良い使用に起因することが判明した。
そして、このViTモデルの不足を補うために、敵対的訓練を通じて画像の高周波成分を直接増強するHATを提案する。
vit-bの+1.2%、swain-bの0.5%、imagenet-1kデータのみを使用する先進モデルvolo-d5から87.3%まで、一貫してvitモデルのパフォーマンスを向上させることが可能であり、その優位性は配信外データにも維持され、下流タスクに転送される。
関連論文リスト
- DiffiT: Diffusion Vision Transformers for Image Generation [88.08529836125399]
ViT(Vision Transformer)は、特に認識タスクにおいて、強力なモデリング機能とスケーラビリティを実証している。
拡散型生成学習におけるViTの有効性について検討し、拡散ビジョン変換器(DiffiT)と呼ばれる新しいモデルを提案する。
DiffiTはパラメータ効率が大幅に向上した高忠実度画像を生成するのに驚くほど効果的である。
論文 参考訳(メタデータ) (2023-12-04T18:57:01Z) - DeViT: Decomposing Vision Transformers for Collaborative Inference in
Edge Devices [42.89175608336226]
ビジョントランス (ViT) は、複数のコンピュータビジョンベンチマークで最先端のパフォーマンスを達成した。
ViTモデルは膨大なパラメータと高い計算コストに悩まされ、リソース制約されたエッジデバイスへのデプロイが困難になる。
本稿では,大規模なViTを分解してエッジ展開を容易にするために,DeViTと呼ばれる協調推論フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-10T12:26:17Z) - A Unified Pruning Framework for Vision Transformers [40.7622551128182]
ビジョントランス(ViT)とその変種は様々なコンピュータビジョンタスクにおいて有望な性能を達成した。
本稿では, UP-ViT と UP-ViT の両方の構造解析のための統一的な枠組みを提案する。
本手法は,モデル構造の整合性を維持しつつ,すべてのViTsコンポーネントのプルーニングに重点を置いている。
論文 参考訳(メタデータ) (2021-11-30T05:01:02Z) - How to train your ViT? Data, Augmentation, and Regularization in Vision
Transformers [74.06040005144382]
ビジョントランスフォーマー(ViT)は、幅広いビジョンアプリケーションにおいて高い競争力を発揮することが示されている。
我々は,トレーニングデータの量,AugReg,モデルサイズ,計算予算の相互作用をよりよく理解するために,体系的な実証的研究を行う。
私たちは、パブリックなImageNet-21kデータセットでさまざまなサイズのViTモデルをトレーニングします。
論文 参考訳(メタデータ) (2021-06-18T17:58:20Z) - When Vision Transformers Outperform ResNets without Pretraining or
Strong Data Augmentations [111.44860506703307]
Vision Transformer (ViTs) と既存のVisionNetsは、ハンドワイヤ機能やインダクティブスループットを汎用神経アーキテクチャに置き換えようとしている。
本稿では、損失幾何学のレンズからViTとRes-Mixersを解析し、トレーニングおよび推論時のモデルのデータ効率を改善することを目的とする。
最初の数層では、スペーサー活動ニューロンの頑健性が改善していることが示されている。
その結果、ViTsは、大規模な事前トレーニングや強力なデータ拡張なしに、ImageNet上でスクラッチからトレーニングした時に、同様のサイズと滑らかさのネットより優れています。
論文 参考訳(メタデータ) (2021-06-03T02:08:03Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z) - On the Adversarial Robustness of Visual Transformers [129.29523847765952]
本研究は、視覚変換器(ViT)の対逆的摂動に対する堅牢性に関する最初の包括的な研究を提供する。
さまざまなホワイトボックスとトランスファーアタック設定でテストされた ViT は、畳み込みニューラルネットワーク (CNN) と比較して、より優れた敵対的堅牢性を持っています。
論文 参考訳(メタデータ) (2021-03-29T14:48:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。