論文の概要: Bootstrapping ViTs: Towards Liberating Vision Transformers from
Pre-training
- arxiv url: http://arxiv.org/abs/2112.03552v2
- Date: Thu, 9 Dec 2021 16:28:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-11 03:05:13.682597
- Title: Bootstrapping ViTs: Towards Liberating Vision Transformers from
Pre-training
- Title(参考訳): vitsのブートストラップ: 視覚トランスフォーマーをプリトレーニングから解放する
- Authors: Haofei Zhang, Jiarui Duan, Mengqi Xue, Jie Song, Li Sun, Mingli Song
- Abstract要約: ビジョントランスフォーマー(ViT)は急速に発展し、コンピュータビジョンにおける畳み込みニューラルネットワーク(CNN)の支配に挑戦し始めている。
本稿では,上位境界のネットワークアーキテクチャを保ちながら,CNNのインダクティブバイアスをViTに戻す。
CIFAR-10/100 と ImageNet-1k の限られたトレーニングデータによる実験は、有望な結果を示している。
- 参考スコア(独自算出の注目度): 29.20567759071523
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, vision Transformers (ViTs) are developing rapidly and starting to
challenge the domination of convolutional neural networks (CNNs) in the realm
of computer vision (CV). With the general-purpose Transformer architecture for
replacing the hard-coded inductive biases of convolution, ViTs have surpassed
CNNs, especially in data-sufficient circumstances. However, ViTs are prone to
over-fit on small datasets and thus rely on large-scale pre-training, which
expends enormous time. In this paper, we strive to liberate ViTs from
pre-training by introducing CNNs' inductive biases back to ViTs while
preserving their network architectures for higher upper bound and setting up
more suitable optimization objectives. To begin with, an agent CNN is designed
based on the given ViT with inductive biases. Then a bootstrapping training
algorithm is proposed to jointly optimize the agent and ViT with weight
sharing, during which the ViT learns inductive biases from the intermediate
features of the agent. Extensive experiments on CIFAR-10/100 and ImageNet-1k
with limited training data have shown encouraging results that the inductive
biases help ViTs converge significantly faster and outperform conventional CNNs
with even fewer parameters.
- Abstract(参考訳): 近年、視覚変換器(ViT)は急速に発展し、コンピュータビジョン(CV)の領域における畳み込みニューラルネットワーク(CNN)の支配に挑戦し始めている。
畳み込みのハードコード化による帰納バイアスを置き換える汎用トランスフォーマーアーキテクチャにより、ViTは特にデータに十分な状況においてCNNを超越した。
しかし、ViTは小さなデータセットに過度に適合する傾向があるため、大規模な事前トレーニングに依存しているため、膨大な時間が費やされる。
本稿では,ネットワークアーキテクチャを高い上限に保ち,より適切な最適化目標を設定しながら,CNNの帰納バイアスをViTに戻すことで,ViTの事前学習を解放する。
まず、エージェントCNNは、誘導バイアスのある与えられたViTに基づいて設計される。
次に,VTがエージェントの中間的特徴から誘導バイアスを学習する際の重み共有を伴うエージェントとViTを協調的に最適化するブートストラップトレーニングアルゴリズムを提案する。
CIFAR-10/100とImageNet-1kの限られたトレーニングデータによる大規模な実験により、インダクティブバイアスがViTsをはるかに高速に収束させ、パラメータの少ない従来のCNNを上回る結果が得られた。
関連論文リスト
- Structured Initialization for Attention in Vision Transformers [34.374054040300805]
畳み込みニューラルネットワーク(CNN)は、アーキテクチャ上の帰納バイアスを持ち、小規模な問題に対してうまく機能する。
我々は、CNNに固有のアーキテクチャバイアスを、ViT内の初期化バイアスとして再解釈することができると論じる。
この洞察は、ViTsが大規模アプリケーションに対する柔軟性を維持しながら、小規模問題でも同じように機能する権限を付与する上で重要である。
論文 参考訳(メタデータ) (2024-04-01T14:34:47Z) - Convolutional Embedding Makes Hierarchical Vision Transformer Stronger [16.72943631060293]
ビジョントランスフォーマー(ViT)は近年、コンピュータビジョンタスクの領域を支配しているが、訓練データ効率の低下と、適切な帰納バイアスを伴わない局所意味表現能力の低下に悩まされている。
CNNは本質的に地域を意識したセマンティクスを捉え、研究者はCNNをViTのアーキテクチャに戻して、ViTに望ましい帰納的バイアスを与えるよう促す。
本稿では,ハイブリッドCNN/ViTのマクロアーキテクチャが階層型ViTの性能をいかに向上させるかを検討する。
論文 参考訳(メタデータ) (2022-07-27T06:36:36Z) - Self-Distilled Vision Transformer for Domain Generalization [58.76055100157651]
ビジョントランスフォーマー(ViT)は、標準ベンチマークにおけるCNNの優位性に挑戦している。
本稿では,ViTの自己蒸留法として考案された簡易なDG手法を提案する。
5つの挑戦的なデータセットにおいて、異なるDGベースラインと様々なViTバックボーンによる顕著なパフォーマンス向上を実証的に示す。
論文 参考訳(メタデータ) (2022-07-25T17:57:05Z) - EdgeViTs: Competing Light-weight CNNs on Mobile Devices with Vision
Transformers [88.52500757894119]
自己注意に基づく視覚変換器(ViT)は、コンピュータビジョンにおける畳み込みニューラルネットワーク(CNN)に代わる、非常に競争力のあるアーキテクチャとして登場した。
われわれはEdgeViTsを紹介した。これは新しい軽量ViTのファミリーで、注目に基づく視覚モデルが初めて、最高の軽量CNNと競合することを可能にする。
論文 参考訳(メタデータ) (2022-05-06T18:17:19Z) - Improving Vision Transformers by Revisiting High-frequency Components [106.7140968644414]
視覚変換器(ViT)モデルは,CNNモデルよりも画像の高周波成分の捕捉に効果が低いことを示す。
本稿では,画像の高周波成分を直接補うHATを提案する。
HAT は様々な ViT モデルの性能を継続的に向上させることができることを示す。
論文 参考訳(メタデータ) (2022-04-03T05:16:51Z) - ViT-P: Rethinking Data-efficient Vision Transformers from Locality [9.515925867530262]
我々は多焦点アテンションバイアスを導入することにより、畳み込みニューラルネットワークのようなデータ効率を向上する。
十分に訓練されたViTの注意距離にインスパイアされ、我々はViTの自己注意をマルチスケールの局所受容野に制限する。
Cifar100では、私たちのViT-P Baseモデルは、ゼロからトレーニングされた最先端の精度(83.16%)を達成する。
論文 参考訳(メタデータ) (2022-03-04T14:49:48Z) - Self-slimmed Vision Transformer [52.67243496139175]
視覚変換器(ViT)は、様々な視覚タスクにおいて一般的な構造となり、CNN(Creative Convolutional Neural Network)よりも優れています。
本稿では,バニラVT,すなわちSiTに対する汎用的な自己スリム学習手法を提案する。
具体的には、まず、ViTの推論効率を向上させる新しいToken Slimming Module (TSM) を設計する。
論文 参考訳(メタデータ) (2021-11-24T16:48:57Z) - Scaled ReLU Matters for Training Vision Transformers [45.41439457701873]
視覚変換器(ViT)は畳み込みニューラルネットワーク(CNN)の代替設計パラダイムである。
しかし、ViTsのトレーニングは、学習率、ウォームアップ、ウォームアップなどのトレーニングパラメータに敏感であるため、CNNよりもはるかに難しい。
我々は、理論上も経験上も、ReLUをtextitconv-stemで拡張することでトレーニングの安定化が向上するだけでなく、パッチトークンの多様性も向上することを確認した。
論文 参考訳(メタデータ) (2021-09-08T17:57:58Z) - When Vision Transformers Outperform ResNets without Pretraining or
Strong Data Augmentations [111.44860506703307]
Vision Transformer (ViTs) と既存のVisionNetsは、ハンドワイヤ機能やインダクティブスループットを汎用神経アーキテクチャに置き換えようとしている。
本稿では、損失幾何学のレンズからViTとRes-Mixersを解析し、トレーニングおよび推論時のモデルのデータ効率を改善することを目的とする。
最初の数層では、スペーサー活動ニューロンの頑健性が改善していることが示されている。
その結果、ViTsは、大規模な事前トレーニングや強力なデータ拡張なしに、ImageNet上でスクラッチからトレーニングした時に、同様のサイズと滑らかさのネットより優れています。
論文 参考訳(メタデータ) (2021-06-03T02:08:03Z) - On the Adversarial Robustness of Visual Transformers [129.29523847765952]
本研究は、視覚変換器(ViT)の対逆的摂動に対する堅牢性に関する最初の包括的な研究を提供する。
さまざまなホワイトボックスとトランスファーアタック設定でテストされた ViT は、畳み込みニューラルネットワーク (CNN) と比較して、より優れた敵対的堅牢性を持っています。
論文 参考訳(メタデータ) (2021-03-29T14:48:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。