論文の概要: Semi-supervised Vision Transformers at Scale
- arxiv url: http://arxiv.org/abs/2208.05688v1
- Date: Thu, 11 Aug 2022 08:11:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-12 12:49:45.644930
- Title: Semi-supervised Vision Transformers at Scale
- Title(参考訳): 半教師付き視覚変換器
- Authors: Zhaowei Cai, Avinash Ravichandran, Paolo Favaro, Manchen Wang, Davide
Modolo, Rahul Bhotika, Zhuowen Tu, Stefano Soatto
- Abstract要約: 視覚変換器(ViT)のための半教師あり学習(SSL)について検討する。
我々は、最初のun/self教師付き事前トレーニングと教師付き微調整、そして最後に半教師付き微調整からなる新しいSSLパイプラインを提案する。
提案手法はSemi-ViTと呼ばれ,半教師付き分類設定においてCNNと同等あるいは同等の性能を達成している。
- 参考スコア(独自算出の注目度): 93.0621675558895
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study semi-supervised learning (SSL) for vision transformers (ViT), an
under-explored topic despite the wide adoption of the ViT architectures to
different tasks. To tackle this problem, we propose a new SSL pipeline,
consisting of first un/self-supervised pre-training, followed by supervised
fine-tuning, and finally semi-supervised fine-tuning. At the semi-supervised
fine-tuning stage, we adopt an exponential moving average (EMA)-Teacher
framework instead of the popular FixMatch, since the former is more stable and
delivers higher accuracy for semi-supervised vision transformers. In addition,
we propose a probabilistic pseudo mixup mechanism to interpolate unlabeled
samples and their pseudo labels for improved regularization, which is important
for training ViTs with weak inductive bias. Our proposed method, dubbed
Semi-ViT, achieves comparable or better performance than the CNN counterparts
in the semi-supervised classification setting. Semi-ViT also enjoys the
scalability benefits of ViTs that can be readily scaled up to large-size models
with increasing accuracies. For example, Semi-ViT-Huge achieves an impressive
80% top-1 accuracy on ImageNet using only 1% labels, which is comparable with
Inception-v4 using 100% ImageNet labels.
- Abstract(参考訳): 視覚トランスフォーマー(vit)のための半教師付き学習(ssl)について検討した。vitアーキテクチャをさまざまなタスクに広く採用しているにも関わらず、未検討のトピックである。
この問題に対処するために,まず un/self-supervised pre-training とsupervised fine-tuning,最後に semi-supervised fine-tuning からなる新しいsslパイプラインを提案する。
前者はより安定しており、半教師付き視覚変換器の精度が高いため、半教師付き微調整段階では、一般的なFixMatchの代わりに指数移動平均(EMA)-Teacherフレームワークを採用する。
さらに,ラベルのないサンプルとそれらの擬似ラベルを補間して正則化を改善する確率的擬似混合機構を提案する。
提案手法はSemi-ViTと呼ばれ,半教師付き分類設定においてCNNと同等あるいは同等の性能を実現する。
semi-vitはvitsのスケーラビリティの利点も享受しており、より信頼性の高い大規模モデルに容易にスケールアップできる。
例えば、Semi-ViT-Hugeは、100% ImageNetラベルを使用するInception-v4に匹敵する1%ラベルのみを使用して、ImageNet上で印象的な80%のトップ1精度を達成する。
関連論文リスト
- Reviving Shift Equivariance in Vision Transformers [12.720600348466498]
本稿では,視覚変換器モデルにシームレスに統合可能な適応型多相アンカーアルゴリズムを提案する。
我々のアルゴリズムは、ViTとその変種であるTwinsを、入力シフトに関して100%整合性を達成することができる。
論文 参考訳(メタデータ) (2023-06-13T00:13:11Z) - Exploring Efficient Few-shot Adaptation for Vision Transformers [70.91692521825405]
そこで本稿では,Few-shot LearningタスクにおけるVTの微調整を容易にするトランスフォーマーチューニング(eTT)手法を提案する。
新しく発表されたAttentive Prefix Tuning(APT)とDomain Residual Adapter(DRA)の主な新機能
我々は,我々のモデルの有効性を示す広範囲な実験を行った。
論文 参考訳(メタデータ) (2023-01-06T08:42:05Z) - Elastic Weight Consolidation Improves the Robustness of Self-Supervised
Learning Methods under Transfer [4.2141621237414615]
自己教師付き表現学習(SSL)手法は、下流タスクの微調整に有効なラベルなし初期条件を提供する。
我々はベイジアン連続学習のレンズの下でSSLの微調整を再解釈し、Elastic Weight Consolidation (EWC)フレームワークによる正規化を検討する。
初期SSLバックボーンに対する自己正規化は、ウォーターバードの最低サブグループ性能を5%改善し、Celeb-Aを2%向上させることを示した。
論文 参考訳(メタデータ) (2022-10-28T19:00:25Z) - Where are my Neighbors? Exploiting Patches Relations in Self-Supervised
Vision Transformer [3.158346511479111]
視覚変換器(ViT)を訓練するための簡易かつ効果的な自己教師付き学習(SSL)戦略を提案する。
我々は、ダウンストリームトレーニングの前後で、モデルが解決しなければならないイメージパッチの関係に基づいてSSLタスクのセットを定義する。
我々のRelViTモデルは、画像パッチに関連するトランスフォーマーエンコーダの出力トークンをすべて最適化し、トレーニングステップ毎により多くのトレーニング信号を利用する。
論文 参考訳(メタデータ) (2022-06-01T13:25:32Z) - The Principle of Diversity: Training Stronger Vision Transformers Calls
for Reducing All Levels of Redundancy [111.49944789602884]
本稿では,パッチ埋め込み,アテンションマップ,ウェイトスペースという3つのレベルにおいて,冗長性のユビキタスな存在を体系的に研究する。
各レベルにおける表現の多様性とカバレッジを促進するための対応正規化器を提案する。
論文 参考訳(メタデータ) (2022-03-12T04:48:12Z) - When Vision Transformers Outperform ResNets without Pretraining or
Strong Data Augmentations [111.44860506703307]
Vision Transformer (ViTs) と既存のVisionNetsは、ハンドワイヤ機能やインダクティブスループットを汎用神経アーキテクチャに置き換えようとしている。
本稿では、損失幾何学のレンズからViTとRes-Mixersを解析し、トレーニングおよび推論時のモデルのデータ効率を改善することを目的とする。
最初の数層では、スペーサー活動ニューロンの頑健性が改善していることが示されている。
その結果、ViTsは、大規模な事前トレーニングや強力なデータ拡張なしに、ImageNet上でスクラッチからトレーニングした時に、同様のサイズと滑らかさのネットより優れています。
論文 参考訳(メタデータ) (2021-06-03T02:08:03Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z) - DeepViT: Towards Deeper Vision Transformer [92.04063170357426]
近年,視覚変換器 (ViT) が画像分類タスクに応用されている。
より畳み込み層を積み重ねることで改善できる畳み込みニューラルネットワーク(CNN)とは異なり、ViTの性能はより深いスケールで飽和する。
本研究では,アテンションマップの多様性を高めるために,アテンションマップを再生成する手法であるre-attentionを提案する。
論文 参考訳(メタデータ) (2021-03-22T14:32:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。