論文の概要: An Empirical Study of Training Self-Supervised Visual Transformers
- arxiv url: http://arxiv.org/abs/2104.02057v1
- Date: Mon, 5 Apr 2021 17:59:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-06 15:35:07.912614
- Title: An Empirical Study of Training Self-Supervised Visual Transformers
- Title(参考訳): 自己監督型視覚変換器の訓練に関する実証的研究
- Authors: Xinlei Chen and Saining Xie and Kaiming He
- Abstract要約: 自己監視型視覚トランスフォーマーの訓練におけるいくつかの基本成分の影響について検討する。
これらの結果は確かに部分的な失敗であり、トレーニングをより安定させると改善できる。
- 参考スコア(独自算出の注目度): 70.27107708555185
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper does not describe a novel method. Instead, it studies a
straightforward, incremental, yet must-know baseline given the recent progress
in computer vision: self-supervised learning for Visual Transformers (ViT).
While the training recipes for standard convolutional networks have been highly
mature and robust, the recipes for ViT are yet to be built, especially in the
self-supervised scenarios where training becomes more challenging. In this
work, we go back to basics and investigate the effects of several fundamental
components for training self-supervised ViT. We observe that instability is a
major issue that degrades accuracy, and it can be hidden by apparently good
results. We reveal that these results are indeed partial failure, and they can
be improved when training is made more stable. We benchmark ViT results in MoCo
v3 and several other self-supervised frameworks, with ablations in various
aspects. We discuss the currently positive evidence as well as challenges and
open questions. We hope that this work will provide useful data points and
experience for future research.
- Abstract(参考訳): 本稿では,新しい手法を記述しない。
代わりに、コンピュータビジョンの最近の進歩を考えると、直感的でインクリメンタルで必須のベースライン、すなわち、ビジュアルトランスフォーマーのための自己教師型学習(ViT)を研究する。
標準畳み込みネットワークのトレーニングレシピは高度に成熟し堅牢であるが、特にトレーニングがより困難になるような自己監督のシナリオでは、vitのレシピは構築されていない。
本研究は, 基礎研究に戻り, 自己監督型VTの学習における基礎的要素の影響について検討する。
不安定性は精度を低下させる主要な問題であり、明らかに良い結果によって隠すことができる。
これらの結果は確かに部分的な失敗であり、トレーニングをより安定させると改善できる。
We benchmark ViT results in MoCo v3 and other self-supervised framework, with ablations in various aspects。
現在肯定的な証拠と課題、オープンな質問について議論する。
この研究が将来の研究に有用なデータポイントと経験を提供することを期待しています。
関連論文リスト
- Experts Weights Averaging: A New General Training Scheme for Vision
Transformers [57.62386892571636]
推論コストを増大させることなく性能向上を実現するビジョントランスフォーマー(ViT)のトレーニング手法を提案する。
トレーニング中、ViTのFeed-Forward Networks(FFN)を、特別に設計されたより効率的なMoEに置き換える。
トレーニング後、各MoEを専門家を平均化してFFNに変換し、モデルを推論のために元のViTに変換する。
論文 参考訳(メタデータ) (2023-08-11T12:05:12Z) - Learning from Visual Observation via Offline Pretrained State-to-Go
Transformer [29.548242447584194]
視覚的観察から学ぶための2段階のフレームワークを提案する。
第1段階では、ステート・ツー・ゴー・トランスフォーマーをオフラインでトレーニングし、デモの遅延遷移を予測し、区別する。
第2段階では、STG Transformerは下流の強化学習タスクに固有の報酬を提供する。
論文 参考訳(メタデータ) (2023-06-22T13:14:59Z) - Strong Baselines for Parameter Efficient Few-Shot Fine-tuning [50.83426196335385]
FSC (Few-shot Classification) は、事前訓練(メタトレーニング)フェーズの後にクラス毎にいくつかの例を与えられた新しいクラスを学習する。
近年の研究では、新しいテストクラスで事前訓練された視覚変換器(ViT)を微調整することが、FSCにとって強力なアプローチであることが示されている。
しかし、微調整のViTは、時間、計算、ストレージに費用がかかる。
これにより、Transformerのパラメータのごく一部だけを微調整するPEFT法が考案された。
論文 参考訳(メタデータ) (2023-04-04T16:14:39Z) - What do Vision Transformers Learn? A Visual Exploration [68.50771218442776]
視覚変換器(ViT)はコンピュータビジョンのデファクトアーキテクチャとして急速に普及しつつある。
本稿では、ViT上での可視化の障害に対処し、ViTとCNNの根本的な相違について検討する。
また、DeiT、CoaT、ConViT、PiT、Swin、Twinなど、さまざまなViT変種に対して大規模な可視化を行っています。
論文 参考訳(メタデータ) (2022-12-13T16:55:12Z) - Teaching Matters: Investigating the Role of Supervision in Vision
Transformers [32.79398665600664]
視覚変換器(ViT)は,その注意,表現,下流のパフォーマンスの観点から,多様な動作を学習する。
また,オフセット・ローカル・アテンション・ヘッドの出現など,監督の面から一貫したViT行動も発見する。
我々の分析では、ViTは高度に柔軟であり、訓練方法に応じて、異なる順序で局所的およびグローバルな情報を処理できることが示されている。
論文 参考訳(メタデータ) (2022-12-07T18:59:45Z) - DeiT III: Revenge of the ViT [56.46810490275699]
Vision Transformer (ViT) は、複数のコンピュータビジョンタスクを処理可能なシンプルなニューラルネットワークアーキテクチャである。
最近の研究によると、ViTsはBeiTのようなBerTライクな事前訓練の恩恵を受けている。
論文 参考訳(メタデータ) (2022-04-14T17:13:44Z) - Self-Promoted Supervision for Few-Shot Transformer [178.52948452353834]
SUN(Self-promoted sUpervisioN)は視覚変換器(ViT)のための数発の学習フレームワークである
SUNは、数ショットの学習データセットでViTを事前トレーニングし、各パッチトークンを導くために、個別のロケーション固有の監視を生成する。
実験によると、ViTを使ったSUNは、ViTを使った他の数発の学習フレームワークを大幅に上回っており、CNNの最先端技術よりも高いパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-03-14T12:53:27Z) - Scaled ReLU Matters for Training Vision Transformers [45.41439457701873]
視覚変換器(ViT)は畳み込みニューラルネットワーク(CNN)の代替設計パラダイムである。
しかし、ViTsのトレーニングは、学習率、ウォームアップ、ウォームアップなどのトレーニングパラメータに敏感であるため、CNNよりもはるかに難しい。
我々は、理論上も経験上も、ReLUをtextitconv-stemで拡張することでトレーニングの安定化が向上するだけでなく、パッチトークンの多様性も向上することを確認した。
論文 参考訳(メタデータ) (2021-09-08T17:57:58Z) - SiT: Self-supervised vIsion Transformer [23.265568744478333]
自然言語処理(NLP)では、自己監督学習とトランスフォーマーはすでに選択の方法です。
本稿では,sit(self-supervised vision transformers)を提案し,プリテキストモデルを得るための自己教師付き学習機構について検討する。
小規模データセットの下流分類タスクに対して,事前学習したsatを微調整可能であることを示す。
論文 参考訳(メタデータ) (2021-04-08T08:34:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。