論文の概要: A Closer Look at Self-supervised Lightweight Vision Transformers
- arxiv url: http://arxiv.org/abs/2205.14443v1
- Date: Sat, 28 May 2022 14:14:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-31 16:08:58.124170
- Title: A Closer Look at Self-supervised Lightweight Vision Transformers
- Title(参考訳): 自己監督型軽視変換器の概観
- Authors: Shaoru Wang, Jin Gao, Zeming Li, Jian Sun, Weiming Hu
- Abstract要約: 大規模視覚変換器(ViT)の自己教師型学習を事前学習法として実現した。
マスク・イメージ・モデリング・ベースのMAEを用いて,高性能軽量VTの事前学習のためのレシピを作成する。
我々は、事前学習されたモデルの適切に学習された下位層が、データに十分対応可能な下流タスクの上位層よりも重要であることを示す。
- 参考スコア(独自算出の注目度): 101.60964769014528
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised learning on large-scale Vision Transformers (ViTs) as
pre-training methods has achieved promising downstream performance. Yet, how
such pre-training paradigms promote lightweight ViTs' performance is
considerably less studied. In this work, we mainly produce recipes for
pre-training high-performance lightweight ViTs using
masked-image-modeling-based MAE, namely MAE-lite, which achieves 78.4% top-1
accuracy on ImageNet with ViT-Tiny (5.7M). Furthermore, we develop and
benchmark other fully-supervised and self-supervised pre-training counterparts,
e.g., contrastive-learning-based MoCo-v3, on both ImageNet and other
classification tasks. We analyze and clearly show the effect of such
pre-training, and reveal that properly-learned lower layers of the pre-trained
models matter more than higher ones in data-sufficient downstream tasks.
Finally, by further comparing with the pre-trained representations of the
up-scaled models, a distillation strategy during pre-training is developed to
improve the pre-trained representations as well, leading to further downstream
performance improvement. The code and models will be made publicly available.
- Abstract(参考訳): 大規模視覚変換器(ViT)の自己教師型学習を事前学習法として実現した。
しかし、これらの事前学習パラダイムが軽量なViTの性能をいかに促進するかは、かなり研究されていない。
本研究では、主にマスク画像モデリングに基づくMAE(MaE-lite)を用いて、VT-Tiny(5.7M)を用いたImageNet上で78.4%の精度で、高性能なViTを事前学習するためのレシピを作成する。
さらに,imagenet と他の分類タスクにおいて,コントラスト学習に基づくmoco-v3 など,他の完全教師付き,自己教師付き事前学習システムの開発とベンチマークを行った。
このような事前学習の効果を分析・明らかにし,データ不足のダウンストリームタスクにおいて,事前学習モデルの下層が上位層よりも重要となることを明らかにした。
最後に, 上位モデルの事前学習表現との比較により, 事前学習中の蒸留戦略が開発され, 事前学習表現も改善され, 下流性能がさらに向上した。
コードとモデルは公開される予定だ。
関連論文リスト
- How Effective is Pre-training of Large Masked Autoencoders for Downstream Earth Observation Tasks? [9.515532265294187]
自己教師付き事前訓練は多くのコンピュータビジョンタスクに非常に効果的であることが証明されている。
事前訓練されたモデルがスクラッチからトレーニングするよりも大きなアドバンテージを提供する条件は、まだ不明である。
論文 参考訳(メタデータ) (2024-09-27T08:15:14Z) - An Experimental Study on Exploring Strong Lightweight Vision Transformers via Masked Image Modeling Pre-Training [51.622652121580394]
Masked Image Modeling (MIM) Pre-training for Large-scale Vision Transformer (ViTs) は、学習した自己教師型ViT機能に加えて、下流での有望なパフォーマンスを実現する。
本稿では,テキストテキストレメリーで軽量なViTの微調整性能が,この事前学習パラダイムの恩恵を受けるかどうかを問う。
バニラ/階層設計(5.7M$/6.5M$)による純軽量ViTの蒸留による事前トレーニングは、ImageNet-1で79.4%$/78.9%の精度で達成できる。
論文 参考訳(メタデータ) (2024-04-18T14:14:44Z) - Self-Distillation for Further Pre-training of Transformers [83.84227016847096]
我々は、さらなる事前学習段階の正則化として自己蒸留を提案する。
画像およびテキスト分類タスクのための様々なベンチマークデータセットにおける自己蒸留の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2022-09-30T02:25:12Z) - Towards Inadequately Pre-trained Models in Transfer Learning [37.66278189011681]
より優れたImageNet事前訓練モデルでは、下流タスクへの転送性が向上することが示されている。
本稿では,同じ事前学習過程において,十分に訓練されていない中新世のモデルが,完全に訓練されたモデルより優れていることを示す。
我々の発見は、事前学習中、モデルはまず大きな特異値に対応するスペクトル成分を学習する傾向があることを示唆している。
論文 参考訳(メタデータ) (2022-03-09T12:15:55Z) - On Efficient Transformer and Image Pre-training for Low-level Vision [74.22436001426517]
プレトレーニングは、ハイレベルコンピュータビジョンにおける多くの最先端の芸術である。
画像事前学習の詳細な研究について述べる。
低レベルのタスクでは,事前トレーニングが極めて異なる役割を担っています。
論文 参考訳(メタデータ) (2021-12-19T15:50:48Z) - Improved Fine-tuning by Leveraging Pre-training Data: Theory and
Practice [52.11183787786718]
対象データに事前学習されたモデルを微調整することは、多くのディープラーニングアプリケーションで広く利用されている。
近年の研究では、スクラッチからのトレーニングが、この事前トレーニング戦略に比較して、最終的なパフォーマンスを示すことが実証されている。
本稿では,対象タスクの一般化を改善するために,事前学習データからサブセットを選択する新しい選択戦略を提案する。
論文 参考訳(メタデータ) (2021-11-24T06:18:32Z) - The Lottery Tickets Hypothesis for Supervised and Self-supervised
Pre-training in Computer Vision Models [115.49214555402567]
事前訓練された重量は、しばしば分類、検出、セグメンテーションを含む幅広い下流タスクを増加させる。
最近の研究は、巨大モデル能力による事前学習の利点を示唆している。
本稿では,抽選券仮説(LTH)のレンズを用いて,教師付きおよび自己指導型事前学習モデルについて検討する。
論文 参考訳(メタデータ) (2020-12-12T21:53:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。