論文の概要: A Closer Look at Self-Supervised Lightweight Vision Transformers
- arxiv url: http://arxiv.org/abs/2205.14443v2
- Date: Wed, 3 May 2023 15:07:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-04 19:01:46.286320
- Title: A Closer Look at Self-Supervised Lightweight Vision Transformers
- Title(参考訳): 自励式軽視変換器のクローズアップ
- Authors: Shaoru Wang, Jin Gao, Zeming Li, Xiaoqin Zhang, Weiming Hu
- Abstract要約: 大規模視覚変換器(ViT)の自己教師型学習を事前学習法として実現した。
画像分類タスクと下流密度予測タスクに関する自己教師付き事前学習手法のベンチマークを行った。
バニラ・ライトウェイトなViTでさえ、デリケートなアーキテクチャ設計を持つ以前のSOTAネットワークに匹敵する性能を示している。
- 参考スコア(独自算出の注目度): 44.44888945683147
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised learning on large-scale Vision Transformers (ViTs) as
pre-training methods has achieved promising downstream performance. Yet, how
much these pre-training paradigms promote lightweight ViTs' performance is
considerably less studied. In this work, we develop and benchmark several
self-supervised pre-training methods on image classification tasks and some
downstream dense prediction tasks. We surprisingly find that if proper
pre-training is adopted, even vanilla lightweight ViTs show comparable
performance to previous SOTA networks with delicate architecture design. It
breaks the recently popular conception that vanilla ViTs are not suitable for
vision tasks in lightweight regimes. We also point out some defects of such
pre-training, e.g., failing to benefit from large-scale pre-training data and
showing inferior performance on data-insufficient downstream tasks.
Furthermore, we analyze and clearly show the effect of such pre-training by
analyzing the properties of the layer representation and attention maps for
related models. Finally, based on the above analyses, a distillation strategy
during pre-training is developed, which leads to further downstream performance
improvement for MAE-based pre-training. Code is available at
https://github.com/wangsr126/mae-lite.
- Abstract(参考訳): 大規模視覚変換器(ViT)の自己教師型学習を事前学習法として実現した。
しかし、これらの事前学習パラダイムが軽量なViTの性能を促進するかは、かなり研究されていない。
本研究では,画像分類タスクと下流密度予測タスクに関する自己教師付き事前学習手法の開発とベンチマークを行う。
適切な事前トレーニングが採用されれば、バニラ軽量なViTでさえ、デリケートなアーキテクチャ設計を持つ従来のSOTAネットワークと同等の性能を示すことになる。
これは、バニラ ViT が軽量レシエーションにおけるビジョンタスクには適さないという最近の一般的な概念を破るものだ。
また,大規模事前トレーニングデータのメリットが得られず,データ不足のダウンストリームタスクのパフォーマンスが劣るなど,事前トレーニングの欠点も指摘する。
さらに,関連モデルに対するレイヤ表現とアテンションマップの特性を解析することにより,事前学習の効果を解析し,明確に示す。
最後に, 上記の分析から, プレトレーニング中の蒸留戦略が開発され, MAEを用いたプレトレーニングの下流性能が向上した。
コードはhttps://github.com/wangsr126/mae-liteで入手できる。
関連論文リスト
- How Effective is Pre-training of Large Masked Autoencoders for Downstream Earth Observation Tasks? [9.515532265294187]
自己教師付き事前訓練は多くのコンピュータビジョンタスクに非常に効果的であることが証明されている。
事前訓練されたモデルがスクラッチからトレーニングするよりも大きなアドバンテージを提供する条件は、まだ不明である。
論文 参考訳(メタデータ) (2024-09-27T08:15:14Z) - An Experimental Study on Exploring Strong Lightweight Vision Transformers via Masked Image Modeling Pre-Training [51.622652121580394]
Masked Image Modeling (MIM) Pre-training for Large-scale Vision Transformer (ViTs) は、学習した自己教師型ViT機能に加えて、下流での有望なパフォーマンスを実現する。
本稿では,テキストテキストレメリーで軽量なViTの微調整性能が,この事前学習パラダイムの恩恵を受けるかどうかを問う。
バニラ/階層設計(5.7M$/6.5M$)による純軽量ViTの蒸留による事前トレーニングは、ImageNet-1で79.4%$/78.9%の精度で達成できる。
論文 参考訳(メタデータ) (2024-04-18T14:14:44Z) - Self-Distillation for Further Pre-training of Transformers [83.84227016847096]
我々は、さらなる事前学習段階の正則化として自己蒸留を提案する。
画像およびテキスト分類タスクのための様々なベンチマークデータセットにおける自己蒸留の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2022-09-30T02:25:12Z) - Towards Inadequately Pre-trained Models in Transfer Learning [37.66278189011681]
より優れたImageNet事前訓練モデルでは、下流タスクへの転送性が向上することが示されている。
本稿では,同じ事前学習過程において,十分に訓練されていない中新世のモデルが,完全に訓練されたモデルより優れていることを示す。
我々の発見は、事前学習中、モデルはまず大きな特異値に対応するスペクトル成分を学習する傾向があることを示唆している。
論文 参考訳(メタデータ) (2022-03-09T12:15:55Z) - On Efficient Transformer and Image Pre-training for Low-level Vision [74.22436001426517]
プレトレーニングは、ハイレベルコンピュータビジョンにおける多くの最先端の芸術である。
画像事前学習の詳細な研究について述べる。
低レベルのタスクでは,事前トレーニングが極めて異なる役割を担っています。
論文 参考訳(メタデータ) (2021-12-19T15:50:48Z) - Improved Fine-tuning by Leveraging Pre-training Data: Theory and
Practice [52.11183787786718]
対象データに事前学習されたモデルを微調整することは、多くのディープラーニングアプリケーションで広く利用されている。
近年の研究では、スクラッチからのトレーニングが、この事前トレーニング戦略に比較して、最終的なパフォーマンスを示すことが実証されている。
本稿では,対象タスクの一般化を改善するために,事前学習データからサブセットを選択する新しい選択戦略を提案する。
論文 参考訳(メタデータ) (2021-11-24T06:18:32Z) - The Lottery Tickets Hypothesis for Supervised and Self-supervised
Pre-training in Computer Vision Models [115.49214555402567]
事前訓練された重量は、しばしば分類、検出、セグメンテーションを含む幅広い下流タスクを増加させる。
最近の研究は、巨大モデル能力による事前学習の利点を示唆している。
本稿では,抽選券仮説(LTH)のレンズを用いて,教師付きおよび自己指導型事前学習モデルについて検討する。
論文 参考訳(メタデータ) (2020-12-12T21:53:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。