論文の概要: Revisiting the Transferability of Supervised Pretraining: an MLP
Perspective
- arxiv url: http://arxiv.org/abs/2112.00496v1
- Date: Wed, 1 Dec 2021 13:47:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-02 14:31:31.974124
- Title: Revisiting the Transferability of Supervised Pretraining: an MLP
Perspective
- Title(参考訳): 監督事前訓練の伝達可能性の再考:MLPの視点から
- Authors: Yizhou Wang, Shixiang Tang, Feng Zhu, Lei Bai, Rui Zhao, Donglian Qi,
Wanli Ouyang
- Abstract要約: 教師なし事前学習手法の最近の進歩は、教師付きプレトレーニング手法よりも優れた転送性能を示す。
本稿では,多層パーセプトロン(MLP)の観点から,教師なしと教師なしの事前学習間の伝達可能性ギャップの理解に新たな光を当てる。
また,プロジェクタは,教師なし事前訓練法よりも教師なし事前訓練法の伝達性を向上させる重要な要因であることを明らかにした。
- 参考スコア(独自算出の注目度): 78.51258076624046
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The pretrain-finetune paradigm is a classical pipeline in visual learning.
Recent progress on unsupervised pretraining methods shows superior transfer
performance to their supervised counterparts. This paper revisits this
phenomenon and sheds new light on understanding the transferability gap between
unsupervised and supervised pretraining from a multilayer perceptron (MLP)
perspective. While previous works focus on the effectiveness of MLP on
unsupervised image classification where pretraining and evaluation are
conducted on the same dataset, we reveal that the MLP projector is also the key
factor to better transferability of unsupervised pretraining methods than
supervised pretraining methods. Based on this observation, we attempt to close
the transferability gap between supervised and unsupervised pretraining by
adding an MLP projector before the classifier in supervised pretraining. Our
analysis indicates that the MLP projector can help retain intra-class variation
of visual features, decrease the feature distribution distance between
pretraining and evaluation datasets, and reduce feature redundancy. Extensive
experiments on public benchmarks demonstrate that the added MLP projector
significantly boosts the transferability of supervised pretraining, \eg
\textbf{+7.2\%} top-1 accuracy on the concept generalization task,
\textbf{+5.8\%} top-1 accuracy for linear evaluation on 12-domain
classification tasks, and \textbf{+0.8\%} AP on COCO object detection task,
making supervised pretraining comparable or even better than unsupervised
pretraining. Codes will be released upon acceptance.
- Abstract(参考訳): pretrain-finetuneパラダイムは、ビジュアル学習の古典的なパイプラインである。
教師なし事前学習手法の最近の進歩は、教師付きプレトレーニング手法よりも優れた転送性能を示す。
本稿では、この現象を再考し、多層パーセプトロン(MLP)の観点から、教師なしと教師なしの事前訓練の間の伝達可能性ギャップの理解に新たな光を当てる。
先行研究では,同じデータセット上で事前訓練と評価を行う非教師あり画像分類におけるmlpの有効性に注目する一方で,教師なし前訓練法よりも教師なし前訓練法の転送性を向上させる上で,mlpプロジェクタが重要な要因であることを明らかにした。
そこで本研究では, 教師付きプリトレーニングにおいて, 分類器の前にmlpプロジェクタを付加することにより, 教師付きプリトレーニングと非教師付きプリトレーニングの転送可能性ギャップを解消する。
解析の結果,MLPプロジェクタは視覚特徴のクラス内変動を抑え,事前学習と評価データセット間の特徴分布距離を小さくし,特徴冗長性を低減できることがわかった。
公開ベンチマークでの広範囲な実験により、mlpプロジェクタの追加により、教師付き事前学習の転送性が著しく向上し、概念一般化タスクのtop-1精度が向上し、12領域の分類タスクにおける線形評価の精度が \textbf{+5.8\%} top-1、cocoオブジェクト検出タスクにおける \textbf{+0.8\%} apが向上した。
コードは受理後に公開される。
関連論文リスト
- Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - Learning to Mask and Permute Visual Tokens for Vision Transformer
Pre-Training [59.923672191632065]
我々はMasked and Permuted Vision Transformer(MaPeT)という自己教師型事前学習手法を提案する。
MaPeTは、自動回帰および置換予測を使用して、パッチ内依存関係をキャプチャする。
以上の結果から,MaPeTはImageNet上での競合性能を実証した。
論文 参考訳(メタデータ) (2023-06-12T18:12:19Z) - Prior Knowledge-Guided Attention in Self-Supervised Vision Transformers [79.60022233109397]
本研究では、未ラベル画像データセットにおける一貫した空間的・意味的構造を利用するフレームワークである空間的事前注意(SPAN)を提案する。
SPANは、アテンションマスクを別個のトランスフォーマーヘッドから正規化し、セマンティック領域の様々な先導に従う。
その結果,アテンションマスクは,ドメインに依存しない事前学習から得られるマスクよりも解釈可能であることが判明した。
論文 参考訳(メタデータ) (2022-09-07T02:30:36Z) - Self-Supervision Can Be a Good Few-Shot Learner [42.06243069679068]
本稿では,自己監督による学習表現を効果的に非教師なしの少数ショット学習法を提案する。
具体的には、低バイアスMI推定器を用いて、インスタンスとそれらの表現の相互情報(MI)を最大化する。
自己指導型事前訓練は,適切な条件下で指導型事前訓練より優れることを示す。
論文 参考訳(メタデータ) (2022-07-19T10:23:40Z) - SLIP: Self-supervision meets Language-Image Pre-training [79.53764315471543]
自己指導型学習が視覚表現学習における言語指導の活用に役立つかどうかを考察する。
自己教師付き学習とCLIP事前学習を組み合わせたマルチタスク学習フレームワークSLIPを紹介する。
SLIPは、自己監督や言語監督よりも優れたパフォーマンスを享受しています。
論文 参考訳(メタデータ) (2021-12-23T18:07:13Z) - Rethinking supervised pre-training for better downstream transferring [46.09030708111374]
本稿では,Leave-One-Out K-Nearest-Neighbor(LOOK)に基づく教師付き事前学習手法を提案する。
上流タスクをオーバーフィットさせる問題は、各イメージにクラスラベルを共有することだけを要求することで解決される。
提案手法を大規模データセットに対して効率的に実装する手法を開発した。
論文 参考訳(メタデータ) (2021-10-12T13:57:38Z) - Improve Unsupervised Pretraining for Few-label Transfer [80.58625921631506]
本稿では,対象データセットに微調整用のラベル付きサンプルがほとんどない場合,この結論は成立しない可能性がある。
実アプリケーションのための新しいプログレッシブな数ラベル転送アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-07-26T17:59:56Z) - Supervision Accelerates Pre-training in Contrastive Semi-Supervised
Learning of Visual Representations [12.755943669814236]
そこで我々は,SNCEtという半教師付きロスを提案する。これは,自己教師型インスタンス単位のプリテキストタスクに加えて,異なるクラスの例を区別することを目的としている。
ImageNetでは、SNCEtは従来のコントラッシブアプローチの半教師付き学習精度と一致させることができる。
私たちの主な洞察は、事前トレーニング中に少量のラベル付きデータを利用するだけでなく、微調整中にも重要な信号を提供するということです。
論文 参考訳(メタデータ) (2020-06-18T18:44:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。