論文の概要: MimCo: Masked Image Modeling Pre-training with Contrastive Teacher
- arxiv url: http://arxiv.org/abs/2209.03063v1
- Date: Wed, 7 Sep 2022 10:59:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-08 12:35:40.393413
- Title: MimCo: Masked Image Modeling Pre-training with Contrastive Teacher
- Title(参考訳): mimco: 対照教師との事前学習によるマスク画像モデリング
- Authors: Qiang Zhou, Chaohui Yu, Hao Luo, Zhibin Wang, Hao Li
- Abstract要約: Masked Image Modeling (MIM) は自己教師型学習 (SSL) において多くの注目を集めている。
可視化は、学習された表現は、特に対照的な学習事前学習に基づく表現に比べて分離しにくいことを示している。
そこで本研究では,MIMと2段階事前学習によるコントラスト学習を組み合わせた,新しい,フレキシブルな事前学習フレームワークMimCoを提案する。
- 参考スコア(独自算出の注目度): 14.413674270588023
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent masked image modeling (MIM) has received much attention in
self-supervised learning (SSL), which requires the target model to recover the
masked part of the input image. Although MIM-based pre-training methods achieve
new state-of-the-art performance when transferred to many downstream tasks, the
visualizations show that the learned representations are less separable,
especially compared to those based on contrastive learning pre-training. This
inspires us to think whether the linear separability of MIM pre-trained
representation can be further improved, thereby improving the pre-training
performance. Since MIM and contrastive learning tend to utilize different data
augmentations and training strategies, combining these two pretext tasks is not
trivial. In this work, we propose a novel and flexible pre-training framework,
named MimCo, which combines MIM and contrastive learning through two-stage
pre-training. Specifically, MimCo takes a pre-trained contrastive learning
model as the teacher model and is pre-trained with two types of learning
targets: patch-level and image-level reconstruction losses.
Extensive transfer experiments on downstream tasks demonstrate the superior
performance of our MimCo pre-training framework. Taking ViT-S as an example,
when using the pre-trained MoCov3-ViT-S as the teacher model, MimCo only needs
100 epochs of pre-training to achieve 82.53% top-1 finetuning accuracy on
Imagenet-1K, which outperforms the state-of-the-art self-supervised learning
counterparts.
- Abstract(参考訳): 近年のマスク付き画像モデリング (MIM) は自己教師付き学習 (SSL) において多くの注目を集めており、入力画像のマスク部分の復元にはターゲットモデルが必要である。
mimに基づく事前学習手法は,多くの下流タスクに移行した場合に新たな最先端性能を実現するが,特にコントラスト学習前学習に基づくものと比較して,学習表現の分離性が低下することが示された。
これにより,MIM事前学習表現の線形分離性がさらに向上し,事前学習性能が向上すると考えられる。
MIMとコントラスト学習は、異なるデータ拡張とトレーニング戦略を利用する傾向があるため、これら2つのプレテキストタスクを組み合わせることは簡単ではない。
そこで本研究では,MIMと2段階事前学習によるコントラスト学習を組み合わせた,新しいフレキシブルな事前学習フレームワークMimCoを提案する。
特に、MimCoは教師モデルとして訓練済みのコントラスト学習モデルを採用し、パッチレベルとイメージレベルの再構築損失の2種類の学習目標で事前訓練されている。
下流タスクの大規模な転送実験は、私たちのMimCo事前トレーニングフレームワークの優れたパフォーマンスを示しています。
ViT-Sを例として、トレーニング済みのMoCov3-ViT-Sを教師モデルとして使用する場合、MimCoはImagenet-1Kで82.53%のトップ1の微調整を実現するために、100エポックの事前トレーニングしか必要としない。
関連論文リスト
- Learning to Modulate pre-trained Models in RL [22.812215561012874]
訓練済みモデルの微調整は、しばしば破滅的な忘れ込みに悩まされる。
本研究は、ほとんどの微調整アプローチにおいて、事前学習タスクのパフォーマンスが著しく低下していることを示す。
凍結事前学習モデルの情報フローを変調することにより,学習スキルの劣化を回避する新しい手法L2Mを提案する。
論文 参考訳(メタデータ) (2023-06-26T17:53:05Z) - Multi-Level Contrastive Learning for Dense Prediction Task [59.591755258395594]
本稿では,高密度予測タスクのための領域レベルの特徴表現を効率よく学習するための,MCL(Multi-Level Contrastive Learning for Dense Prediction Task)を提案する。
本手法は, 局所化, スケールの整合性, 認識の3つの要因に動機付けられている。
提案手法は,様々なデータセットにおける最近の最先端の手法よりも有意なマージンを有する。
論文 参考訳(メタデータ) (2023-04-04T17:59:04Z) - FastMIM: Expediting Masked Image Modeling Pre-training for Vision [65.47756720190155]
FastMIMは低解像度の入力画像で視覚バックボーンを事前訓練するためのフレームワークである。
入力画像のRGB値の代わりに、向き付け勾配のヒストグラム(Histograms of Oriented Gradients,HOG)機能を再構成する。
ViT-B/Swin-Bをバックボーンとし、ImageNet-1Kで83.8%/84.1%のトップ1の精度を達成できる。
論文 参考訳(メタデータ) (2022-12-13T14:09:32Z) - Exploring The Role of Mean Teachers in Self-supervised Masked
Auto-Encoders [64.03000385267339]
マスク付き画像モデリング(MIM)は視覚変換器を用いた視覚表現の自己教師型学習(SSL)の一般的な戦略となっている。
簡単なSSL方式であるRC-MAE(Restruction-Consistent Masked Auto-Encoder)を提案する。
RC-MAEは、事前学習中に最先端の自己蒸留法よりも早く収束し、メモリ使用量の削減を必要とする。
論文 参考訳(メタデータ) (2022-10-05T08:08:55Z) - Effective Adaptation in Multi-Task Co-Training for Unified Autonomous
Driving [103.745551954983]
本稿では,3つの下流タスクにおけるMoCoやSimCLRなど,多種多様な自己監督手法の転送性能について検討する。
彼らのパフォーマンスは、サブ最適か、あるいはシングルタスクベースラインよりもはるかに遅れていることに気付きました。
汎用マルチタスクトレーニングのための,単純かつ効果的な事前訓練-適応-ファインチューンパラダイムを提案する。
論文 参考訳(メタデータ) (2022-09-19T12:15:31Z) - Self-Supervised Pretraining Improves Self-Supervised Pretraining [83.1423204498361]
自己教師付き事前トレーニングには、高価で長い計算と大量のデータが必要で、データ拡張に敏感である。
本稿では,既存の事前学習モデルを用いて事前学習プロセスを初期化することにより,収束時間を短縮し,精度を向上させる階層的事前学習(HPT)について検討する。
HPTが最大80倍速く収束し、タスク全体の精度が向上し、自己監視された事前トレーニングプロセスの堅牢性が、画像増強ポリシーまたは事前トレーニングデータの量の変化に改善されることを示します。
論文 参考訳(メタデータ) (2021-03-23T17:37:51Z) - Efficient Visual Pretraining with Contrastive Detection [31.444554574326283]
そこで我々は,オブジェクトレベルの特徴を拡張的に識別するタスク表現を,新たな自己監督的,コントラスト的検出に導入する。
この目的は画像ごとに豊富な学習信号を抽出し、ImageNetからCOCOへの最先端の転送性能をもたらします。
特に、私たちの最強のImageNet-pretrainedモデルは、これまでで最大の自己教師型システムであるSEERと同等に機能します。
論文 参考訳(メタデータ) (2021-03-19T14:05:12Z) - Self-supervised Pre-training with Hard Examples Improves Visual
Representations [110.23337264762512]
自己教師付き事前学習(ssp)は、ランダムな画像変換を用いて視覚表現学習のためのトレーニングデータを生成する。
まず,既存のSSPメソッドを擬似ラベル予測学習として統合するモデリングフレームワークを提案する。
そこで本研究では,疑似ラベルの予測が難しい学習例をランダムな画像変換で生成するデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2020-12-25T02:44:22Z) - ImageBERT: Cross-modal Pre-training with Large-scale Weak-supervised
Image-Text Data [9.3935916515127]
画像-テキスト共同埋め込みのための視覚教師付き事前学習モデルである ImageBERT を導入する。
我々のモデルはTransformerベースのモデルであり、入力として異なるモダリティを取り、それらの関係をモデル化する。
論文 参考訳(メタデータ) (2020-01-22T11:35:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。