論文の概要: Layer Grafted Pre-training: Bridging Contrastive Learning And Masked
Image Modeling For Label-Efficient Representations
- arxiv url: http://arxiv.org/abs/2302.14138v1
- Date: Mon, 27 Feb 2023 20:52:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-01 19:01:48.134971
- Title: Layer Grafted Pre-training: Bridging Contrastive Learning And Masked
Image Modeling For Label-Efficient Representations
- Title(参考訳): レイヤーグラフトによる事前学習:ラベル効率のよい表現のためのブレンディングコントラスト学習とマズード画像モデリング
- Authors: Ziyu Jiang, Yinpeng Chen, Mengchen Liu, Dongdong Chen, Xiyang Dai, Lu
Yuan, Zicheng Liu, Zhangyang Wang
- Abstract要約: Mask Image Modeling (MIM) と Contrastive Learning (CL) は、自己超越が優れた表現を学ぶのに強力であることを示した。
本稿では,CLとMIMの損失の簡易な共同最適化が,矛盾する勾配方向を導いた経験的観察を行う。
実験により,MIMとCLは下層と上層にそれぞれ適していることがわかった。
初期のレイヤはまず1つのMIM損失の下でトレーニングされ、その上に、後者のレイヤは別のCL損失の下でトレーニングされ続けます。
- 参考スコア(独自算出の注目度): 130.05189514598996
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recently, both Contrastive Learning (CL) and Mask Image Modeling (MIM)
demonstrate that self-supervision is powerful to learn good representations.
However, naively combining them is far from success. In this paper, we start by
making the empirical observation that a naive joint optimization of CL and MIM
losses leads to conflicting gradient directions - more severe as the layers go
deeper. This motivates us to shift the paradigm from combining loss at the end,
to choosing the proper learning method per network layer. Inspired by
experimental observations, we find that MIM and CL are suitable to lower and
higher layers, respectively. We hence propose to combine them in a surprisingly
simple, "sequential cascade" fashion: early layers are first trained under one
MIM loss, on top of which latter layers continue to be trained under another CL
loss. The proposed Layer Grafted Pre-training learns good visual
representations that demonstrate superior label efficiency in downstream
applications, in particular yielding strong few-shot performance besides linear
evaluation. For instance, on ImageNet-1k, Layer Grafted Pre-training yields
65.5% Top-1 accuracy in terms of 1% few-shot learning with ViT-B/16, which
improves MIM and CL baselines by 14.4% and 2.1% with no bells and whistles. The
code is available at
https://github.com/VITA-Group/layerGraftedPretraining_ICLR23.git.
- Abstract(参考訳): 近年,コントラスト学習 (CL) とマスク画像モデリング (MIM) の両者が,優れた表現を学習する上で自己超越が強力であることを実証している。
しかし、それらを組み合わせることは成功には程遠い。
本稿では,CLとMIMの損失の簡易な共同最適化が,層が深くなるにつれて勾配方向の矛盾につながるという経験的観察から始める。
これにより、パラダイムを最後に損失を組み合わせたものから、ネットワーク層毎に適切な学習方法を選択するものへとシフトさせます。
実験により,MIMとCLは下層と上層にそれぞれ適していることがわかった。
初期のレイヤは、まず1つのMIM損失の下でトレーニングされ、その上に、後者のレイヤは、もう1つのCL損失の下でトレーニングされ続けます。
提案したLayer Grafted Pre-trainingは、下流アプリケーションにおいて優れたラベル効率を示す優れた視覚表現を学習する。
例えば、ImageNet-1kでは、Layer Grafted Pre-trainingは、ViT-B/16による1%の少数ショット学習で65.5%の精度で、MIMとCLのベースラインを14.4%改善し、2.1%がベルとホイッスル無しである。
コードはhttps://github.com/VITA-Group/layerGraftedPretraining_ICLR23.gitで公開されている。
関連論文リスト
- CLIP with Quality Captions: A Strong Pretraining for Vision Tasks [16.208506912410147]
良質なキャプションを用いたCLIPプレトレーニングは,近年の教師付き・自己監督型・弱教師付きプレトレーニング方法を上回る可能性がある。
モバイルアーキテクチャはCLIP事前トレーニングのメリットも大きいことが分かっています。
論文 参考訳(メタデータ) (2024-05-14T19:06:24Z) - Masked Image Modeling with Local Multi-Scale Reconstruction [54.91442074100597]
Masked Image Modeling (MIM) は自己教師付き表現学習において顕著な成功を収めている。
既存のMIMモデルはエンコーダの最上層でのみ再構成タスクを実行する。
そこで我々は,下層と上層がそれぞれ微細かつ粗大な監視信号を再構成する局所的マルチスケール再構成を設計する。
論文 参考訳(メタデータ) (2023-03-09T13:42:04Z) - TinyMIM: An Empirical Study of Distilling MIM Pre-trained Models [31.16595289223858]
マスク付き画像モデリング(MIM)は、事前学習大型視覚変換器(ViT)に強く貢献する
しかし、現実世界のアプリケーションにとって重要な小さなモデルは、この事前学習アプローチの恩恵を受けることはできない。
我々は,MIMをベースとした大規模プレトレーニングモデルの成功を,より小さなモデルに伝達する蒸留技術について検討する。
論文 参考訳(メタデータ) (2023-01-03T18:59:54Z) - Co-training $2^L$ Submodels for Visual Recognition [67.02999567435626]
サブモデルコトレーニングは、コトレーニング、自己蒸留、深さに関連する正規化手法である。
サブモデルのコトレーニングは,画像分類やセマンティックセグメンテーションなどの認識タスクのためのバックボーンのトレーニングに有効であることを示す。
論文 参考訳(メタデータ) (2022-12-09T14:38:09Z) - CAE v2: Context Autoencoder with CLIP Target [63.61868058214267]
マスク付き画像モデリング(MIM)は、画像パッチのマスキングと再構成によって視覚表現を学習する。
再建管理をCLIP表現に適用することはMIMに有効であることが証明されている。
CLIPをターゲットとしたMIMの精製戦略を検討するため,MIMにおける2つの重要な要素,すなわち,監督位置とマスク比について検討した。
論文 参考訳(メタデータ) (2022-11-17T18:58:33Z) - Masked Unsupervised Self-training for Zero-shot Image Classification [98.23094305347709]
Masked Unsupervised Self-Training (MUST)は、疑似ラベルと生画像という2つの異なる、補完的な監督源を活用する新しいアプローチである。
MUSTはCLIPを大きなマージンで改善し、教師なしと教師なしの分類のパフォーマンスギャップを狭める。
論文 参考訳(メタデータ) (2022-06-07T02:03:06Z) - Self-Distilled Self-Supervised Representation Learning [35.60243157730165]
自己教師付き学習における最先端のフレームワークは、トランスフォーマーベースのモデルを完全に活用することでパフォーマンスが向上することを示した。
本研究では, コントラッシブ・ロスにより, 中間表現が最終層から学習できるようにすることにより, さらにこれを活用する。
我々の手法であるSDSSL(Self-Distilled Self-Supervised Learning)は,様々なタスクやデータセット上でのViTを用いた競争ベースライン(SimCLR, BYOL, MoCo v3)より優れています。
論文 参考訳(メタデータ) (2021-11-25T07:52:36Z) - Weakly Supervised Contrastive Learning [68.47096022526927]
この問題に対処するために,弱教師付きコントラスト学習フレームワーク(WCL)を導入する。
WCLはResNet50を使用して65%と72%のImageNet Top-1の精度を実現している。
論文 参考訳(メタデータ) (2021-10-10T12:03:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。