論文の概要: Improvements to Self-Supervised Representation Learning for Masked Image
Modeling
- arxiv url: http://arxiv.org/abs/2205.10546v1
- Date: Sat, 21 May 2022 09:45:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-05 17:11:13.863206
- Title: Improvements to Self-Supervised Representation Learning for Masked Image
Modeling
- Title(参考訳): マスク画像モデリングのための自己教師付き表現学習の改善
- Authors: Jiawei Mao, Xuesong Yin, Yuanqi Chang, Honggu Zhou
- Abstract要約: 本稿では,マスク画像モデリング(MIM)パラダイムの改良について検討する。
MIMパラダイムにより、入力画像のマスキングとマスク部分のアンマスク部分の予測により、モデルが画像の主オブジェクトの特徴を学習することができる。
我々は新しいモデルであるContrastive Masked AutoEncoders (CMAE)を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper explores improvements to the masked image modeling (MIM) paradigm.
The MIM paradigm enables the model to learn the main object features of the
image by masking the input image and predicting the masked part by the unmasked
part. We found the following three main directions for MIM to be improved.
First, since both encoders and decoders contribute to representation learning,
MIM uses only encoders for downstream tasks, which ignores the impact of
decoders on representation learning. Although the MIM paradigm already employs
small decoders with asymmetric structures, we believe that continued reduction
of decoder parameters is beneficial to improve the representational learning
capability of the encoder . Second, MIM solves the image prediction task by
training the encoder and decoder together , and does not design a separate task
for the encoder . To further enhance the performance of the encoder when
performing downstream tasks, we designed the encoder for the tasks of
comparative learning and token position prediction. Third, since the input
image may contain background and other objects, and the proportion of each
object in the image varies, reconstructing the tokens related to the background
or to other objects is not meaningful for MIM to understand the main object
representations. Therefore we use ContrastiveCrop to crop the input image so
that the input image contains as much as possible only the main objects. Based
on the above three improvements to MIM, we propose a new model, Contrastive
Masked AutoEncoders (CMAE). We achieved a Top-1 accuracy of 65.84% on
tinyimagenet using the ViT-B backbone, which is +2.89 outperforming the MAE of
competing methods when all conditions are equal. Code will be made available.
- Abstract(参考訳): 本稿では,マスク画像モデリング(MIM)パラダイムの改良について検討する。
MIMパラダイムにより、入力画像のマスキングとマスク部分のアンマスク部分の予測により、モデルが画像の主オブジェクトの特徴を学習することができる。
MIMの改善には以下の3つの方向がある。
まず、エンコーダとデコーダの両方が表現学習に寄与するため、MIMは下流タスクにのみエンコーダを使用し、デコーダが表現学習に与える影響を無視する。
MIMパラダイムは、既に非対称構造を持つ小さなデコーダを使用しているが、デコーダパラメータの継続的な削減は、エンコーダの表現学習能力を改善するために有用であると考えている。
第二に、MIMはエンコーダとデコーダを併用して画像予測タスクを訓練し、エンコーダの別タスクを設計しない。
下流タスクの実行時のエンコーダの性能をさらに向上するため、比較学習とトークン位置予測のタスクのためのエンコーダを設計した。
第3に、入力画像には背景やその他のオブジェクトが含まれており、画像内の各オブジェクトの比率が異なるため、背景または他のオブジェクトに関連するトークンの再構築は、mimが主要なオブジェクト表現を理解する意味がない。
そこで,コントラストクロップを用いて入力画像の抽出を行い,入力画像が極力主オブジェクトのみを含むようにした。
以上の3つのMIMの改良に基づき,新しいモデルであるContrastive Masked AutoEncoders (CMAE)を提案する。
vit-bバックボーンを用いたtinyimagenetのtop-1精度は65.84%で,全条件が等しければ+2.89で競合メソッドのmaeを上回った。
コードは利用可能になる。
関連論文リスト
- Regress Before Construct: Regress Autoencoder for Point Cloud
Self-supervised Learning [18.10704604275133]
Masked Autoencoders (MAE) は、2Dおよび3Dコンピュータビジョンのための自己教師型学習において有望な性能を示した。
我々は、ポイントクラウド自己教師型学習のための回帰オートエンコーダの新しいスキーム、Point Regress AutoEncoder (Point-RAE)を提案する。
本手法は, 各種下流タスクの事前学習において効率よく, 一般化可能である。
論文 参考訳(メタデータ) (2023-09-25T17:23:33Z) - PixMIM: Rethinking Pixel Reconstruction in Masked Image Modeling [83.67628239775878]
Masked Image Modeling (MIM) は Masked Autoencoders (MAE) と BEiT の出現によって有望な進歩を遂げた。
本稿では,画素再構成の観点からMIMの基本解析を行う。
我々は,2つの戦略を包含する極めて単純で効果的な方法,weelmethodを提案する。
論文 参考訳(メタデータ) (2023-03-04T13:38:51Z) - Masked Contrastive Representation Learning [6.737710830712818]
本研究では,自己指導型視覚前訓練のためのMasked Contrastive Representation Learning(MACRL)を提案する。
我々は、サイムズネットワーク(すなわち、両方の枝のエンコーダ・デコーダ構造)に対して非対称な設定を採用する。
実験では、CIFAR-10、CIFAR-100、Tiny-ImageNet、および他の2つのImageNetサブセットを含む様々なビジョンベンチマークにおいて、MACRLが優れた結果を示す。
論文 参考訳(メタデータ) (2022-11-11T05:32:28Z) - Contrastive Masked Autoencoders are Stronger Vision Learners [114.16568579208216]
Contrastive Masked Autoencoders (CMAE)は、より包括的で有能な視覚表現を学習するための、自己指導型事前学習手法である。
CMAEは、画像分類、セマンティックセグメンテーション、オブジェクト検出の高度に競争力のあるベンチマークにおいて、最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-07-27T14:04:22Z) - Multimodal Masked Autoencoders Learn Transferable Representations [127.35955819874063]
単純でスケーラブルなネットワークアーキテクチャであるM3AE(Multimodal Masked Autoencoder)を提案する。
M3AEは、マスク付きトークン予測により、視覚と言語データの両方の統一エンコーダを学習する。
我々は,大規模な画像テキストデータセット上で訓練されたM3AEについて実証的研究を行い,M3AEが下流タスクによく伝達される一般化可能な表現を学習できることを見出した。
論文 参考訳(メタデータ) (2022-05-27T19:09:42Z) - Beyond Masking: Demystifying Token-Based Pre-Training for Vision
Transformers [122.01591448013977]
Masked Image Modeling (MIM) は下流タスクにおいて有望な結果を示した。
本稿では,欠落した内容を回復して学習する効果的な方法があるかどうかを考察する。
我々は、トークンベースのビジョントランスフォーマーの事前トレーニングに関するいくつかの設計原則を要約する。
この設計は、余分な計算コストを伴わない一連の下流認識タスクにおいて、MIMよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-03-27T14:23:29Z) - Context Autoencoder for Self-Supervised Representation Learning [64.63908944426224]
符号化された表現空間で予測を行うことにより、符号化器を事前訓練する。
ネットワークはエンコーダ/レグレッサ/デコーダアーキテクチャである。
下流タスクにおける転送性能の向上によるCAEの有効性を実証する。
論文 参考訳(メタデータ) (2022-02-07T09:33:45Z) - Masked Autoencoders Are Scalable Vision Learners [60.97703494764904]
Masked Autoencoders (MAE) は、コンピュータビジョンのためのスケーラブルな自己教師型学習システムである。
我々は入力画像のランダムなパッチを隠蔽し、欠落したピクセルを再構成する。
これら2つの設計を結合することで,大規模モデルを効率的かつ効率的にトレーニングすることが可能になります。
論文 参考訳(メタデータ) (2021-11-11T18:46:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。