論文の概要: Improvements to Self-Supervised Representation Learning for Masked Image
Modeling
- arxiv url: http://arxiv.org/abs/2205.10546v1
- Date: Sat, 21 May 2022 09:45:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-05 17:11:13.863206
- Title: Improvements to Self-Supervised Representation Learning for Masked Image
Modeling
- Title(参考訳): マスク画像モデリングのための自己教師付き表現学習の改善
- Authors: Jiawei Mao, Xuesong Yin, Yuanqi Chang, Honggu Zhou
- Abstract要約: 本稿では,マスク画像モデリング(MIM)パラダイムの改良について検討する。
MIMパラダイムにより、入力画像のマスキングとマスク部分のアンマスク部分の予測により、モデルが画像の主オブジェクトの特徴を学習することができる。
我々は新しいモデルであるContrastive Masked AutoEncoders (CMAE)を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper explores improvements to the masked image modeling (MIM) paradigm.
The MIM paradigm enables the model to learn the main object features of the
image by masking the input image and predicting the masked part by the unmasked
part. We found the following three main directions for MIM to be improved.
First, since both encoders and decoders contribute to representation learning,
MIM uses only encoders for downstream tasks, which ignores the impact of
decoders on representation learning. Although the MIM paradigm already employs
small decoders with asymmetric structures, we believe that continued reduction
of decoder parameters is beneficial to improve the representational learning
capability of the encoder . Second, MIM solves the image prediction task by
training the encoder and decoder together , and does not design a separate task
for the encoder . To further enhance the performance of the encoder when
performing downstream tasks, we designed the encoder for the tasks of
comparative learning and token position prediction. Third, since the input
image may contain background and other objects, and the proportion of each
object in the image varies, reconstructing the tokens related to the background
or to other objects is not meaningful for MIM to understand the main object
representations. Therefore we use ContrastiveCrop to crop the input image so
that the input image contains as much as possible only the main objects. Based
on the above three improvements to MIM, we propose a new model, Contrastive
Masked AutoEncoders (CMAE). We achieved a Top-1 accuracy of 65.84% on
tinyimagenet using the ViT-B backbone, which is +2.89 outperforming the MAE of
competing methods when all conditions are equal. Code will be made available.
- Abstract(参考訳): 本稿では,マスク画像モデリング(MIM)パラダイムの改良について検討する。
MIMパラダイムにより、入力画像のマスキングとマスク部分のアンマスク部分の予測により、モデルが画像の主オブジェクトの特徴を学習することができる。
MIMの改善には以下の3つの方向がある。
まず、エンコーダとデコーダの両方が表現学習に寄与するため、MIMは下流タスクにのみエンコーダを使用し、デコーダが表現学習に与える影響を無視する。
MIMパラダイムは、既に非対称構造を持つ小さなデコーダを使用しているが、デコーダパラメータの継続的な削減は、エンコーダの表現学習能力を改善するために有用であると考えている。
第二に、MIMはエンコーダとデコーダを併用して画像予測タスクを訓練し、エンコーダの別タスクを設計しない。
下流タスクの実行時のエンコーダの性能をさらに向上するため、比較学習とトークン位置予測のタスクのためのエンコーダを設計した。
第3に、入力画像には背景やその他のオブジェクトが含まれており、画像内の各オブジェクトの比率が異なるため、背景または他のオブジェクトに関連するトークンの再構築は、mimが主要なオブジェクト表現を理解する意味がない。
そこで,コントラストクロップを用いて入力画像の抽出を行い,入力画像が極力主オブジェクトのみを含むようにした。
以上の3つのMIMの改良に基づき,新しいモデルであるContrastive Masked AutoEncoders (CMAE)を提案する。
vit-bバックボーンを用いたtinyimagenetのtop-1精度は65.84%で,全条件が等しければ+2.89で競合メソッドのmaeを上回った。
コードは利用可能になる。
関連論文リスト
- Membership Inference Attack Against Masked Image Modeling [29.699606401861818]
Masked Image Modeling (MIM)は、視覚認識のための自己教師付き学習(SSL)の領域で大きな成功を収めた。
本研究では、MIMの事前学習データプライバシーを研究することで、異なる角度を採る。
MIMにより事前訓練された画像エンコーダに対する最初のメンバシップ推論攻撃を提案する。
論文 参考訳(メタデータ) (2024-08-13T11:34:28Z) - Bringing Masked Autoencoders Explicit Contrastive Properties for Point Cloud Self-Supervised Learning [116.75939193785143]
画像領域における視覚変換器(ViT)のコントラスト学習(CL)は、従来の畳み込みバックボーンのCLに匹敵する性能を達成した。
ViTで事前訓練した3Dポイントクラウドでは、マスク付きオートエンコーダ(MAE)モデリングが主流である。
論文 参考訳(メタデータ) (2024-07-08T12:28:56Z) - Efficient Transformer Encoders for Mask2Former-style models [57.54752243522298]
ECO-M2Fは、入力画像上に条件付きエンコーダ内の隠蔽層数を自己選択する戦略である。
提案手法は、性能を維持しながら、予測エンコーダの計算コストを削減する。
アーキテクチャ構成では柔軟性があり、セグメンテーションタスクを超えてオブジェクト検出まで拡張できる。
論文 参考訳(メタデータ) (2024-04-23T17:26:34Z) - Regress Before Construct: Regress Autoencoder for Point Cloud
Self-supervised Learning [18.10704604275133]
Masked Autoencoders (MAE) は、2Dおよび3Dコンピュータビジョンのための自己教師型学習において有望な性能を示した。
我々は、ポイントクラウド自己教師型学習のための回帰オートエンコーダの新しいスキーム、Point Regress AutoEncoder (Point-RAE)を提案する。
本手法は, 各種下流タスクの事前学習において効率よく, 一般化可能である。
論文 参考訳(メタデータ) (2023-09-25T17:23:33Z) - PixMIM: Rethinking Pixel Reconstruction in Masked Image Modeling [83.67628239775878]
Masked Image Modeling (MIM) は Masked Autoencoders (MAE) と BEiT の出現によって有望な進歩を遂げた。
本稿では,画素再構成の観点からMIMの基本解析を行う。
我々は,2つの戦略を包含する極めて単純で効果的な方法,weelmethodを提案する。
論文 参考訳(メタデータ) (2023-03-04T13:38:51Z) - Beyond Masking: Demystifying Token-Based Pre-Training for Vision
Transformers [122.01591448013977]
Masked Image Modeling (MIM) は下流タスクにおいて有望な結果を示した。
本稿では,欠落した内容を回復して学習する効果的な方法があるかどうかを考察する。
我々は、トークンベースのビジョントランスフォーマーの事前トレーニングに関するいくつかの設計原則を要約する。
この設計は、余分な計算コストを伴わない一連の下流認識タスクにおいて、MIMよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-03-27T14:23:29Z) - Context Autoencoder for Self-Supervised Representation Learning [64.63908944426224]
符号化された表現空間で予測を行うことにより、符号化器を事前訓練する。
ネットワークはエンコーダ/レグレッサ/デコーダアーキテクチャである。
下流タスクにおける転送性能の向上によるCAEの有効性を実証する。
論文 参考訳(メタデータ) (2022-02-07T09:33:45Z) - Masked Autoencoders Are Scalable Vision Learners [60.97703494764904]
Masked Autoencoders (MAE) は、コンピュータビジョンのためのスケーラブルな自己教師型学習システムである。
我々は入力画像のランダムなパッチを隠蔽し、欠落したピクセルを再構成する。
これら2つの設計を結合することで,大規模モデルを効率的かつ効率的にトレーニングすることが可能になります。
論文 参考訳(メタデータ) (2021-11-11T18:46:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。