論文の概要: Masked Contrastive Representation Learning
- arxiv url: http://arxiv.org/abs/2211.06012v1
- Date: Fri, 11 Nov 2022 05:32:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-14 15:49:04.135387
- Title: Masked Contrastive Representation Learning
- Title(参考訳): マスキングコントラスト表現学習
- Authors: Yuchong Yao, Nandakishor Desai, Marimuthu Palaniswami
- Abstract要約: 本研究では,自己指導型視覚前訓練のためのMasked Contrastive Representation Learning(MACRL)を提案する。
我々は、サイムズネットワーク(すなわち、両方の枝のエンコーダ・デコーダ構造)に対して非対称な設定を採用する。
実験では、CIFAR-10、CIFAR-100、Tiny-ImageNet、および他の2つのImageNetサブセットを含む様々なビジョンベンチマークにおいて、MACRLが優れた結果を示す。
- 参考スコア(独自算出の注目度): 6.737710830712818
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Masked image modelling (e.g., Masked AutoEncoder) and contrastive learning
(e.g., Momentum Contrast) have shown impressive performance on unsupervised
visual representation learning. This work presents Masked Contrastive
Representation Learning (MACRL) for self-supervised visual pre-training. In
particular, MACRL leverages the effectiveness of both masked image modelling
and contrastive learning. We adopt an asymmetric setting for the siamese
network (i.e., encoder-decoder structure in both branches), where one branch
with higher mask ratio and stronger data augmentation, while the other adopts
weaker data corruptions. We optimize a contrastive learning objective based on
the learned features from the encoder in both branches. Furthermore, we
minimize the $L_1$ reconstruction loss according to the decoders' outputs. In
our experiments, MACRL presents superior results on various vision benchmarks,
including CIFAR-10, CIFAR-100, Tiny-ImageNet, and two other ImageNet subsets.
Our framework provides unified insights on self-supervised visual pre-training
and future research.
- Abstract(参考訳): マスク画像モデリング(例:マスクオートエンコーダ)とコントラスト学習(例:運動量コントラスト)は教師なし視覚表現学習において印象的なパフォーマンスを示している。
本研究では,自己指導型視覚前訓練のためのMasked Contrastive Representation Learning(MACRL)を提案する。
特に、MACRLはマスク画像モデリングとコントラスト学習の両方の有効性を活用している。
両枝のエンコーダ-デコーダ構造)に対して非対称な設定を採り、一方の枝はマスク比が高く、他方はより弱いデータ破損を採用する。
両ブランチのエンコーダから学習した特徴に基づいて,コントラスト学習目標を最適化する。
さらに、デコーダの出力に応じて、$L_1$再構成損失を最小化する。
実験では、CIFAR-10、CIFAR-100、Tiny-ImageNet、および他の2つのImageNetサブセットなど、様々なビジョンベンチマークにおいて優れた結果を示す。
我々のフレームワークは、自己監督型視覚前訓練と将来の研究に関する統一的な洞察を提供する。
関連論文リスト
- Bringing Masked Autoencoders Explicit Contrastive Properties for Point Cloud Self-Supervised Learning [116.75939193785143]
画像領域における視覚変換器(ViT)のコントラスト学習(CL)は、従来の畳み込みバックボーンのCLに匹敵する性能を達成した。
ViTで事前訓練した3Dポイントクラウドでは、マスク付きオートエンコーダ(MAE)モデリングが主流である。
論文 参考訳(メタデータ) (2024-07-08T12:28:56Z) - Masked Autoencoders are Efficient Class Incremental Learners [64.90846899051164]
クラスインクリメンタルラーニング(CIL)は,過去の知識の破滅的な忘れを回避しつつ,新しいクラスを逐次学習することを目的としている。
本稿では,CIL の学習に Masked Autoencoders (MAEs) を用いることを提案する。
論文 参考訳(メタデータ) (2023-08-24T02:49:30Z) - MOCA: Self-supervised Representation Learning by Predicting Masked Online Codebook Assignments [72.6405488990753]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。
所望のプロパティを統一する単段および単段のMOCAを提案する。
我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2023-07-18T15:46:20Z) - MAGE: MAsked Generative Encoder to Unify Representation Learning and
Image Synthesis [33.46831766206675]
MASked Generative (MAGE)は、SOTA画像生成と自己教師付き表現学習を統合するための最初のフレームワークである。
以前の生成モデルにインスパイアされたMAGEは、入力と出力でベクトル量子化されたGANによって学習された意味トークンを使用する。
ImageNet-1Kでは、1つのMAGE ViT-Lモデルがクラス非条件画像生成のタスクで9.10 FIDを得る。
論文 参考訳(メタデータ) (2022-11-16T18:59:02Z) - Contrastive Masked Autoencoders are Stronger Vision Learners [114.16568579208216]
Contrastive Masked Autoencoders (CMAE)は、より包括的で有能な視覚表現を学習するための、自己指導型事前学習手法である。
CMAEは、画像分類、セマンティックセグメンテーション、オブジェクト検出の高度に競争力のあるベンチマークにおいて、最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-07-27T14:04:22Z) - The Devil is in the Frequency: Geminated Gestalt Autoencoder for
Self-Supervised Visual Pre-Training [13.087987450384036]
視覚前訓練のための新しいMasked Image Modeling (MIM) をGeminated Autoencoder (Ge$2-AE) と呼ぶ。
具体的には、画素と周波数空間の両方から画像内容を再構成するgeminated decoderをモデルに装備する。
論文 参考訳(メタデータ) (2022-04-18T09:22:55Z) - Adversarial Masking for Self-Supervised Learning [81.25999058340997]
自己教師付き学習のためのマスク付き画像モデル(MIM)フレームワークであるADIOSを提案する。
対向目的物を用いてマスキング機能と画像エンコーダを同時に学習する。
さまざまなタスクやデータセットに対する最先端の自己教師付き学習(SSL)メソッドを一貫して改善する。
論文 参考訳(メタデータ) (2022-01-31T10:23:23Z) - Masked Autoencoders Are Scalable Vision Learners [60.97703494764904]
Masked Autoencoders (MAE) は、コンピュータビジョンのためのスケーラブルな自己教師型学習システムである。
我々は入力画像のランダムなパッチを隠蔽し、欠落したピクセルを再構成する。
これら2つの設計を結合することで,大規模モデルを効率的かつ効率的にトレーニングすることが可能になります。
論文 参考訳(メタデータ) (2021-11-11T18:46:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。