論文の概要: Context Autoencoder for Self-Supervised Representation Learning
- arxiv url: http://arxiv.org/abs/2202.03026v1
- Date: Mon, 7 Feb 2022 09:33:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-09 02:06:20.776642
- Title: Context Autoencoder for Self-Supervised Representation Learning
- Title(参考訳): 自己教師付き表現学習のためのコンテキストオートエンコーダ
- Authors: Xiaokang Chen, Mingyu Ding, Xiaodi Wang, Ying Xin, Shentong Mo, Yunhao
Wang, Shumin Han, Ping Luo, Gang Zeng, Jingdong Wang
- Abstract要約: 自己教師型学習のための新しいマスク付き画像モデリング(MIM)手法であるコンテキストオートエンコーダ(CAE)を提案する。
画像をランダムに、可視パッチとマスクパッチの2つのセットに分割する。
提案手法は,目に見えるパッチから隠れたパッチへの予測を行う。
- 参考スコア(独自算出の注目度): 64.63908944426224
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a novel masked image modeling (MIM) approach, context autoencoder
(CAE), for self-supervised learning. We randomly partition the image into two
sets: visible patches and masked patches. The CAE architecture consists of: (i)
an encoder that takes visible patches as input and outputs their latent
representations, (ii) a latent context regressor that predicts the masked patch
representations from the visible patch representations that are not updated in
this regressor, (iii) a decoder that takes the estimated masked patch
representations as input and makes predictions for the masked patches, and (iv)
an alignment module that aligns the masked patch representation estimation with
the masked patch representations computed from the encoder.
In comparison to previous MIM methods that couple the encoding and decoding
roles, e.g., using a single module in BEiT, our approach attempts
to~\emph{separate the encoding role (content understanding) from the decoding
role (making predictions for masked patches)} using different modules,
improving the content understanding capability. In addition, our approach makes
predictions from the visible patches to the masked patches in \emph{the latent
representation space} that is expected to take on semantics. In addition, we
present the explanations about why contrastive pretraining and supervised
pretraining perform similarly and why MIM potentially performs better. We
demonstrate the effectiveness of our CAE through superior transfer performance
in downstream tasks: semantic segmentation, and object detection and instance
segmentation.
- Abstract(参考訳): 自己教師型学習のための新しいマスク付き画像モデリング(MIM)手法であるコンテキストオートエンコーダ(CAE)を提案する。
画像をランダムに、可視パッチとマスクパッチの2つのセットに分割する。
CAEアーキテクチャは以下の通りである。
(i)可視パッチを入力として受け取り、潜在表現を出力するエンコーダ
(ii)この回帰器では更新されない可視的パッチ表現からマスクされたパッチ表現を予測する潜在コンテキスト回帰器。
(iii)推定マスクパッチ表現を入力としてマスクパッチの予測を行うデコーダ
(iv) マスクされたパッチ表現推定とエンコーダから計算されたマスクされたパッチ表現を整列するアライメントモジュール。
例えばbeitで1つのモジュールを使用して、エンコーディングとデコードロールを結合する以前のmimメソッドと比較して、我々は、異なるモジュールを使用して、エンコーディングロール(コンテンツ理解)とデコードロール(マスキングパッチの予測)を分離し、コンテンツ理解能力を向上させることを試みる。
さらに,提案手法では,意味論に係わると思われる<emph{the latent representation space} において,可視パッチからマスクパッチへの予測を行う。
さらに,比較前訓練と教師付き前訓練が類似する理由と,mimがうまく機能する可能性について解説する。
下流タスクでは, セマンティックセグメンテーション, オブジェクト検出, インスタンスセグメンテーションという, より優れた転送性能によってCAEの有効性を示す。
関連論文リスト
- Rethinking Patch Dependence for Masked Autoencoders [92.37365660775171]
マスク付きオートエンコーダ(MAE)の復号機構におけるパッチ間依存関係の再検討
我々は,クロスアテンション・マスケッド・オートエンコーダ(CrossMAE)という新しい事前学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-25T18:49:57Z) - Regress Before Construct: Regress Autoencoder for Point Cloud
Self-supervised Learning [18.10704604275133]
Masked Autoencoders (MAE) は、2Dおよび3Dコンピュータビジョンのための自己教師型学習において有望な性能を示した。
我々は、ポイントクラウド自己教師型学習のための回帰オートエンコーダの新しいスキーム、Point Regress AutoEncoder (Point-RAE)を提案する。
本手法は, 各種下流タスクの事前学習において効率よく, 一般化可能である。
論文 参考訳(メタデータ) (2023-09-25T17:23:33Z) - Siamese Masked Autoencoders [76.35448665609998]
ビデオから視覚的対応を学習するために,Siamese Masked Autoencoders(SiamMAE)を提案する。
SiamMAEはランダムにサンプリングされたビデオフレームのペアで動作し、非対称にそれらをマスクする。
ビデオオブジェクトのセグメンテーション、キーポイントのプロパゲーション、セマンティック部分のプロパゲーションタスクにおいて、最先端の自己管理手法よりも優れています。
論文 参考訳(メタデータ) (2023-05-23T17:59:46Z) - SdAE: Self-distillated Masked Autoencoder [95.3684955370897]
本稿では,自己蒸留マスク付きオートエンコーダネットワークSdAEを提案する。
300エポックの事前トレーニングで、バニラViT-BaseモデルはImageNet-1k分類において84.1%の微調整精度を達成する。
論文 参考訳(メタデータ) (2022-07-31T15:07:25Z) - Masked Autoencoders that Listen [79.99280830830854]
本稿では,画像ベースMasked Autoencoders(MAE)の音声スペクトログラムからの自己教師型表現学習への簡単な拡張について検討する。
MAEにおけるTransformer encoder-decoderの設計に続いて、Audio-MAEはまず、ハイマスキング比でオーディオスペクトログラムパッチを符号化し、エンコーダ層を介して非マスキングトークンのみを供給します。
次にデコーダは、入力スペクトログラムを再構築するために、マスクトークンでパッドされたエンコードされたコンテキストを再注文し、デコードする。
論文 参考訳(メタデータ) (2022-07-13T17:59:55Z) - Improvements to Self-Supervised Representation Learning for Masked Image
Modeling [0.0]
本稿では,マスク画像モデリング(MIM)パラダイムの改良について検討する。
MIMパラダイムにより、入力画像のマスキングとマスク部分のアンマスク部分の予測により、モデルが画像の主オブジェクトの特徴を学習することができる。
我々は新しいモデルであるContrastive Masked AutoEncoders (CMAE)を提案する。
論文 参考訳(メタデータ) (2022-05-21T09:45:50Z) - SeMask: Semantically Masked Transformers for Semantic Segmentation [10.15763397352378]
SeMaskは、セマンティックアテンション操作の助けを借りて、セマンティック情報をエンコーダに組み込むフレームワークである。
我々のフレームワークはADE20Kデータセットで58.22% mIoUの新たな最先端を実現し、CityscapesデータセットではmIoUメトリックで3%以上の改善を実現している。
論文 参考訳(メタデータ) (2021-12-23T18:56:02Z) - Masked Autoencoders Are Scalable Vision Learners [60.97703494764904]
Masked Autoencoders (MAE) は、コンピュータビジョンのためのスケーラブルな自己教師型学習システムである。
我々は入力画像のランダムなパッチを隠蔽し、欠落したピクセルを再構成する。
これら2つの設計を結合することで,大規模モデルを効率的かつ効率的にトレーニングすることが可能になります。
論文 参考訳(メタデータ) (2021-11-11T18:46:40Z) - OLED: One-Class Learned Encoder-Decoder Network with Adversarial Context
Masking for Novelty Detection [1.933681537640272]
新規性検出は、対象クラスの分布に属さないサンプルを認識するタスクである。
ディープオートエンコーダは多くの教師なしのノベルティ検出法のベースとして広く使われている。
我々は,MaskモジュールとReconstructorという2つの競合するネットワークからなるフレームワークを設計した。
論文 参考訳(メタデータ) (2021-03-27T17:59:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。