論文の概要: Context Autoencoder for Self-Supervised Representation Learning
- arxiv url: http://arxiv.org/abs/2202.03026v3
- Date: Thu, 10 Aug 2023 11:01:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-11 16:55:56.148914
- Title: Context Autoencoder for Self-Supervised Representation Learning
- Title(参考訳): 自己教師付き表現学習のためのコンテキストオートエンコーダ
- Authors: Xiaokang Chen, Mingyu Ding, Xiaodi Wang, Ying Xin, Shentong Mo, Yunhao
Wang, Shumin Han, Ping Luo, Gang Zeng, Jingdong Wang
- Abstract要約: 符号化された表現空間で予測を行うことにより、符号化器を事前訓練する。
ネットワークはエンコーダ/レグレッサ/デコーダアーキテクチャである。
下流タスクにおける転送性能の向上によるCAEの有効性を実証する。
- 参考スコア(独自算出の注目度): 64.63908944426224
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a novel masked image modeling (MIM) approach, context autoencoder
(CAE), for self-supervised representation pretraining. We pretrain an encoder
by making predictions in the encoded representation space. The pretraining
tasks include two tasks: masked representation prediction - predict the
representations for the masked patches, and masked patch reconstruction -
reconstruct the masked patches. The network is an encoder-regressor-decoder
architecture: the encoder takes the visible patches as input; the regressor
predicts the representations of the masked patches, which are expected to be
aligned with the representations computed from the encoder, using the
representations of visible patches and the positions of visible and masked
patches; the decoder reconstructs the masked patches from the predicted encoded
representations. The CAE design encourages the separation of learning the
encoder (representation) from completing the pertaining tasks: masked
representation prediction and masked patch reconstruction tasks, and making
predictions in the encoded representation space empirically shows the benefit
to representation learning. We demonstrate the effectiveness of our CAE through
superior transfer performance in downstream tasks: semantic segmentation,
object detection and instance segmentation, and classification. The code will
be available at https://github.com/Atten4Vis/CAE.
- Abstract(参考訳): 自己教師型表現事前学習のための新しいマスク付き画像モデリング(MIM)手法であるコンテキストオートエンコーダ(CAE)を提案する。
符号化された表現空間で予測を行うことで、エンコーダを事前学習する。
事前トレーニングタスクには2つのタスクが含まれる。 マスクされた表現予測 - マスクされたパッチの表現を予測し、マスクされたパッチを再構築する。
エンコーダは、エンコーダ−レグレッサ−デコーダアーキテクチャであり、エンコーダは、可視パッチを入力として、レグレッサは、可視パッチの表現と可視パッチと可視パッチの位置を使用して、エンコーダから算出された表現と整合することが期待されるマスクパッチの表現を予測し、デコーダは、予測されたエンコーダ表現からマスクパッチを再構成する。
cae設計は、エンコーダ(表現)の学習を、関連するタスクの完了から分離することを奨励する: マスク表現予測とマスクパッチ再構成タスク、およびエンコーダ表現空間での予測を行うことは、実証的に表現学習の利点を示す。
下流タスクにおいて, セマンティックセグメンテーション, オブジェクト検出, インスタンスセグメンテーション, 分類において, 転送性能が優れていることによるCAEの有効性を示す。
コードはhttps://github.com/Atten4Vis/CAEで入手できる。
関連論文リスト
- Rethinking Patch Dependence for Masked Autoencoders [92.37365660775171]
マスク付きオートエンコーダ(MAE)の復号機構におけるパッチ間依存関係の再検討
我々は,クロスアテンション・マスケッド・オートエンコーダ(CrossMAE)という新しい事前学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-25T18:49:57Z) - Regress Before Construct: Regress Autoencoder for Point Cloud
Self-supervised Learning [18.10704604275133]
Masked Autoencoders (MAE) は、2Dおよび3Dコンピュータビジョンのための自己教師型学習において有望な性能を示した。
我々は、ポイントクラウド自己教師型学習のための回帰オートエンコーダの新しいスキーム、Point Regress AutoEncoder (Point-RAE)を提案する。
本手法は, 各種下流タスクの事前学習において効率よく, 一般化可能である。
論文 参考訳(メタデータ) (2023-09-25T17:23:33Z) - Siamese Masked Autoencoders [76.35448665609998]
ビデオから視覚的対応を学習するために,Siamese Masked Autoencoders(SiamMAE)を提案する。
SiamMAEはランダムにサンプリングされたビデオフレームのペアで動作し、非対称にそれらをマスクする。
ビデオオブジェクトのセグメンテーション、キーポイントのプロパゲーション、セマンティック部分のプロパゲーションタスクにおいて、最先端の自己管理手法よりも優れています。
論文 参考訳(メタデータ) (2023-05-23T17:59:46Z) - SdAE: Self-distillated Masked Autoencoder [95.3684955370897]
本稿では,自己蒸留マスク付きオートエンコーダネットワークSdAEを提案する。
300エポックの事前トレーニングで、バニラViT-BaseモデルはImageNet-1k分類において84.1%の微調整精度を達成する。
論文 参考訳(メタデータ) (2022-07-31T15:07:25Z) - Masked Autoencoders that Listen [79.99280830830854]
本稿では,画像ベースMasked Autoencoders(MAE)の音声スペクトログラムからの自己教師型表現学習への簡単な拡張について検討する。
MAEにおけるTransformer encoder-decoderの設計に続いて、Audio-MAEはまず、ハイマスキング比でオーディオスペクトログラムパッチを符号化し、エンコーダ層を介して非マスキングトークンのみを供給します。
次にデコーダは、入力スペクトログラムを再構築するために、マスクトークンでパッドされたエンコードされたコンテキストを再注文し、デコードする。
論文 参考訳(メタデータ) (2022-07-13T17:59:55Z) - Improvements to Self-Supervised Representation Learning for Masked Image
Modeling [0.0]
本稿では,マスク画像モデリング(MIM)パラダイムの改良について検討する。
MIMパラダイムにより、入力画像のマスキングとマスク部分のアンマスク部分の予測により、モデルが画像の主オブジェクトの特徴を学習することができる。
我々は新しいモデルであるContrastive Masked AutoEncoders (CMAE)を提案する。
論文 参考訳(メタデータ) (2022-05-21T09:45:50Z) - SeMask: Semantically Masked Transformers for Semantic Segmentation [10.15763397352378]
SeMaskは、セマンティックアテンション操作の助けを借りて、セマンティック情報をエンコーダに組み込むフレームワークである。
我々のフレームワークはADE20Kデータセットで58.22% mIoUの新たな最先端を実現し、CityscapesデータセットではmIoUメトリックで3%以上の改善を実現している。
論文 参考訳(メタデータ) (2021-12-23T18:56:02Z) - Masked Autoencoders Are Scalable Vision Learners [60.97703494764904]
Masked Autoencoders (MAE) は、コンピュータビジョンのためのスケーラブルな自己教師型学習システムである。
我々は入力画像のランダムなパッチを隠蔽し、欠落したピクセルを再構成する。
これら2つの設計を結合することで,大規模モデルを効率的かつ効率的にトレーニングすることが可能になります。
論文 参考訳(メタデータ) (2021-11-11T18:46:40Z) - OLED: One-Class Learned Encoder-Decoder Network with Adversarial Context
Masking for Novelty Detection [1.933681537640272]
新規性検出は、対象クラスの分布に属さないサンプルを認識するタスクである。
ディープオートエンコーダは多くの教師なしのノベルティ検出法のベースとして広く使われている。
我々は,MaskモジュールとReconstructorという2つの競合するネットワークからなるフレームワークを設計した。
論文 参考訳(メタデータ) (2021-03-27T17:59:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。