論文の概要: Bootstrapped Masked Autoencoders for Vision BERT Pretraining
- arxiv url: http://arxiv.org/abs/2207.07116v1
- Date: Thu, 14 Jul 2022 17:59:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-15 13:07:10.838485
- Title: Bootstrapped Masked Autoencoders for Vision BERT Pretraining
- Title(参考訳): vision bertプリトレーニングのためのブートストラップマスク付きオートエンコーダ
- Authors: Xiaoyi Dong and Jianmin Bao and Ting Zhang and Dongdong Chen and
Weiming Zhang and Lu Yuan and Dong Chen and Fang Wen and Nenghai Yu
- Abstract要約: BootMAEは、オリジナルのマスク付きオートエンコーダ(MAE)を2つのコア設計で改善した。
1) BERT予測対象としてオンライン機能を提供するモーメントエンコーダ,2) BERT事前学習における目標固有情報を記憶するためのエンコーダの圧力を減らそうとする目標認識デコーダ。
- 参考スコア(独自算出の注目度): 142.5285802605117
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose bootstrapped masked autoencoders (BootMAE), a new approach for
vision BERT pretraining. BootMAE improves the original masked autoencoders
(MAE) with two core designs: 1) momentum encoder that provides online feature
as extra BERT prediction targets; 2) target-aware decoder that tries to reduce
the pressure on the encoder to memorize target-specific information in BERT
pretraining. The first design is motivated by the observation that using a
pretrained MAE to extract the features as the BERT prediction target for masked
tokens can achieve better pretraining performance. Therefore, we add a momentum
encoder in parallel with the original MAE encoder, which bootstraps the
pretraining performance by using its own representation as the BERT prediction
target. In the second design, we introduce target-specific information (e.g.,
pixel values of unmasked patches) from the encoder directly to the decoder to
reduce the pressure on the encoder of memorizing the target-specific
information. Thus, the encoder focuses on semantic modeling, which is the goal
of BERT pretraining, and does not need to waste its capacity in memorizing the
information of unmasked tokens related to the prediction target. Through
extensive experiments, our BootMAE achieves $84.2\%$ Top-1 accuracy on
ImageNet-1K with ViT-B backbone, outperforming MAE by $+0.8\%$ under the same
pre-training epochs. BootMAE also gets $+1.0$ mIoU improvements on semantic
segmentation on ADE20K and $+1.3$ box AP, $+1.4$ mask AP improvement on object
detection and segmentation on COCO dataset. Code is released at
https://github.com/LightDXY/BootMAE.
- Abstract(参考訳): 我々は、vision bertプリトレーニングのための新しいアプローチであるbootmae(bootstrapped masked autoencoders)を提案する。
BootMAEは、オリジナルのマスク付きオートエンコーダ(MAE)を2つのコア設計で改善した。
1) BERT予測対象としてオンライン機能を提供するモーメントエンコーダ
2) BERT事前学習における目標固有情報を記憶するためのエンコーダの圧力を減らそうとするターゲット認識デコーダ。
最初の設計は、事前訓練されたMAEを用いて、マスクされたトークンのBERT予測ターゲットとして特徴を抽出することで、より優れた事前訓練性能が得られるという観察によって動機づけられる。
そこで,従来のMAEエンコーダと平行にモーメントエンコーダを付加し,その表現をBERT予測ターゲットとして用いることで,事前学習性能をブートストラップする。
第2の設計では、ターゲット固有情報を記憶するエンコーダの圧力を低減するために、エンコーダから直接デコーダにターゲット固有情報(例えば、未マッピングパッチの画素値)を導入する。
したがって、エンコーダはbertプリトレーニングの目標であるセマンティクス・モデリングにフォーカスしており、予測対象に関連するアンマストトークンの情報を記憶するためにその容量を浪費する必要はない。
広範な実験を通じて、私たちのBootMAEはImageNet-1Kで8.2\%のTop-1精度をViT-Bバックボーンで達成し、同じ事前学習エポックの下でMAEを+0.8\%以上上回った。
BootMAEはADE20Kのセマンティックセグメンテーションで$+1.0$ mIoUの改善と$+1.3$ボックスAPで$+1.4$マスクAPでCOCOデータセットでオブジェクトの検出とセグメンテーションを改善する。
コードはhttps://github.com/lightdxy/bootmaeでリリースされる。
関連論文リスト
- PCP-MAE: Learning to Predict Centers for Point Masked Autoencoders [57.31790812209751]
マスクされたパッチの中央をエンコーダからの情報を使わずにデコーダに直接送る場合、依然としてよく再構築されていることを示す。
ポイントマスキングオートエンコーダ(PCP-MAE)の予測センターへの学習という,シンプルで効果的な手法を提案する。
本手法は他の方法と比較して事前学習効率が高く,Point-MAEよりも大幅に向上する。
論文 参考訳(メタデータ) (2024-08-16T13:53:53Z) - Drop your Decoder: Pre-training with Bag-of-Word Prediction for Dense Passage Retrieval [26.00149743478937]
マスケードオートエンコーダの事前学習は,高密度検索システムの初期化・拡張技術として広く普及している。
マスク付きオートエンコーダのデコーダを、完全に単純化されたBag-of-Word予測タスクに置き換えることで、従来のMAEの修正を提案する。
提案手法は,新たなパラメータを必要とせずに,大規模検索ベンチマークにおける最先端の検索性能を実現する。
論文 参考訳(メタデータ) (2024-01-20T15:02:33Z) - Regress Before Construct: Regress Autoencoder for Point Cloud
Self-supervised Learning [18.10704604275133]
Masked Autoencoders (MAE) は、2Dおよび3Dコンピュータビジョンのための自己教師型学習において有望な性能を示した。
我々は、ポイントクラウド自己教師型学習のための回帰オートエンコーダの新しいスキーム、Point Regress AutoEncoder (Point-RAE)を提案する。
本手法は, 各種下流タスクの事前学習において効率よく, 一般化可能である。
論文 参考訳(メタデータ) (2023-09-25T17:23:33Z) - SdAE: Self-distillated Masked Autoencoder [95.3684955370897]
本稿では,自己蒸留マスク付きオートエンコーダネットワークSdAEを提案する。
300エポックの事前トレーニングで、バニラViT-BaseモデルはImageNet-1k分類において84.1%の微調整精度を達成する。
論文 参考訳(メタデータ) (2022-07-31T15:07:25Z) - Context Autoencoder for Self-Supervised Representation Learning [64.63908944426224]
符号化された表現空間で予測を行うことにより、符号化器を事前訓練する。
ネットワークはエンコーダ/レグレッサ/デコーダアーキテクチャである。
下流タスクにおける転送性能の向上によるCAEの有効性を実証する。
論文 参考訳(メタデータ) (2022-02-07T09:33:45Z) - PeCo: Perceptual Codebook for BERT Pre-training of Vision Transformers [102.7922200135147]
本稿では、視覚変換器のBERT事前学習のためのより良いコードブックについて検討する。
対照的に、NLPフィールドの離散トークンは自然に非常に意味がある。
提案した知覚コードブックが生成する視覚的トークンは,より優れた意味を持つことを示す。
論文 参考訳(メタデータ) (2021-11-24T18:59:58Z) - Masked Autoencoders Are Scalable Vision Learners [60.97703494764904]
Masked Autoencoders (MAE) は、コンピュータビジョンのためのスケーラブルな自己教師型学習システムである。
我々は入力画像のランダムなパッチを隠蔽し、欠落したピクセルを再構成する。
これら2つの設計を結合することで,大規模モデルを効率的かつ効率的にトレーニングすることが可能になります。
論文 参考訳(メタデータ) (2021-11-11T18:46:40Z) - EncoderMI: Membership Inference against Pre-trained Encoders in
Contrastive Learning [27.54202989524394]
コントラスト学習によって事前訓練された画像エンコーダに対する最初のメンバーシップ推論手法であるMIを提案する。
複数のデータセットで事前学習した画像エンコーダと、OpenAIが収集した4億(画像、テキスト)のペアで事前学習したContrastive Language- Image Pre-training (CLIP)画像エンコーダの評価を行った。
論文 参考訳(メタデータ) (2021-08-25T03:00:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。