Fugu-MT 論文翻訳(概要): Bootstrapped Masked Autoencoders for Vision BERT Pretraining

論文の概要: Bootstrapped Masked Autoencoders for Vision BERT Pretraining

arxiv url: http://arxiv.org/abs/2207.07116v1
Date: Thu, 14 Jul 2022 17:59:58 GMT
ステータス: 翻訳完了
システム内更新日: 2022-07-15 13:07:10.838485
Title: Bootstrapped Masked Autoencoders for Vision BERT Pretraining
Title（参考訳）: vision bertプリトレーニングのためのブートストラップマスク付きオートエンコーダ
Authors: Xiaoyi Dong and Jianmin Bao and Ting Zhang and Dongdong Chen and Weiming Zhang and Lu Yuan and Dong Chen and Fang Wen and Nenghai Yu
Abstract要約: BootMAEは、オリジナルのマスク付きオートエンコーダ(MAE)を2つのコア設計で改善した。 1) BERT予測対象としてオンライン機能を提供するモーメントエンコーダ,2) BERT事前学習における目標固有情報を記憶するためのエンコーダの圧力を減らそうとする目標認識デコーダ。
参考スコア（独自算出の注目度）: 142.5285802605117
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We propose bootstrapped masked autoencoders (BootMAE), a new approach for vision BERT pretraining. BootMAE improves the original masked autoencoders (MAE) with two core designs: 1) momentum encoder that provides online feature as extra BERT prediction targets; 2) target-aware decoder that tries to reduce the pressure on the encoder to memorize target-specific information in BERT pretraining. The first design is motivated by the observation that using a pretrained MAE to extract the features as the BERT prediction target for masked tokens can achieve better pretraining performance. Therefore, we add a momentum encoder in parallel with the original MAE encoder, which bootstraps the pretraining performance by using its own representation as the BERT prediction target. In the second design, we introduce target-specific information (e.g., pixel values of unmasked patches) from the encoder directly to the decoder to reduce the pressure on the encoder of memorizing the target-specific information. Thus, the encoder focuses on semantic modeling, which is the goal of BERT pretraining, and does not need to waste its capacity in memorizing the information of unmasked tokens related to the prediction target. Through extensive experiments, our BootMAE achieves $84.2\%$ Top-1 accuracy on ImageNet-1K with ViT-B backbone, outperforming MAE by $+0.8\%$ under the same pre-training epochs. BootMAE also gets $+1.0$ mIoU improvements on semantic segmentation on ADE20K and $+1.3$ box AP, $+1.4$ mask AP improvement on object detection and segmentation on COCO dataset. Code is released at https://github.com/LightDXY/BootMAE.
Abstract（参考訳）: 我々は、vision bertプリトレーニングのための新しいアプローチであるbootmae(bootstrapped masked autoencoders)を提案する。 BootMAEは、オリジナルのマスク付きオートエンコーダ(MAE)を2つのコア設計で改善した。 1) BERT予測対象としてオンライン機能を提供するモーメントエンコーダ 2) BERT事前学習における目標固有情報を記憶するためのエンコーダの圧力を減らそうとするターゲット認識デコーダ。最初の設計は、事前訓練されたMAEを用いて、マスクされたトークンのBERT予測ターゲットとして特徴を抽出することで、より優れた事前訓練性能が得られるという観察によって動機づけられる。そこで,従来のMAEエンコーダと平行にモーメントエンコーダを付加し,その表現をBERT予測ターゲットとして用いることで,事前学習性能をブートストラップする。第2の設計では、ターゲット固有情報を記憶するエンコーダの圧力を低減するために、エンコーダから直接デコーダにターゲット固有情報(例えば、未マッピングパッチの画素値)を導入する。したがって、エンコーダはbertプリトレーニングの目標であるセマンティクス・モデリングにフォーカスしており、予測対象に関連するアンマストトークンの情報を記憶するためにその容量を浪費する必要はない。広範な実験を通じて、私たちのBootMAEはImageNet-1Kで8.2\%のTop-1精度をViT-Bバックボーンで達成し、同じ事前学習エポックの下でMAEを+0.8\%以上上回った。 BootMAEはADE20Kのセマンティックセグメンテーションで$+1.0$ mIoUの改善と$+1.3$ボックスAPで$+1.4$マスクAPでCOCOデータセットでオブジェクトの検出とセグメンテーションを改善する。コードはhttps://github.com/lightdxy/bootmaeでリリースされる。

関連論文リスト

Enhancing DNA Foundation Models to Address Masking Inefficiencies [18.54660252939211]
マスク付きオートエンコーダフレームワークをベースとした改良型エンコーダデコーダアーキテクチャを提案する。我々は,BIOSCAN-5Mデータセットに対するアプローチを,200万以上のユニークなDNAバーコードから評価した。
論文参考訳（メタデータ） (2025-02-25T17:56:25Z)
PCP-MAE: Learning to Predict Centers for Point Masked Autoencoders [57.31790812209751]
マスクされたパッチの中央をエンコーダからの情報を使わずにデコーダに直接送る場合、依然としてよく再構築されていることを示す。ポイントマスキングオートエンコーダ(PCP-MAE)の予測センターへの学習という,シンプルで効果的な手法を提案する。本手法は他の方法と比較して事前学習効率が高く,Point-MAEよりも大幅に向上する。
論文参考訳（メタデータ） (2024-08-16T13:53:53Z)
Drop your Decoder: Pre-training with Bag-of-Word Prediction for Dense Passage Retrieval [26.00149743478937]
マスケードオートエンコーダの事前学習は,高密度検索システムの初期化・拡張技術として広く普及している。マスク付きオートエンコーダのデコーダを、完全に単純化されたBag-of-Word予測タスクに置き換えることで、従来のMAEの修正を提案する。提案手法は,新たなパラメータを必要とせずに,大規模検索ベンチマークにおける最先端の検索性能を実現する。
論文参考訳（メタデータ） (2024-01-20T15:02:33Z)
Regress Before Construct: Regress Autoencoder for Point Cloud Self-supervised Learning [18.10704604275133]
Masked Autoencoders (MAE) は、2Dおよび3Dコンピュータビジョンのための自己教師型学習において有望な性能を示した。我々は、ポイントクラウド自己教師型学習のための回帰オートエンコーダの新しいスキーム、Point Regress AutoEncoder (Point-RAE)を提案する。本手法は, 各種下流タスクの事前学習において効率よく, 一般化可能である。
論文参考訳（メタデータ） (2023-09-25T17:23:33Z)
SdAE: Self-distillated Masked Autoencoder [95.3684955370897]
本稿では,自己蒸留マスク付きオートエンコーダネットワークSdAEを提案する。 300エポックの事前トレーニングで、バニラViT-BaseモデルはImageNet-1k分類において84.1%の微調整精度を達成する。
論文参考訳（メタデータ） (2022-07-31T15:07:25Z)
Context Autoencoder for Self-Supervised Representation Learning [64.63908944426224]
符号化された表現空間で予測を行うことにより、符号化器を事前訓練する。ネットワークはエンコーダ/レグレッサ/デコーダアーキテクチャである。下流タスクにおける転送性能の向上によるCAEの有効性を実証する。
論文参考訳（メタデータ） (2022-02-07T09:33:45Z)
PeCo: Perceptual Codebook for BERT Pre-training of Vision Transformers [102.7922200135147]
本稿では、視覚変換器のBERT事前学習のためのより良いコードブックについて検討する。対照的に、NLPフィールドの離散トークンは自然に非常に意味がある。提案した知覚コードブックが生成する視覚的トークンは,より優れた意味を持つことを示す。
論文参考訳（メタデータ） (2021-11-24T18:59:58Z)
Masked Autoencoders Are Scalable Vision Learners [60.97703494764904]
Masked Autoencoders (MAE) は、コンピュータビジョンのためのスケーラブルな自己教師型学習システムである。我々は入力画像のランダムなパッチを隠蔽し、欠落したピクセルを再構成する。これら2つの設計を結合することで,大規模モデルを効率的かつ効率的にトレーニングすることが可能になります。
論文参考訳（メタデータ） (2021-11-11T18:46:40Z)
EncoderMI: Membership Inference against Pre-trained Encoders in Contrastive Learning [27.54202989524394]
コントラスト学習によって事前訓練された画像エンコーダに対する最初のメンバーシップ推論手法であるMIを提案する。複数のデータセットで事前学習した画像エンコーダと、OpenAIが収集した4億(画像、テキスト)のペアで事前学習したContrastive Language- Image Pre-training (CLIP)画像エンコーダの評価を行った。
論文参考訳（メタデータ） (2021-08-25T03:00:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。