論文の概要: Mimic before Reconstruct: Enhancing Masked Autoencoders with Feature
Mimicking
- arxiv url: http://arxiv.org/abs/2303.05475v1
- Date: Thu, 9 Mar 2023 18:28:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-10 13:36:40.644214
- Title: Mimic before Reconstruct: Enhancing Masked Autoencoders with Feature
Mimicking
- Title(参考訳): 再構築前のミス: 機能ミスによるマスクオートエンコーダの強化
- Authors: Peng Gao, Renrui Zhang, Rongyao Fang, Ziyi Lin, Hongyang Li, Hongsheng
Li, Qiao Yu
- Abstract要約: Masked Autoencoders (MAE) は、大規模な視覚表現事前学習のパラダイムとして人気がある。
本稿では,事前学習中に干渉なく高次・低次表現を共同学習するMR-MAEを提案する。
ImageNet-1Kでは、400エポックで事前訓練されたMR-MAEベースが、微調整後の85.8%のトップ1の精度を実現している。
- 参考スコア(独自算出の注目度): 35.11620617064127
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Masked Autoencoders (MAE) have been popular paradigms for large-scale vision
representation pre-training. However, MAE solely reconstructs the low-level RGB
signals after the decoder and lacks supervision upon high-level semantics for
the encoder, thus suffering from sub-optimal learned representations and long
pre-training epochs. To alleviate this, previous methods simply replace the
pixel reconstruction targets of 75% masked tokens by encoded features from
pre-trained image-image (DINO) or image-language (CLIP) contrastive learning.
Different from those efforts, we propose to Mimic before Reconstruct for Masked
Autoencoders, named as MR-MAE, which jointly learns high-level and low-level
representations without interference during pre-training. For high-level
semantics, MR-MAE employs a mimic loss over 25% visible tokens from the encoder
to capture the pre-trained patterns encoded in CLIP and DINO. For low-level
structures, we inherit the reconstruction loss in MAE to predict RGB pixel
values for 75% masked tokens after the decoder. As MR-MAE applies high-level
and low-level targets respectively at different partitions, the learning
conflicts between them can be naturally overcome and contribute to superior
visual representations for various downstream tasks. On ImageNet-1K, the MR-MAE
base pre-trained for only 400 epochs achieves 85.8% top-1 accuracy after
fine-tuning, surpassing the 1600-epoch MAE base by +2.2% and the previous
state-of-the-art BEiT V2 base by +0.3%. Code and pre-trained models will be
released at https://github.com/Alpha-VL/ConvMAE.
- Abstract(参考訳): Masked Autoencoders (MAE) は、大規模な視覚表現事前学習のパラダイムとして人気がある。
しかし、maeはデコーダの後に低レベルなrgb信号のみを再構成し、エンコーダの高レベルセマンティクスの監督を欠いているため、低レベルな学習表現と長い事前学習期間に苦しむ。
これを軽減するために、従来の手法は、事前訓練された画像イメージ(DINO)や画像言語(CLIP)のコントラスト学習の特徴を符号化することで、75%のマスク付きトークンの画素再構成ターゲットを置き換える。
これらの取り組みと異なり,mr-maeと呼ばれるマスク付きオートエンコーダでは,事前学習時に干渉なくハイレベル表現と低レベル表現を同時に学習する。
高レベルのセマンティクスでは、MR-MAEは、CLIPとDINOで符号化されたトレーニング済みのパターンをキャプチャするために、エンコーダから25%以上の可視トークンを模倣する。
低レベルの構造では、maeの再構成損失を継承し、デコーダの後に75%のマスキングトークンのrgbピクセル値を予測する。
MR-MAEは、それぞれ異なるパーティションに高レベルと低レベルのターゲットを適用するため、それらの間の学習競合は自然に克服され、様々な下流タスクにおいて優れた視覚表現に寄与する。
ImageNet-1Kでは、400エポックで事前訓練されたMR-MAEベースは、微調整後に85.8%の精度で、1600エポックのMAEベースを+2.2%、最先端のBEiT V2ベースを+0.3%上回る。
コードと事前トレーニングされたモデルはhttps://github.com/Alpha-VL/ConvMAE.comでリリースされる。
関連論文リスト
- PixMIM: Rethinking Pixel Reconstruction in Masked Image Modeling [83.67628239775878]
Masked Image Modeling (MIM) は Masked Autoencoders (MAE) と BEiT の出現によって有望な進歩を遂げた。
本稿では,画素再構成の観点からMIMの基本解析を行う。
我々は,2つの戦略を包含する極めて単純で効果的な方法,weelmethodを提案する。
論文 参考訳(メタデータ) (2023-03-04T13:38:51Z) - FastMIM: Expediting Masked Image Modeling Pre-training for Vision [65.47756720190155]
FastMIMは低解像度の入力画像で視覚バックボーンを事前訓練するためのフレームワークである。
入力画像のRGB値の代わりに、向き付け勾配のヒストグラム(Histograms of Oriented Gradients,HOG)機能を再構成する。
ViT-B/Swin-Bをバックボーンとし、ImageNet-1Kで83.8%/84.1%のトップ1の精度を達成できる。
論文 参考訳(メタデータ) (2022-12-13T14:09:32Z) - BEiT v2: Masked Image Modeling with Vector-Quantized Visual Tokenizers [117.79456335844439]
マスク付き予測のための再構成ターゲットとして,セマンティックリッチなビジュアルトークン化器を提案する。
次に、マスクされた画像パッチに対する元の視覚トークンを予測して、視覚変換器を事前訓練する。
画像分類とセマンティックセグメンテーションの実験は、我々のアプローチがMIM法よりも優れていることを示している。
論文 参考訳(メタデータ) (2022-08-12T16:48:10Z) - MILAN: Masked Image Pretraining on Language Assisted Representation [30.24762638226569]
本研究では,MILANと呼ばれる言語支援表現に基づくマスク付き画像事前学習を提案する。
生のピクセルや低レベルの特徴を予測するのではなく、画像の特徴を意味のある信号で再構築することを目的としています。
実験の結果,MILANは従来よりも精度が高いことがわかった。
論文 参考訳(メタデータ) (2022-08-11T21:58:36Z) - SdAE: Self-distillated Masked Autoencoder [95.3684955370897]
本稿では,自己蒸留マスク付きオートエンコーダネットワークSdAEを提案する。
300エポックの事前トレーニングで、バニラViT-BaseモデルはImageNet-1k分類において84.1%の微調整精度を達成する。
論文 参考訳(メタデータ) (2022-07-31T15:07:25Z) - ConvMAE: Masked Convolution Meets Masked Autoencoders [65.15953258300958]
機能事前トレーニングとマルチスケールハイブリッド畳み込み変換アーキテクチャのためのマスク付き自動エンコーディングは、ViTの可能性をさらに解き放つことができる。
我々のConvMAEフレームワークは、マスクの自動符号化方式により、マルチスケールのハイブリッド畳み込み変換器がより識別的な表現を学習できることを実証している。
事前訓練したConvMAEモデルに基づいて、ConvMAE-Baseは画像Net-1Kの微調整精度をMAE-Baseと比較して1.4%改善する。
論文 参考訳(メタデータ) (2022-05-08T15:12:19Z) - Masked Autoencoders Are Scalable Vision Learners [60.97703494764904]
Masked Autoencoders (MAE) は、コンピュータビジョンのためのスケーラブルな自己教師型学習システムである。
我々は入力画像のランダムなパッチを隠蔽し、欠落したピクセルを再構成する。
これら2つの設計を結合することで,大規模モデルを効率的かつ効率的にトレーニングすることが可能になります。
論文 参考訳(メタデータ) (2021-11-11T18:46:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。