論文の概要: SdAE: Self-distillated Masked Autoencoder
- arxiv url: http://arxiv.org/abs/2208.00449v1
- Date: Sun, 31 Jul 2022 15:07:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-02 13:54:05.130480
- Title: SdAE: Self-distillated Masked Autoencoder
- Title(参考訳): SdAE:自溶性マスクオートエンコーダ
- Authors: Yabo Chen, Yuchen Liu, Dongsheng Jiang, Xiaopeng Zhang, Wenrui Dai,
Hongkai Xiong, Qi Tian
- Abstract要約: 本稿では,自己蒸留マスク付きオートエンコーダネットワークSdAEを提案する。
300エポックの事前トレーニングで、バニラViT-BaseモデルはImageNet-1k分類において84.1%の微調整精度を達成する。
- 参考スコア(独自算出の注目度): 95.3684955370897
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the development of generative-based self-supervised learning (SSL)
approaches like BeiT and MAE, how to learn good representations by masking
random patches of the input image and reconstructing the missing information
has grown in concern. However, BeiT and PeCo need a "pre-pretraining" stage to
produce discrete codebooks for masked patches representing. MAE does not
require a pre-training codebook process, but setting pixels as reconstruction
targets may introduce an optimization gap between pre-training and downstream
tasks that good reconstruction quality may not always lead to the high
descriptive capability for the model. Considering the above issues, in this
paper, we propose a simple Self-distillated masked AutoEncoder network, namely
SdAE. SdAE consists of a student branch using an encoder-decoder structure to
reconstruct the missing information, and a teacher branch producing latent
representation of masked tokens. We also analyze how to build good views for
the teacher branch to produce latent representation from the perspective of
information bottleneck. After that, we propose a multi-fold masking strategy to
provide multiple masked views with balanced information for boosting the
performance, which can also reduce the computational complexity. Our approach
generalizes well: with only 300 epochs pre-training, a vanilla ViT-Base model
achieves an 84.1% fine-tuning accuracy on ImageNet-1k classification, 48.6 mIOU
on ADE20K segmentation, and 48.9 mAP on COCO detection, which surpasses other
methods by a considerable margin. Code is available at
https://github.com/AbrahamYabo/SdAE.
- Abstract(参考訳): BeiTやMAEのような生成型自己教師型学習(SSL)アプローチの開発により、入力画像のランダムパッチを隠蔽し、行方不明情報を再構築することで、優れた表現を学習する方法が懸念されている。
しかし、BeiTとPeCoは、マスクされたパッチを表す個別のコードブックを作成するために「事前事前訓練」段階を必要とする。
MAEはトレーニング済みのコードブックプロセスを必要としないが、再構成対象としてピクセルを設定することで、トレーニング前のタスクと下流タスクの最適化のギャップが生じる可能性がある。
本稿では, 上記の課題を考慮し, SdAEと呼ばれる簡易な自己蒸留マスク型オートエンコーダネットワークを提案する。
SdAEは、欠落した情報を再構築するためにエンコーダ・デコーダ構造を用いた学生ブランチと、マスク付きトークンの潜在表現を生成する教師ブランチで構成されている。
また,情報ボトルネックの観点から教師部門が潜在表現を生成するためのよい視点を構築する方法を分析する。
その後,マルチフォールドマスキング方式を提案し,複数のマスキングビューに対して,性能向上のためのバランスの取れた情報を提供することにより,計算複雑性の低減を図る。
提案手法は,300エポックの事前学習のみで,ImageNet-1k分類では84.1%の微調整精度,ADE20Kセグメントでは48.6mIOU,COCO検出では48.9mAP,その他の手法ではかなりの差がある。
コードはhttps://github.com/AbrahamYabo/SdAEで入手できる。
関連論文リスト
- Regress Before Construct: Regress Autoencoder for Point Cloud
Self-supervised Learning [18.10704604275133]
Masked Autoencoders (MAE) は、2Dおよび3Dコンピュータビジョンのための自己教師型学習において有望な性能を示した。
我々は、ポイントクラウド自己教師型学習のための回帰オートエンコーダの新しいスキーム、Point Regress AutoEncoder (Point-RAE)を提案する。
本手法は, 各種下流タスクの事前学習において効率よく, 一般化可能である。
論文 参考訳(メタデータ) (2023-09-25T17:23:33Z) - CL-MAE: Curriculum-Learned Masked Autoencoders [49.24994655813455]
本稿では,自己指導型再建作業の複雑さを継続的に増大させるために,マスキング戦略を更新するカリキュラム学習手法を提案する。
我々は、ImageNet上でCL-MAE(Curriculum-Learned Masked Autoencoder)をトレーニングし、MAEよりも優れた表現学習能力を示すことを示す。
論文 参考訳(メタデータ) (2023-08-31T09:13:30Z) - Masked Autoencoders are Efficient Class Incremental Learners [64.90846899051164]
クラスインクリメンタルラーニング(CIL)は,過去の知識の破滅的な忘れを回避しつつ,新しいクラスを逐次学習することを目的としている。
本稿では,CIL の学習に Masked Autoencoders (MAEs) を用いることを提案する。
論文 参考訳(メタデータ) (2023-08-24T02:49:30Z) - Not All Image Regions Matter: Masked Vector Quantization for
Autoregressive Image Generation [78.13793505707952]
既存の自己回帰モデルは、まず画像再構成のための潜伏空間のコードブックを学習し、学習したコードブックに基づいて自己回帰的に画像生成を完了する2段階生成パラダイムに従っている。
そこで本研究では,Masked Quantization VAE (MQ-VAE) Stackモデルを用いた2段階フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-23T02:15:53Z) - Improving Masked Autoencoders by Learning Where to Mask [65.89510231743692]
マスケ画像モデリングは視覚データに対する有望な自己教師型学習手法である。
本稿では,Gumbel-Softmax を用いて,対向学習マスク生成装置とマスク誘導画像モデリングプロセスとを相互接続するフレームワーク AutoMAE を提案する。
実験の結果,AutoMAEは,標準の自己監督型ベンチマークや下流タスクに対して,効果的な事前学習モデルを提供することがわかった。
論文 参考訳(メタデータ) (2023-03-12T05:28:55Z) - Good helper is around you: Attention-driven Masked Image Modeling [12.961634455083775]
マスク付き画像モデリング(MIM)は自己教師あり学習において大きな可能性を示している。
我々は,textbfAttention-driven Masking and Throwing Strategy (AMT)を提案する。
AMTは、CIFAR-10/100、STL-10、Tiny ImageNet、ImageNet-1KでMAEの線形探索精度を$2.9%改善した。
論文 参考訳(メタデータ) (2022-11-28T14:38:19Z) - Masked Autoencoders for Point Cloud Self-supervised Learning [27.894216954216716]
本稿では,ポイントクラウドによる自己教師型学習のためのマスク付きオートエンコーダの巧妙なスキームを提案する。
入力点雲を不規則点パッチに分割し、ランダムに高い比で隠蔽する。
標準のトランスフォーマーベースのオートエンコーダは、非対称な設計とシフトマスクトークン操作を備え、非マスク点パッチから高い遅延特徴を学習する。
論文 参考訳(メタデータ) (2022-03-13T09:23:39Z) - Masked Autoencoders Are Scalable Vision Learners [60.97703494764904]
Masked Autoencoders (MAE) は、コンピュータビジョンのためのスケーラブルな自己教師型学習システムである。
我々は入力画像のランダムなパッチを隠蔽し、欠落したピクセルを再構成する。
これら2つの設計を結合することで,大規模モデルを効率的かつ効率的にトレーニングすることが可能になります。
論文 参考訳(メタデータ) (2021-11-11T18:46:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。