論文の概要: SdAE: Self-distillated Masked Autoencoder
- arxiv url: http://arxiv.org/abs/2208.00449v1
- Date: Sun, 31 Jul 2022 15:07:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-02 13:54:05.130480
- Title: SdAE: Self-distillated Masked Autoencoder
- Title(参考訳): SdAE:自溶性マスクオートエンコーダ
- Authors: Yabo Chen, Yuchen Liu, Dongsheng Jiang, Xiaopeng Zhang, Wenrui Dai,
Hongkai Xiong, Qi Tian
- Abstract要約: 本稿では,自己蒸留マスク付きオートエンコーダネットワークSdAEを提案する。
300エポックの事前トレーニングで、バニラViT-BaseモデルはImageNet-1k分類において84.1%の微調整精度を達成する。
- 参考スコア(独自算出の注目度): 95.3684955370897
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the development of generative-based self-supervised learning (SSL)
approaches like BeiT and MAE, how to learn good representations by masking
random patches of the input image and reconstructing the missing information
has grown in concern. However, BeiT and PeCo need a "pre-pretraining" stage to
produce discrete codebooks for masked patches representing. MAE does not
require a pre-training codebook process, but setting pixels as reconstruction
targets may introduce an optimization gap between pre-training and downstream
tasks that good reconstruction quality may not always lead to the high
descriptive capability for the model. Considering the above issues, in this
paper, we propose a simple Self-distillated masked AutoEncoder network, namely
SdAE. SdAE consists of a student branch using an encoder-decoder structure to
reconstruct the missing information, and a teacher branch producing latent
representation of masked tokens. We also analyze how to build good views for
the teacher branch to produce latent representation from the perspective of
information bottleneck. After that, we propose a multi-fold masking strategy to
provide multiple masked views with balanced information for boosting the
performance, which can also reduce the computational complexity. Our approach
generalizes well: with only 300 epochs pre-training, a vanilla ViT-Base model
achieves an 84.1% fine-tuning accuracy on ImageNet-1k classification, 48.6 mIOU
on ADE20K segmentation, and 48.9 mAP on COCO detection, which surpasses other
methods by a considerable margin. Code is available at
https://github.com/AbrahamYabo/SdAE.
- Abstract(参考訳): BeiTやMAEのような生成型自己教師型学習(SSL)アプローチの開発により、入力画像のランダムパッチを隠蔽し、行方不明情報を再構築することで、優れた表現を学習する方法が懸念されている。
しかし、BeiTとPeCoは、マスクされたパッチを表す個別のコードブックを作成するために「事前事前訓練」段階を必要とする。
MAEはトレーニング済みのコードブックプロセスを必要としないが、再構成対象としてピクセルを設定することで、トレーニング前のタスクと下流タスクの最適化のギャップが生じる可能性がある。
本稿では, 上記の課題を考慮し, SdAEと呼ばれる簡易な自己蒸留マスク型オートエンコーダネットワークを提案する。
SdAEは、欠落した情報を再構築するためにエンコーダ・デコーダ構造を用いた学生ブランチと、マスク付きトークンの潜在表現を生成する教師ブランチで構成されている。
また,情報ボトルネックの観点から教師部門が潜在表現を生成するためのよい視点を構築する方法を分析する。
その後,マルチフォールドマスキング方式を提案し,複数のマスキングビューに対して,性能向上のためのバランスの取れた情報を提供することにより,計算複雑性の低減を図る。
提案手法は,300エポックの事前学習のみで,ImageNet-1k分類では84.1%の微調整精度,ADE20Kセグメントでは48.6mIOU,COCO検出では48.9mAP,その他の手法ではかなりの差がある。
コードはhttps://github.com/AbrahamYabo/SdAEで入手できる。
関連論文リスト
- Adapting LLaMA Decoder to Vision Transformer [65.47663195233802]
本研究は,LLaMAなどのデコーダのみのトランスフォーマーをコンピュータビジョン分野に適用できるかどうかを検討する。
まず、LLaMAのアーキテクチャと整合する標準的なViTを「LLaMAfy」と呼び、自己注意に因果マスクを直接適用することで、注意崩壊の問題が生じる。
我々は,訓練開始時の自己注意に因果マスクを徐々に導入し,最適化行動を容易にするソフトマスク戦略を開発する。
論文 参考訳(メタデータ) (2024-04-10T06:30:08Z) - Regress Before Construct: Regress Autoencoder for Point Cloud
Self-supervised Learning [18.10704604275133]
Masked Autoencoders (MAE) は、2Dおよび3Dコンピュータビジョンのための自己教師型学習において有望な性能を示した。
我々は、ポイントクラウド自己教師型学習のための回帰オートエンコーダの新しいスキーム、Point Regress AutoEncoder (Point-RAE)を提案する。
本手法は, 各種下流タスクの事前学習において効率よく, 一般化可能である。
論文 参考訳(メタデータ) (2023-09-25T17:23:33Z) - CL-MAE: Curriculum-Learned Masked Autoencoders [49.24994655813455]
本稿では,自己指導型再建作業の複雑さを継続的に増大させるために,マスキング戦略を更新するカリキュラム学習手法を提案する。
我々は、ImageNet上でCL-MAE(Curriculum-Learned Masked Autoencoder)をトレーニングし、MAEよりも優れた表現学習能力を示すことを示す。
論文 参考訳(メタデータ) (2023-08-31T09:13:30Z) - Masked Autoencoders are Efficient Class Incremental Learners [64.90846899051164]
クラスインクリメンタルラーニング(CIL)は,過去の知識の破滅的な忘れを回避しつつ,新しいクラスを逐次学習することを目的としている。
本稿では,CIL の学習に Masked Autoencoders (MAEs) を用いることを提案する。
論文 参考訳(メタデータ) (2023-08-24T02:49:30Z) - MOCA: Self-supervised Representation Learning by Predicting Masked Online Codebook Assignments [72.6405488990753]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。
所望のプロパティを統一する単段および単段のMOCAを提案する。
我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2023-07-18T15:46:20Z) - MAGE: MAsked Generative Encoder to Unify Representation Learning and
Image Synthesis [33.46831766206675]
MASked Generative (MAGE)は、SOTA画像生成と自己教師付き表現学習を統合するための最初のフレームワークである。
以前の生成モデルにインスパイアされたMAGEは、入力と出力でベクトル量子化されたGANによって学習された意味トークンを使用する。
ImageNet-1Kでは、1つのMAGE ViT-Lモデルがクラス非条件画像生成のタスクで9.10 FIDを得る。
論文 参考訳(メタデータ) (2022-11-16T18:59:02Z) - Masked Autoencoders for Point Cloud Self-supervised Learning [27.894216954216716]
本稿では,ポイントクラウドによる自己教師型学習のためのマスク付きオートエンコーダの巧妙なスキームを提案する。
入力点雲を不規則点パッチに分割し、ランダムに高い比で隠蔽する。
標準のトランスフォーマーベースのオートエンコーダは、非対称な設計とシフトマスクトークン操作を備え、非マスク点パッチから高い遅延特徴を学習する。
論文 参考訳(メタデータ) (2022-03-13T09:23:39Z) - Masked Autoencoders Are Scalable Vision Learners [60.97703494764904]
Masked Autoencoders (MAE) は、コンピュータビジョンのためのスケーラブルな自己教師型学習システムである。
我々は入力画像のランダムなパッチを隠蔽し、欠落したピクセルを再構成する。
これら2つの設計を結合することで,大規模モデルを効率的かつ効率的にトレーニングすることが可能になります。
論文 参考訳(メタデータ) (2021-11-11T18:46:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。