論文の概要: A Survey on Masked Autoencoder for Self-supervised Learning in Vision
and Beyond
- arxiv url: http://arxiv.org/abs/2208.00173v1
- Date: Sat, 30 Jul 2022 09:59:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-02 12:41:34.370780
- Title: A Survey on Masked Autoencoder for Self-supervised Learning in Vision
and Beyond
- Title(参考訳): 視覚外における自己教師型学習のためのマスクオートエンコーダの検討
- Authors: Chaoning Zhang, Chenshuang Zhang, Junha Song, John Seon Keun Yi, Kang
Zhang, In So Kweon
- Abstract要約: 視覚における自己教師付き学習(SSL)は、NLPと同様の軌道をとる可能性がある。
マスク付き予測(例えばBERT)による生成前文タスクは、NLPにおけるデファクトスタンダードSSLプラクティスとなっている。
マスク画像モデリングの成功により、マスキングオートエンコーダが復活した。
- 参考スコア(独自算出の注目度): 64.85076239939336
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Masked autoencoders are scalable vision learners, as the title of MAE
\cite{he2022masked}, which suggests that self-supervised learning (SSL) in
vision might undertake a similar trajectory as in NLP. Specifically, generative
pretext tasks with the masked prediction (e.g., BERT) have become a de facto
standard SSL practice in NLP. By contrast, early attempts at generative methods
in vision have been buried by their discriminative counterparts (like
contrastive learning); however, the success of mask image modeling has revived
the masking autoencoder (often termed denoising autoencoder in the past). As a
milestone to bridge the gap with BERT in NLP, masked autoencoder has attracted
unprecedented attention for SSL in vision and beyond. This work conducts a
comprehensive survey of masked autoencoders to shed insight on a promising
direction of SSL. As the first to review SSL with masked autoencoders, this
work focuses on its application in vision by discussing its historical
developments, recent progress, and implications for diverse applications.
- Abstract(参考訳): MAE \cite{he2022masked} というタイトルは、視覚における自己教師型学習(SSL)がNLPと同様の軌道を取ることを示唆している。
具体的には、マスク付き予測(例えばBERT)による生成前文タスクは、NLPにおけるデファクトスタンダードSSLプラクティスとなっている。
対照的に、視覚における生成的手法の初期の試みは、(対照的な学習のような)識別的手法によって埋められたが、マスク画像モデリングの成功は、マスキングオートエンコーダ(過去にはデノイングオートエンコーダ(denoising autoencoder)と呼ばれた)を復活させた。
NLPにおけるBERTとのギャップを埋めるマイルストーンとして、マスク付きオートエンコーダは、視界やそれ以上でSSLに前例のない注目を集めている。
この研究は、SSLの有望な方向性に関する洞察を隠蔽するために、マスク付きオートエンコーダの包括的な調査を実施している。
sslをマスキングオートエンコーダでレビューした最初のものとして、その歴史的発展、最近の進歩、そして多様なアプリケーションに対する影響を議論することで、そのビジョンにおけるアプリケーションに焦点を当てている。
関連論文リスト
- Bringing Masked Autoencoders Explicit Contrastive Properties for Point Cloud Self-Supervised Learning [116.75939193785143]
画像領域における視覚変換器(ViT)のコントラスト学習(CL)は、従来の畳み込みバックボーンのCLに匹敵する性能を達成した。
ViTで事前訓練した3Dポイントクラウドでは、マスク付きオートエンコーダ(MAE)モデリングが主流である。
論文 参考訳(メタデータ) (2024-07-08T12:28:56Z) - CochCeps-Augment: A Novel Self-Supervised Contrastive Learning Using
Cochlear Cepstrum-based Masking for Speech Emotion Recognition [5.974778743092437]
CochCeps-Augmentは、音声表現の自己教師付きコントラスト学習のための、バイオインスパイアされたマスキング強化タスクである。
以上の結果から,CochCeps-Augmentが音声感情認識解析の標準ツールとなる可能性が示唆された。
論文 参考訳(メタデータ) (2024-02-10T11:13:13Z) - Forecast-MAE: Self-supervised Pre-training for Motion Forecasting with
Masked Autoencoders [7.133110402648305]
本研究では,自己教師型学習の動作予測への応用について検討する。
Forecast-MAEは、モーション予測タスクの自己教師型学習用に特別に設計されたマスクオートエンコーダフレームワークの拡張である。
論文 参考訳(メタデータ) (2023-08-19T02:27:51Z) - Learning to Mask and Permute Visual Tokens for Vision Transformer
Pre-Training [59.923672191632065]
我々はMasked and Permuted Vision Transformer(MaPeT)という自己教師型事前学習手法を提案する。
MaPeTは、自動回帰および置換予測を使用して、パッチ内依存関係をキャプチャする。
以上の結果から,MaPeTはImageNet上での競合性能を実証した。
論文 参考訳(メタデータ) (2023-06-12T18:12:19Z) - Improving self-supervised representation learning via sequential
adversarial masking [12.176299580413097]
マスキングベースのプレテキストタスクはNLPを超えて拡張され、コンピュータビジョンにおいて有用な事前学習の目的として機能する。
敵に異なる制約で連続的にマスクを生成する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2022-12-16T04:25:43Z) - MaskCLIP: Masked Self-Distillation Advances Contrastive Language-Image
Pretraining [138.86293836634323]
MaskCLIPは、新たに提案されたマスク付き自己蒸留をコントラスト言語イメージ事前学習に組み込む。
MaskCLIPは、言語エンコーダの誘導により、線形探索、微調整、ゼロショット性能において優れた結果が得られる。
論文 参考訳(メタデータ) (2022-08-25T17:59:58Z) - Adapting Self-Supervised Vision Transformers by Probing
Attention-Conditioned Masking Consistency [7.940705941237998]
自己教師型 ViT のための単純な2段階適応アルゴリズムである PACMAC を提案する。
私たちの単純なアプローチは、競合するメソッドよりも一貫したパフォーマンス向上につながります。
論文 参考訳(メタデータ) (2022-06-16T14:46:10Z) - Adversarial Masking for Self-Supervised Learning [81.25999058340997]
自己教師付き学習のためのマスク付き画像モデル(MIM)フレームワークであるADIOSを提案する。
対向目的物を用いてマスキング機能と画像エンコーダを同時に学習する。
さまざまなタスクやデータセットに対する最先端の自己教師付き学習(SSL)メソッドを一貫して改善する。
論文 参考訳(メタデータ) (2022-01-31T10:23:23Z) - Self-Supervised Visual Representations Learning by Contrastive Mask
Prediction [129.25459808288025]
視覚表現学習のための新しいコントラストマスク予測(CMP)タスクを提案する。
MaskCoは、ビューレベルの機能ではなく、リージョンレベルの機能と対比している。
我々は、ImageNet以外のデータセットのトレーニングでMaskCoを評価し、そのパフォーマンスをMoCo V2と比較した。
論文 参考訳(メタデータ) (2021-08-18T02:50:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。