論文の概要: A Survey on Masked Autoencoder for Self-supervised Learning in Vision
and Beyond
- arxiv url: http://arxiv.org/abs/2208.00173v1
- Date: Sat, 30 Jul 2022 09:59:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-02 12:41:34.370780
- Title: A Survey on Masked Autoencoder for Self-supervised Learning in Vision
and Beyond
- Title(参考訳): 視覚外における自己教師型学習のためのマスクオートエンコーダの検討
- Authors: Chaoning Zhang, Chenshuang Zhang, Junha Song, John Seon Keun Yi, Kang
Zhang, In So Kweon
- Abstract要約: 視覚における自己教師付き学習(SSL)は、NLPと同様の軌道をとる可能性がある。
マスク付き予測(例えばBERT)による生成前文タスクは、NLPにおけるデファクトスタンダードSSLプラクティスとなっている。
マスク画像モデリングの成功により、マスキングオートエンコーダが復活した。
- 参考スコア(独自算出の注目度): 64.85076239939336
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Masked autoencoders are scalable vision learners, as the title of MAE
\cite{he2022masked}, which suggests that self-supervised learning (SSL) in
vision might undertake a similar trajectory as in NLP. Specifically, generative
pretext tasks with the masked prediction (e.g., BERT) have become a de facto
standard SSL practice in NLP. By contrast, early attempts at generative methods
in vision have been buried by their discriminative counterparts (like
contrastive learning); however, the success of mask image modeling has revived
the masking autoencoder (often termed denoising autoencoder in the past). As a
milestone to bridge the gap with BERT in NLP, masked autoencoder has attracted
unprecedented attention for SSL in vision and beyond. This work conducts a
comprehensive survey of masked autoencoders to shed insight on a promising
direction of SSL. As the first to review SSL with masked autoencoders, this
work focuses on its application in vision by discussing its historical
developments, recent progress, and implications for diverse applications.
- Abstract(参考訳): MAE \cite{he2022masked} というタイトルは、視覚における自己教師型学習(SSL)がNLPと同様の軌道を取ることを示唆している。
具体的には、マスク付き予測(例えばBERT)による生成前文タスクは、NLPにおけるデファクトスタンダードSSLプラクティスとなっている。
対照的に、視覚における生成的手法の初期の試みは、(対照的な学習のような)識別的手法によって埋められたが、マスク画像モデリングの成功は、マスキングオートエンコーダ(過去にはデノイングオートエンコーダ(denoising autoencoder)と呼ばれた)を復活させた。
NLPにおけるBERTとのギャップを埋めるマイルストーンとして、マスク付きオートエンコーダは、視界やそれ以上でSSLに前例のない注目を集めている。
この研究は、SSLの有望な方向性に関する洞察を隠蔽するために、マスク付きオートエンコーダの包括的な調査を実施している。
sslをマスキングオートエンコーダでレビューした最初のものとして、その歴史的発展、最近の進歩、そして多様なアプリケーションに対する影響を議論することで、そのビジョンにおけるアプリケーションに焦点を当てている。
関連論文リスト
- Efficient Multi-modal Large Language Models via Visual Token Grouping [55.482198808206284]
高解像度の画像やビデオは、彼らの広く普及するための障壁となる。
MLLMにおける視覚トークンの圧縮は、推論コストを削減するための有望なアプローチとして現れている。
本稿では,事前学習した視覚エンコーダの能力を利用して類似画像セグメントをグループ化する,新たなグループ化機構であるVisToGを紹介する。
論文 参考訳(メタデータ) (2024-11-26T09:36:02Z) - Bringing Masked Autoencoders Explicit Contrastive Properties for Point Cloud Self-Supervised Learning [116.75939193785143]
画像領域における視覚変換器(ViT)のコントラスト学習(CL)は、従来の畳み込みバックボーンのCLに匹敵する性能を達成した。
ViTで事前訓練した3Dポイントクラウドでは、マスク付きオートエンコーダ(MAE)モデリングが主流である。
論文 参考訳(メタデータ) (2024-07-08T12:28:56Z) - CochCeps-Augment: A Novel Self-Supervised Contrastive Learning Using
Cochlear Cepstrum-based Masking for Speech Emotion Recognition [5.974778743092437]
CochCeps-Augmentは、音声表現の自己教師付きコントラスト学習のための、バイオインスパイアされたマスキング強化タスクである。
以上の結果から,CochCeps-Augmentが音声感情認識解析の標準ツールとなる可能性が示唆された。
論文 参考訳(メタデータ) (2024-02-10T11:13:13Z) - Forecast-MAE: Self-supervised Pre-training for Motion Forecasting with
Masked Autoencoders [7.133110402648305]
本研究では,自己教師型学習の動作予測への応用について検討する。
Forecast-MAEは、モーション予測タスクの自己教師型学習用に特別に設計されたマスクオートエンコーダフレームワークの拡張である。
論文 参考訳(メタデータ) (2023-08-19T02:27:51Z) - Learning to Mask and Permute Visual Tokens for Vision Transformer Pre-Training [55.12082817901671]
我々はMasked and Permuted Vision Transformer(MaPeT)という自己教師型事前学習手法を提案する。
MaPeTは、自動回帰および置換予測を使用して、パッチ内依存関係をキャプチャする。
以上の結果から,MaPeTはベースラインやコンペティターと同一のモデル設定で比較して,ImageNet上での競合性能を実証した。
論文 参考訳(メタデータ) (2023-06-12T18:12:19Z) - Improving self-supervised representation learning via sequential
adversarial masking [12.176299580413097]
マスキングベースのプレテキストタスクはNLPを超えて拡張され、コンピュータビジョンにおいて有用な事前学習の目的として機能する。
敵に異なる制約で連続的にマスクを生成する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2022-12-16T04:25:43Z) - MaskCLIP: Masked Self-Distillation Advances Contrastive Language-Image
Pretraining [138.86293836634323]
MaskCLIPは、新たに提案されたマスク付き自己蒸留をコントラスト言語イメージ事前学習に組み込む。
MaskCLIPは、言語エンコーダの誘導により、線形探索、微調整、ゼロショット性能において優れた結果が得られる。
論文 参考訳(メタデータ) (2022-08-25T17:59:58Z) - Adapting Self-Supervised Vision Transformers by Probing
Attention-Conditioned Masking Consistency [7.940705941237998]
自己教師型 ViT のための単純な2段階適応アルゴリズムである PACMAC を提案する。
私たちの単純なアプローチは、競合するメソッドよりも一貫したパフォーマンス向上につながります。
論文 参考訳(メタデータ) (2022-06-16T14:46:10Z) - Self-Supervised Visual Representations Learning by Contrastive Mask
Prediction [129.25459808288025]
視覚表現学習のための新しいコントラストマスク予測(CMP)タスクを提案する。
MaskCoは、ビューレベルの機能ではなく、リージョンレベルの機能と対比している。
我々は、ImageNet以外のデータセットのトレーニングでMaskCoを評価し、そのパフォーマンスをMoCo V2と比較した。
論文 参考訳(メタデータ) (2021-08-18T02:50:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。