Fugu-MT 論文翻訳(概要): A Survey on Masked Autoencoder for Self-supervised Learning in Vision and Beyond

論文の概要: A Survey on Masked Autoencoder for Self-supervised Learning in Vision and Beyond

arxiv url: http://arxiv.org/abs/2208.00173v1
Date: Sat, 30 Jul 2022 09:59:28 GMT
ステータス: 翻訳完了
システム内更新日: 2022-08-02 12:41:34.370780
Title: A Survey on Masked Autoencoder for Self-supervised Learning in Vision and Beyond
Title（参考訳）: 視覚外における自己教師型学習のためのマスクオートエンコーダの検討
Authors: Chaoning Zhang, Chenshuang Zhang, Junha Song, John Seon Keun Yi, Kang Zhang, In So Kweon
Abstract要約: 視覚における自己教師付き学習(SSL)は、NLPと同様の軌道をとる可能性がある。マスク付き予測(例えばBERT)による生成前文タスクは、NLPにおけるデファクトスタンダードSSLプラクティスとなっている。マスク画像モデリングの成功により、マスキングオートエンコーダが復活した。
参考スコア（独自算出の注目度）: 64.85076239939336
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Masked autoencoders are scalable vision learners, as the title of MAE \cite{he2022masked}, which suggests that self-supervised learning (SSL) in vision might undertake a similar trajectory as in NLP. Specifically, generative pretext tasks with the masked prediction (e.g., BERT) have become a de facto standard SSL practice in NLP. By contrast, early attempts at generative methods in vision have been buried by their discriminative counterparts (like contrastive learning); however, the success of mask image modeling has revived the masking autoencoder (often termed denoising autoencoder in the past). As a milestone to bridge the gap with BERT in NLP, masked autoencoder has attracted unprecedented attention for SSL in vision and beyond. This work conducts a comprehensive survey of masked autoencoders to shed insight on a promising direction of SSL. As the first to review SSL with masked autoencoders, this work focuses on its application in vision by discussing its historical developments, recent progress, and implications for diverse applications.
Abstract（参考訳）: MAE \cite{he2022masked} というタイトルは、視覚における自己教師型学習(SSL)がNLPと同様の軌道を取ることを示唆している。具体的には、マスク付き予測(例えばBERT)による生成前文タスクは、NLPにおけるデファクトスタンダードSSLプラクティスとなっている。対照的に、視覚における生成的手法の初期の試みは、(対照的な学習のような)識別的手法によって埋められたが、マスク画像モデリングの成功は、マスキングオートエンコーダ(過去にはデノイングオートエンコーダ(denoising autoencoder)と呼ばれた)を復活させた。 NLPにおけるBERTとのギャップを埋めるマイルストーンとして、マスク付きオートエンコーダは、視界やそれ以上でSSLに前例のない注目を集めている。この研究は、SSLの有望な方向性に関する洞察を隠蔽するために、マスク付きオートエンコーダの包括的な調査を実施している。 sslをマスキングオートエンコーダでレビューした最初のものとして、その歴史的発展、最近の進歩、そして多様なアプリケーションに対する影響を議論することで、そのビジョンにおけるアプリケーションに焦点を当てている。

関連論文リスト

Self-Guided Masked Autoencoder [16.96990728780005]
Masked Autoencoder (MAE) は表現学習のための自己教師型アプローチである。パッチクラスタリングの進展を利用して内部的に情報マスクを生成する自己誘導マスク自動エンコーダを提案する。
論文参考訳（メタデータ） (2025-07-26T03:48:12Z)
Multi-Scale Neighborhood Occupancy Masked Autoencoder for Self-Supervised Learning in LiDAR Point Clouds [9.994719163112416]
Masked Autoencoders (MAE) は、視覚以降の自己教師型学習(SSL)において、大きな可能性を秘めている。自動走行に使用されるLiDARの点雲は、3Dボリュームの大部分を空いているため、MAEにとって特に困難である。本研究では,マスク付き占有再建を非マスクボクセルの近傍にのみ導入することで,上記の課題を克服する新しい近隣居住環境(NomaE)を提案する。
論文参考訳（メタデータ） (2025-02-27T17:42:47Z)
Efficient Multi-modal Large Language Models via Visual Token Grouping [55.482198808206284]
高解像度の画像やビデオは、彼らの広く普及するための障壁となる。 MLLMにおける視覚トークンの圧縮は、推論コストを削減するための有望なアプローチとして現れている。本稿では,事前学習した視覚エンコーダの能力を利用して類似画像セグメントをグループ化する,新たなグループ化機構であるVisToGを紹介する。
論文参考訳（メタデータ） (2024-11-26T09:36:02Z)
Bringing Masked Autoencoders Explicit Contrastive Properties for Point Cloud Self-Supervised Learning [116.75939193785143]
画像領域における視覚変換器(ViT)のコントラスト学習(CL)は、従来の畳み込みバックボーンのCLに匹敵する性能を達成した。 ViTで事前訓練した3Dポイントクラウドでは、マスク付きオートエンコーダ(MAE)モデリングが主流である。
論文参考訳（メタデータ） (2024-07-08T12:28:56Z)
CochCeps-Augment: A Novel Self-Supervised Contrastive Learning Using Cochlear Cepstrum-based Masking for Speech Emotion Recognition [5.974778743092437]
CochCeps-Augmentは、音声表現の自己教師付きコントラスト学習のための、バイオインスパイアされたマスキング強化タスクである。以上の結果から,CochCeps-Augmentが音声感情認識解析の標準ツールとなる可能性が示唆された。
論文参考訳（メタデータ） (2024-02-10T11:13:13Z)
Forecast-MAE: Self-supervised Pre-training for Motion Forecasting with Masked Autoencoders [7.133110402648305]
本研究では,自己教師型学習の動作予測への応用について検討する。 Forecast-MAEは、モーション予測タスクの自己教師型学習用に特別に設計されたマスクオートエンコーダフレームワークの拡張である。
論文参考訳（メタデータ） (2023-08-19T02:27:51Z)
Learning to Mask and Permute Visual Tokens for Vision Transformer Pre-Training [59.923672191632065]
我々はMasked and Permuted Vision Transformer(MaPeT)という自己教師型事前学習手法を提案する。 MaPeTは、自動回帰および置換予測を使用して、パッチ内依存関係をキャプチャする。以上の結果から,MaPeTはImageNet上での競合性能を実証した。
論文参考訳（メタデータ） (2023-06-12T18:12:19Z)
Improving self-supervised representation learning via sequential adversarial masking [12.176299580413097]
マスキングベースのプレテキストタスクはNLPを超えて拡張され、コンピュータビジョンにおいて有用な事前学習の目的として機能する。敵に異なる制約で連続的にマスクを生成する新しい枠組みを提案する。
論文参考訳（メタデータ） (2022-12-16T04:25:43Z)
MaskCLIP: Masked Self-Distillation Advances Contrastive Language-Image Pretraining [138.86293836634323]
MaskCLIPは、新たに提案されたマスク付き自己蒸留をコントラスト言語イメージ事前学習に組み込む。 MaskCLIPは、言語エンコーダの誘導により、線形探索、微調整、ゼロショット性能において優れた結果が得られる。
論文参考訳（メタデータ） (2022-08-25T17:59:58Z)
Adapting Self-Supervised Vision Transformers by Probing Attention-Conditioned Masking Consistency [7.940705941237998]
自己教師型 ViT のための単純な2段階適応アルゴリズムである PACMAC を提案する。私たちの単純なアプローチは、競合するメソッドよりも一貫したパフォーマンス向上につながります。
論文参考訳（メタデータ） (2022-06-16T14:46:10Z)
Adversarial Masking for Self-Supervised Learning [81.25999058340997]
自己教師付き学習のためのマスク付き画像モデル(MIM)フレームワークであるADIOSを提案する。対向目的物を用いてマスキング機能と画像エンコーダを同時に学習する。さまざまなタスクやデータセットに対する最先端の自己教師付き学習(SSL)メソッドを一貫して改善する。
論文参考訳（メタデータ） (2022-01-31T10:23:23Z)
Self-Supervised Visual Representations Learning by Contrastive Mask Prediction [129.25459808288025]
視覚表現学習のための新しいコントラストマスク予測(CMP)タスクを提案する。 MaskCoは、ビューレベルの機能ではなく、リージョンレベルの機能と対比している。我々は、ImageNet以外のデータセットのトレーニングでMaskCoを評価し、そのパフォーマンスをMoCo V2と比較した。
論文参考訳（メタデータ） (2021-08-18T02:50:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。