論文の概要: Semi-MAE: Masked Autoencoders for Semi-supervised Vision Transformers
- arxiv url: http://arxiv.org/abs/2301.01431v1
- Date: Wed, 4 Jan 2023 03:59:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-05 15:41:49.594050
- Title: Semi-MAE: Masked Autoencoders for Semi-supervised Vision Transformers
- Title(参考訳): セミMAE:半教師視変換器用マスク付きオートエンコーダ
- Authors: Haojie Yu, Kang Zhao, Xiaoming Xu
- Abstract要約: Semi-MAEは、ビジュアル表現学習を支援するための並列MAEブランチで構成される、純粋なViTベースのSSLフレームワークである。
Semi-MAE は ImageNet の75.9% のトップ-1 の精度を10% のラベルで達成し、半教師付き画像分類における最先端技術を上回っている。
- 参考スコア(独自算出の注目度): 5.29690621203603
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision Transformer (ViT) suffers from data scarcity in semi-supervised
learning (SSL). To alleviate this issue, inspired by masked autoencoder (MAE),
which is a data-efficient self-supervised learner, we propose Semi-MAE, a pure
ViT-based SSL framework consisting of a parallel MAE branch to assist the
visual representation learning and make the pseudo labels more accurate. The
MAE branch is designed as an asymmetric architecture consisting of a
lightweight decoder and a shared-weights encoder. We feed the weakly-augmented
unlabeled data with a high masking ratio to the MAE branch and reconstruct the
missing pixels. Semi-MAE achieves 75.9% top-1 accuracy on ImageNet with 10%
labels, surpassing prior state-of-the-art in semi-supervised image
classification. In addition, extensive experiments demonstrate that Semi-MAE
can be readily used for other ViT models and masked image modeling methods.
- Abstract(参考訳): vision transformer(vit)は、半教師付き学習(ssl)におけるデータ不足に苦しむ。
データ効率のよい自己教師型学習者であるマスク付きオートエンコーダ(MAE)に触発されたこの問題を軽減するため、並列MAEブランチからなる純粋なViTベースのSSLフレームワークであるSemi-MAEを提案し、視覚表現学習を支援し、擬似ラベルをより正確にする。
MAEブランチは、軽量デコーダと共有重み付きエンコーダからなる非対称アーキテクチャとして設計されている。
弱強化された未ラベルデータをMAEブランチに対して高いマスキング比で供給し、欠落したピクセルを再構成する。
Semi-MAE は ImageNet の75.9% のトップ-1 の精度を10% のラベルで達成し、半教師付き画像分類における最先端技術を上回っている。
さらに,Semi-MAEは,他のViTモデルやマスク画像モデリング手法にも容易に適用可能であることを示した。
関連論文リスト
- Bringing Masked Autoencoders Explicit Contrastive Properties for Point Cloud Self-Supervised Learning [116.75939193785143]
画像領域における視覚変換器(ViT)のコントラスト学習(CL)は、従来の畳み込みバックボーンのCLに匹敵する性能を達成した。
ViTで事前訓練した3Dポイントクラウドでは、マスク付きオートエンコーダ(MAE)モデリングが主流である。
論文 参考訳(メタデータ) (2024-07-08T12:28:56Z) - Adapting LLaMA Decoder to Vision Transformer [65.47663195233802]
本研究は,LLaMAなどのデコーダのみのトランスフォーマーをコンピュータビジョン分野に適用できるかどうかを検討する。
まず、LLaMAのアーキテクチャと整合する標準的なViTを「LLaMAfy」と呼び、自己注意に因果マスクを直接適用することで、注意崩壊の問題が生じる。
我々は,訓練開始時の自己注意に因果マスクを徐々に導入し,最適化行動を容易にするソフトマスク戦略を開発する。
論文 参考訳(メタデータ) (2024-04-10T06:30:08Z) - Mixed Autoencoder for Self-supervised Visual Representation Learning [95.98114940999653]
Masked Autoencoder (MAE) は、画像パッチと再構成をランダムにマスキングすることで、様々な視覚タスクにおいて優れた性能を示す。
本稿では,MAEのミキシング強化について検討する。
論文 参考訳(メタデータ) (2023-03-30T05:19:43Z) - Multi-scale Transformer Network with Edge-aware Pre-training for
Cross-Modality MR Image Synthesis [52.41439725865149]
クロスモダリティ磁気共鳴(MR)画像合成は、与えられたモダリティから欠落するモダリティを生成するために用いられる。
既存の(教師付き学習)手法は、効果的な合成モデルを訓練するために、多くのペア化されたマルチモーダルデータを必要とすることが多い。
マルチスケールトランスフォーマーネットワーク(MT-Net)を提案する。
論文 参考訳(メタデータ) (2022-12-02T11:40:40Z) - How Mask Matters: Towards Theoretical Understandings of Masked
Autoencoders [21.849681446573257]
再構成タスクに基づくマスケ自動エンコーダ(MAE)は、自己教師型学習(SSL)の有望なパラダイムになってきた。
本稿では,MAEが意味のある特徴を学習する上で,マスキングがいかに重要であるかを理論的に理解する。
論文 参考訳(メタデータ) (2022-10-15T17:36:03Z) - ConvMAE: Masked Convolution Meets Masked Autoencoders [65.15953258300958]
機能事前トレーニングとマルチスケールハイブリッド畳み込み変換アーキテクチャのためのマスク付き自動エンコーディングは、ViTの可能性をさらに解き放つことができる。
我々のConvMAEフレームワークは、マスクの自動符号化方式により、マルチスケールのハイブリッド畳み込み変換器がより識別的な表現を学習できることを実証している。
事前訓練したConvMAEモデルに基づいて、ConvMAE-Baseは画像Net-1Kの微調整精度をMAE-Baseと比較して1.4%改善する。
論文 参考訳(メタデータ) (2022-05-08T15:12:19Z) - SeMask: Semantically Masked Transformers for Semantic Segmentation [10.15763397352378]
SeMaskは、セマンティックアテンション操作の助けを借りて、セマンティック情報をエンコーダに組み込むフレームワークである。
我々のフレームワークはADE20Kデータセットで58.22% mIoUの新たな最先端を実現し、CityscapesデータセットではmIoUメトリックで3%以上の改善を実現している。
論文 参考訳(メタデータ) (2021-12-23T18:56:02Z) - Masked Autoencoders Are Scalable Vision Learners [60.97703494764904]
Masked Autoencoders (MAE) は、コンピュータビジョンのためのスケーラブルな自己教師型学習システムである。
我々は入力画像のランダムなパッチを隠蔽し、欠落したピクセルを再構成する。
これら2つの設計を結合することで,大規模モデルを効率的かつ効率的にトレーニングすることが可能になります。
論文 参考訳(メタデータ) (2021-11-11T18:46:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。