論文の概要: MixMAE: Mixed and Masked Autoencoder for Efficient Pretraining of
Hierarchical Vision Transformers
- arxiv url: http://arxiv.org/abs/2205.13137v4
- Date: Fri, 31 Mar 2023 09:26:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-03 17:37:24.834034
- Title: MixMAE: Mixed and Masked Autoencoder for Efficient Pretraining of
Hierarchical Vision Transformers
- Title(参考訳): mixmae:階層的視覚トランスフォーマーの効率的な事前訓練のためのマスク付きオートエンコーダ
- Authors: Jihao Liu, Xin Huang, Jinliang Zheng, Yu Liu, Hongsheng Li
- Abstract要約: Mixed and Masked AutoEncoder (MixMAE) は、様々な階層型視覚変換器に適用可能な、シンプルだが効率的な事前学習手法である。
本稿では,Swin-B/W14を用いたMixMAEにおいて,600エポックの事前トレーニングにより,ImageNet-1K上で85.1%の精度を実現している。
- 参考スコア(独自算出の注目度): 35.26148770111607
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we propose Mixed and Masked AutoEncoder (MixMAE), a simple but
efficient pretraining method that is applicable to various hierarchical Vision
Transformers. Existing masked image modeling (MIM) methods for hierarchical
Vision Transformers replace a random subset of input tokens with a special
[MASK] symbol and aim at reconstructing original image tokens from the
corrupted image. However, we find that using the [MASK] symbol greatly slows
down the training and causes pretraining-finetuning inconsistency, due to the
large masking ratio (e.g., 60% in SimMIM). On the other hand, MAE does not
introduce [MASK] tokens at its encoder at all but is not applicable for
hierarchical Vision Transformers. To solve the issue and accelerate the
pretraining of hierarchical models, we replace the masked tokens of one image
with visible tokens of another image, i.e., creating a mixed image. We then
conduct dual reconstruction to reconstruct the two original images from the
mixed input, which significantly improves efficiency. While MixMAE can be
applied to various hierarchical Transformers, this paper explores using Swin
Transformer with a large window size and scales up to huge model size (to reach
600M parameters). Empirical results demonstrate that MixMAE can learn
high-quality visual representations efficiently. Notably, MixMAE with
Swin-B/W14 achieves 85.1% top-1 accuracy on ImageNet-1K by pretraining for 600
epochs. Besides, its transfer performances on the other 6 datasets show that
MixMAE has better FLOPs / performance tradeoff than previous popular MIM
methods. Code is available at https://github.com/Sense-X/MixMIM.
- Abstract(参考訳): 本稿では,様々な階層型視覚変換器に適用可能な,シンプルかつ効率的な事前学習法であるMixMAEを提案する。
既存のマスク付き画像モデリング(MIM)手法は、入力トークンのランダムなサブセットを特殊(MASK)シンボルに置き換え、劣化した画像から元の画像トークンを再構成することを目的としている。
しかし,[mask]記号の使用は,マスキング率(例えばsimmimでは60%)が大きいため,トレーニングを遅くし,トレーニング前の微調整不整合を引き起こすことが判明した。
一方、MAEはエンコーダに[MASK]トークンを導入していないが、階層的な視覚変換には適用できない。
課題を解決し、階層モデルの事前学習を加速するために、ある画像のマスクされたトークンを、別の画像の目に見えるトークン、すなわち混合画像の作成に置き換える。
次に、混合入力から2つのオリジナル画像を再構成するために二重再構成を行い、効率を大幅に向上させる。
MixMAEは様々な階層型変換器に適用できるが,本論文では大きなウィンドウサイズを持つSwin Transformerを用いて,巨大なモデルサイズ(6億のパラメータに達する)までスケールする。
実験の結果,mixmaeは高品質の視覚表現を効率的に学習できることがわかった。
特に、mixmae with swin-b/w14は、600エポックの事前トレーニングによってimagenet-1kで85.1%のtop-1精度を達成している。
さらに、他の6つのデータセットでの転送性能は、MixMAEが従来のMIMメソッドよりもFLOP/パフォーマンストレードオフが優れていることを示している。
コードはhttps://github.com/Sense-X/MixMIMで入手できる。
関連論文リスト
- Bringing Masked Autoencoders Explicit Contrastive Properties for Point Cloud Self-Supervised Learning [116.75939193785143]
画像領域における視覚変換器(ViT)のコントラスト学習(CL)は、従来の畳み込みバックボーンのCLに匹敵する性能を達成した。
ViTで事前訓練した3Dポイントクラウドでは、マスク付きオートエンコーダ(MAE)モデリングが主流である。
論文 参考訳(メタデータ) (2024-07-08T12:28:56Z) - Efficient Image Pre-Training with Siamese Cropped Masked Autoencoders [89.12558126877532]
そこで我々は,SiamMAE が導入した Siamese プレトレーニングの代替手法である CropMAE を提案する。
本手法では, ビデオから抽出した従来のフレームの対から切り離して, 同一画像から抽出した画像の対を別々に抽出する。
CropMAEは、これまでで最も高いマスキング比(98.5%)を達成し、2つの目に見えるパッチのみを使用して画像の再構成を可能にする。
論文 参考訳(メタデータ) (2024-03-26T16:04:19Z) - Fast Training of Diffusion Models with Masked Transformers [107.77340216247516]
マスク付き変圧器を用いた大規模拡散モデルの学習に有効な手法を提案する。
具体的には、トレーニング中に拡散された入力画像のパッチの割合をランダムにマスキングする。
ImageNet-256x256 と ImageNet-512x512 の実験により,我々の手法は最先端の拡散変換器 (DiT) モデルよりも競争力があり,より優れた生成性能が得られることが示された。
論文 参考訳(メタデータ) (2023-06-15T17:38:48Z) - Efficient Masked Autoencoders with Self-Consistency [34.7076436760695]
マスク付き画像モデリング(MIM)はコンピュータビジョンにおける強力な自己教師付き事前学習手法として認識されている。
本研究では,自己整合性(EMAE)を有する効率的なマスク付きオートエンコーダを提案し,事前学習効率を向上させる。
EMAEは、画像分類、オブジェクト検出、セマンティックセグメンテーションなど、さまざまな下流タスクにおける最先端の転送能力を一貫して取得する。
論文 参考訳(メタデータ) (2023-02-28T09:21:12Z) - A Unified View of Masked Image Modeling [117.79456335844439]
マスク付き画像モデリングは、大規模な視覚変換器を訓練する際のラベル・ハングリーの問題を取り除く大きな可能性を示している。
マスク位置の教師モデルから正規化された意味的特徴を再構成する,MaskDistillと呼ばれるシンプルで効果的な手法を提案する。
画像分類とセマンティックセグメンテーションの実験結果から、MaskDistillは最先端の手法よりも同等または優れた性能を達成していることがわかった。
論文 参考訳(メタデータ) (2022-10-19T14:59:18Z) - TokenMixup: Efficient Attention-guided Token-level Data Augmentation for
Transformers [8.099977107670917]
TokenMixupは効果的な注意誘導型トークンレベルのデータ拡張手法である。
TokenMixupの亜種はトークンをひとつのインスタンスに混ぜて、マルチスケールの機能拡張を可能にする。
実験の結果,CIFARおよびImageNet-1Kにおけるベースラインモデルの性能は有意に向上した。
論文 参考訳(メタデータ) (2022-10-14T06:36:31Z) - MaskGIT: Masked Generative Image Transformer [49.074967597485475]
MaskGITは、ランダムにマスクされたトークンを、あらゆる方向にトークンに出席することによって予測することを学ぶ。
実験により、MaskGITはImageNetデータセット上で最先端のトランスフォーマーモデルを大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2022-02-08T23:54:06Z) - Masked Autoencoders Are Scalable Vision Learners [60.97703494764904]
Masked Autoencoders (MAE) は、コンピュータビジョンのためのスケーラブルな自己教師型学習システムである。
我々は入力画像のランダムなパッチを隠蔽し、欠落したピクセルを再構成する。
これら2つの設計を結合することで,大規模モデルを効率的かつ効率的にトレーニングすることが可能になります。
論文 参考訳(メタデータ) (2021-11-11T18:46:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。