論文の概要: MixMAE: Mixed and Masked Autoencoder for Efficient Pretraining of
Hierarchical Vision Transformers
- arxiv url: http://arxiv.org/abs/2205.13137v4
- Date: Fri, 31 Mar 2023 09:26:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-03 17:37:24.834034
- Title: MixMAE: Mixed and Masked Autoencoder for Efficient Pretraining of
Hierarchical Vision Transformers
- Title(参考訳): mixmae:階層的視覚トランスフォーマーの効率的な事前訓練のためのマスク付きオートエンコーダ
- Authors: Jihao Liu, Xin Huang, Jinliang Zheng, Yu Liu, Hongsheng Li
- Abstract要約: Mixed and Masked AutoEncoder (MixMAE) は、様々な階層型視覚変換器に適用可能な、シンプルだが効率的な事前学習手法である。
本稿では,Swin-B/W14を用いたMixMAEにおいて,600エポックの事前トレーニングにより,ImageNet-1K上で85.1%の精度を実現している。
- 参考スコア(独自算出の注目度): 35.26148770111607
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we propose Mixed and Masked AutoEncoder (MixMAE), a simple but
efficient pretraining method that is applicable to various hierarchical Vision
Transformers. Existing masked image modeling (MIM) methods for hierarchical
Vision Transformers replace a random subset of input tokens with a special
[MASK] symbol and aim at reconstructing original image tokens from the
corrupted image. However, we find that using the [MASK] symbol greatly slows
down the training and causes pretraining-finetuning inconsistency, due to the
large masking ratio (e.g., 60% in SimMIM). On the other hand, MAE does not
introduce [MASK] tokens at its encoder at all but is not applicable for
hierarchical Vision Transformers. To solve the issue and accelerate the
pretraining of hierarchical models, we replace the masked tokens of one image
with visible tokens of another image, i.e., creating a mixed image. We then
conduct dual reconstruction to reconstruct the two original images from the
mixed input, which significantly improves efficiency. While MixMAE can be
applied to various hierarchical Transformers, this paper explores using Swin
Transformer with a large window size and scales up to huge model size (to reach
600M parameters). Empirical results demonstrate that MixMAE can learn
high-quality visual representations efficiently. Notably, MixMAE with
Swin-B/W14 achieves 85.1% top-1 accuracy on ImageNet-1K by pretraining for 600
epochs. Besides, its transfer performances on the other 6 datasets show that
MixMAE has better FLOPs / performance tradeoff than previous popular MIM
methods. Code is available at https://github.com/Sense-X/MixMIM.
- Abstract(参考訳): 本稿では,様々な階層型視覚変換器に適用可能な,シンプルかつ効率的な事前学習法であるMixMAEを提案する。
既存のマスク付き画像モデリング(MIM)手法は、入力トークンのランダムなサブセットを特殊(MASK)シンボルに置き換え、劣化した画像から元の画像トークンを再構成することを目的としている。
しかし,[mask]記号の使用は,マスキング率(例えばsimmimでは60%)が大きいため,トレーニングを遅くし,トレーニング前の微調整不整合を引き起こすことが判明した。
一方、MAEはエンコーダに[MASK]トークンを導入していないが、階層的な視覚変換には適用できない。
課題を解決し、階層モデルの事前学習を加速するために、ある画像のマスクされたトークンを、別の画像の目に見えるトークン、すなわち混合画像の作成に置き換える。
次に、混合入力から2つのオリジナル画像を再構成するために二重再構成を行い、効率を大幅に向上させる。
MixMAEは様々な階層型変換器に適用できるが,本論文では大きなウィンドウサイズを持つSwin Transformerを用いて,巨大なモデルサイズ(6億のパラメータに達する)までスケールする。
実験の結果,mixmaeは高品質の視覚表現を効率的に学習できることがわかった。
特に、mixmae with swin-b/w14は、600エポックの事前トレーニングによってimagenet-1kで85.1%のtop-1精度を達成している。
さらに、他の6つのデータセットでの転送性能は、MixMAEが従来のMIMメソッドよりもFLOP/パフォーマンストレードオフが優れていることを示している。
コードはhttps://github.com/Sense-X/MixMIMで入手できる。
関連論文リスト
- Fast Training of Diffusion Models with Masked Transformers [107.77340216247516]
マスク付き変圧器を用いた大規模拡散モデルの学習に有効な手法を提案する。
具体的には、トレーニング中に拡散された入力画像のパッチの割合をランダムにマスキングする。
ImageNet-256x256 と ImageNet-512x512 の実験により,我々の手法は最先端の拡散変換器 (DiT) モデルよりも競争力があり,より優れた生成性能が得られることが示された。
論文 参考訳(メタデータ) (2023-06-15T17:38:48Z) - Mimic before Reconstruct: Enhancing Masked Autoencoders with Feature
Mimicking [35.11620617064127]
Masked Autoencoders (MAE) は、大規模な視覚表現事前学習のパラダイムとして人気がある。
本稿では,事前学習中に干渉なく高次・低次表現を共同学習するMR-MAEを提案する。
ImageNet-1Kでは、400エポックで事前訓練されたMR-MAEベースが、微調整後の85.8%のトップ1の精度を実現している。
論文 参考訳(メタデータ) (2023-03-09T18:28:18Z) - A Unified View of Masked Image Modeling [117.79456335844439]
マスク付き画像モデリングは、大規模な視覚変換器を訓練する際のラベル・ハングリーの問題を取り除く大きな可能性を示している。
マスク位置の教師モデルから正規化された意味的特徴を再構成する,MaskDistillと呼ばれるシンプルで効果的な手法を提案する。
画像分類とセマンティックセグメンテーションの実験結果から、MaskDistillは最先端の手法よりも同等または優れた性能を達成していることがわかった。
論文 参考訳(メタデータ) (2022-10-19T14:59:18Z) - TokenMixup: Efficient Attention-guided Token-level Data Augmentation for
Transformers [8.099977107670917]
TokenMixupは効果的な注意誘導型トークンレベルのデータ拡張手法である。
TokenMixupの亜種はトークンをひとつのインスタンスに混ぜて、マルチスケールの機能拡張を可能にする。
実験の結果,CIFARおよびImageNet-1Kにおけるベースラインモデルの性能は有意に向上した。
論文 参考訳(メタデータ) (2022-10-14T06:36:31Z) - Beyond Masking: Demystifying Token-Based Pre-Training for Vision
Transformers [122.01591448013977]
Masked Image Modeling (MIM) は下流タスクにおいて有望な結果を示した。
本稿では,欠落した内容を回復して学習する効果的な方法があるかどうかを考察する。
我々は、トークンベースのビジョントランスフォーマーの事前トレーニングに関するいくつかの設計原則を要約する。
この設計は、余分な計算コストを伴わない一連の下流認識タスクにおいて、MIMよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-03-27T14:23:29Z) - MaskGIT: Masked Generative Image Transformer [49.074967597485475]
MaskGITは、ランダムにマスクされたトークンを、あらゆる方向にトークンに出席することによって予測することを学ぶ。
実験により、MaskGITはImageNetデータセット上で最先端のトランスフォーマーモデルを大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2022-02-08T23:54:06Z) - Masked Autoencoders Are Scalable Vision Learners [60.97703494764904]
Masked Autoencoders (MAE) は、コンピュータビジョンのためのスケーラブルな自己教師型学習システムである。
我々は入力画像のランダムなパッチを隠蔽し、欠落したピクセルを再構成する。
これら2つの設計を結合することで,大規模モデルを効率的かつ効率的にトレーニングすることが可能になります。
論文 参考訳(メタデータ) (2021-11-11T18:46:40Z) - Transformer-Based Deep Image Matching for Generalizable Person
Re-identification [114.56752624945142]
画像マッチングと距離学習にトランスフォーマーを適用する可能性について検討する。
視覚変換器 (ViT) とデコーダ付きバニラ変換器 (Vanilla Transformer) はイメージ・ツー・イメージ・アテンションの欠如により画像マッチングに適していないことがわかった。
そこで本研究では,クエリキーの類似性のみを保ちながら,ソフトマックス重み付けによる注意の完全な実装を省略する,単純化されたデコーダを提案する。
論文 参考訳(メタデータ) (2021-05-30T05:38:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。