論文の概要: MixMIM: Mixed and Masked Image Modeling for Efficient Visual
Representation Learning
- arxiv url: http://arxiv.org/abs/2205.13137v2
- Date: Sat, 28 May 2022 07:09:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-05 09:04:27.807756
- Title: MixMIM: Mixed and Masked Image Modeling for Efficient Visual
Representation Learning
- Title(参考訳): MixMIM:効率的な視覚表現学習のための混合・マスク画像モデリング
- Authors: Jihao Liu, Xin Huang, Yu Liu, Hongsheng Li
- Abstract要約: 単純かつ効率的なMIM法であるMixMIM(MixMIM)を提案する。
我々は、入力トークンのランダムなサブセットを特別なMASKシンボルに置き換え、劣化した画像から元の画像トークンを再構成することを目的としている。
対照的に、ある画像のマスク付きトークンを別の画像の可視トークンに置き換え、混合画像を生成する。
次に、混合入力から元の2つの画像を再構成する二重再構成を行い、効率を大幅に向上させる。
- 参考スコア(独自算出の注目度): 38.52064214546457
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this study, we propose Mixed and Masked Image Modeling (MixMIM), a simple
but efficient MIM method that is applicable to various hierarchical Vision
Transformers. Existing MIM methods replace a random subset of input tokens with
a special MASK symbol and aim at reconstructing original image tokens from the
corrupted image. However, we find that using the MASK symbol greatly slows down
the training and causes training-finetuning inconsistency, due to the large
masking ratio (e.g., 40% in BEiT). In contrast, we replace the masked tokens of
one image with visible tokens of another image, i.e., creating a mixed image.
We then conduct dual reconstruction to reconstruct the original two images from
the mixed input, which significantly improves efficiency. While MixMIM can be
applied to various architectures, this paper explores a simpler but stronger
hierarchical Transformer, and scales with MixMIM-B, -L, and -H. Empirical
results demonstrate that MixMIM can learn high-quality visual representations
efficiently. Notably, MixMIM-B with 88M parameters achieves 85.1% top-1
accuracy on ImageNet-1K by pretraining for 600 epochs, setting a new record for
neural networks with comparable model sizes (e.g., ViT-B) among MIM methods.
Besides, its transferring performances on the other 6 datasets show MixMIM has
better FLOPs / performance tradeoff than previous MIM methods. Code is
available at https://github.com/Sense-X/MixMIM.
- Abstract(参考訳): 本研究では,様々な階層型視覚変換器に適用可能なMIM法であるMixMIM(Mixed and Masked Image Modeling)を提案する。
既存のMIM法は、入力トークンのランダムなサブセットを特別なMASKシンボルに置き換え、劣化した画像から元の画像トークンを再構成することを目的としている。
しかし,MASKシンボルの使用によってトレーニングが大幅に遅くなり,マスク比が大きい(例えばBeiTの40%)ため,トレーニングファインタニングの不整合が生じることがわかった。
対照的に、ある画像のマスクされたトークンを別の画像の目に見えるトークン、すなわち混合画像に置き換える。
次に、混合入力から元の2つの画像を再構成する二重再構成を行い、効率を大幅に向上させる。
MixMIMは様々なアーキテクチャに適用できるが、本論文ではよりシンプルだがより強力な階層変換器を探索し、MixMIM-B, -L, -Hでスケールする。
実験により、MixMIMは高品質な視覚表現を効率的に学習できることが示されている。
特に、88Mパラメータを持つMixMIM-Bは600エポックで事前トレーニングすることで、ImageNet-1K上で85.1%のトップ-1精度を達成する。
さらに、他の6つのデータセットでの転送パフォーマンスは、MixMIMが従来のMIMメソッドよりもFLOP/パフォーマンストレードオフが優れていることを示している。
コードはhttps://github.com/Sense-X/MixMIMで入手できる。
関連論文リスト
- Bringing Masked Autoencoders Explicit Contrastive Properties for Point Cloud Self-Supervised Learning [116.75939193785143]
画像領域における視覚変換器(ViT)のコントラスト学習(CL)は、従来の畳み込みバックボーンのCLに匹敵する性能を達成した。
ViTで事前訓練した3Dポイントクラウドでは、マスク付きオートエンコーダ(MAE)モデリングが主流である。
論文 参考訳(メタデータ) (2024-07-08T12:28:56Z) - Efficient Image Pre-Training with Siamese Cropped Masked Autoencoders [89.12558126877532]
そこで我々は,SiamMAE が導入した Siamese プレトレーニングの代替手法である CropMAE を提案する。
本手法では, ビデオから抽出した従来のフレームの対から切り離して, 同一画像から抽出した画像の対を別々に抽出する。
CropMAEは、これまでで最も高いマスキング比(98.5%)を達成し、2つの目に見えるパッチのみを使用して画像の再構成を可能にする。
論文 参考訳(メタデータ) (2024-03-26T16:04:19Z) - Fast Training of Diffusion Models with Masked Transformers [107.77340216247516]
マスク付き変圧器を用いた大規模拡散モデルの学習に有効な手法を提案する。
具体的には、トレーニング中に拡散された入力画像のパッチの割合をランダムにマスキングする。
ImageNet-256x256 と ImageNet-512x512 の実験により,我々の手法は最先端の拡散変換器 (DiT) モデルよりも競争力があり,より優れた生成性能が得られることが示された。
論文 参考訳(メタデータ) (2023-06-15T17:38:48Z) - Efficient Masked Autoencoders with Self-Consistency [34.7076436760695]
マスク付き画像モデリング(MIM)はコンピュータビジョンにおける強力な自己教師付き事前学習手法として認識されている。
本研究では,自己整合性(EMAE)を有する効率的なマスク付きオートエンコーダを提案し,事前学習効率を向上させる。
EMAEは、画像分類、オブジェクト検出、セマンティックセグメンテーションなど、さまざまな下流タスクにおける最先端の転送能力を一貫して取得する。
論文 参考訳(メタデータ) (2023-02-28T09:21:12Z) - A Unified View of Masked Image Modeling [117.79456335844439]
マスク付き画像モデリングは、大規模な視覚変換器を訓練する際のラベル・ハングリーの問題を取り除く大きな可能性を示している。
マスク位置の教師モデルから正規化された意味的特徴を再構成する,MaskDistillと呼ばれるシンプルで効果的な手法を提案する。
画像分類とセマンティックセグメンテーションの実験結果から、MaskDistillは最先端の手法よりも同等または優れた性能を達成していることがわかった。
論文 参考訳(メタデータ) (2022-10-19T14:59:18Z) - TokenMixup: Efficient Attention-guided Token-level Data Augmentation for
Transformers [8.099977107670917]
TokenMixupは効果的な注意誘導型トークンレベルのデータ拡張手法である。
TokenMixupの亜種はトークンをひとつのインスタンスに混ぜて、マルチスケールの機能拡張を可能にする。
実験の結果,CIFARおよびImageNet-1Kにおけるベースラインモデルの性能は有意に向上した。
論文 参考訳(メタデータ) (2022-10-14T06:36:31Z) - MaskGIT: Masked Generative Image Transformer [49.074967597485475]
MaskGITは、ランダムにマスクされたトークンを、あらゆる方向にトークンに出席することによって予測することを学ぶ。
実験により、MaskGITはImageNetデータセット上で最先端のトランスフォーマーモデルを大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2022-02-08T23:54:06Z) - Masked Autoencoders Are Scalable Vision Learners [60.97703494764904]
Masked Autoencoders (MAE) は、コンピュータビジョンのためのスケーラブルな自己教師型学習システムである。
我々は入力画像のランダムなパッチを隠蔽し、欠落したピクセルを再構成する。
これら2つの設計を結合することで,大規模モデルを効率的かつ効率的にトレーニングすることが可能になります。
論文 参考訳(メタデータ) (2021-11-11T18:46:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。