論文の概要: MixMIM: Mixed and Masked Image Modeling for Efficient Visual
Representation Learning
- arxiv url: http://arxiv.org/abs/2205.13137v1
- Date: Thu, 26 May 2022 04:00:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-28 05:18:59.128342
- Title: MixMIM: Mixed and Masked Image Modeling for Efficient Visual
Representation Learning
- Title(参考訳): MixMIM:効率的な視覚表現学習のための混合・マスク画像モデリング
- Authors: Jihao Liu, Xin Huang, Yu Liu, Hongsheng Li
- Abstract要約: 単純かつ効率的なMIM法であるMixMIM(MixMIM)を提案する。
我々は、入力トークンのランダムなサブセットを特別なMASKシンボルに置き換え、劣化した画像から元の画像トークンを再構成することを目的としている。
対照的に、ある画像のマスク付きトークンを別の画像の可視トークンに置き換え、混合画像を生成する。
次に、混合入力から元の2つの画像を再構成する二重再構成を行い、効率を大幅に向上させる。
- 参考スコア(独自算出の注目度): 38.52064214546457
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this study, we propose Mixed and Masked Image Modeling (MixMIM), a simple
but efficient MIM method that is applicable to various hierarchical Vision
Transformers. Existing MIM methods replace a random subset of input tokens with
a special MASK symbol and aim at reconstructing original image tokens from the
corrupted image. However, we find that using the MASK symbol greatly slows down
the training and causes training-finetuning inconsistency, due to the large
masking ratio (e.g., 40% in BEiT). In contrast, we replace the masked tokens of
one image with visible tokens of another image, i.e., creating a mixed image.
We then conduct dual reconstruction to reconstruct the original two images from
the mixed input, which significantly improves efficiency. While MixMIM can be
applied to various architectures, this paper explores a simpler but stronger
hierarchical Transformer, and scales with MixMIM-B, -L, and -H. Empirical
results demonstrate that MixMIM can learn high-quality visual representations
efficiently. Notably, MixMIM-B with 88M parameters achieves 85.1% top-1
accuracy on ImageNet-1K by pretraining for 600 epochs, setting a new record for
neural networks with comparable model sizes (e.g., ViT-B) among MIM methods.
Besides, its transferring performances on the other 6 datasets show MixMIM has
better FLOPs / performance tradeoff than previous MIM methods. Code is
available at https://github.com/Sense-X/MixMIM.
- Abstract(参考訳): 本研究では,様々な階層型視覚変換器に適用可能なMIM法であるMixMIM(Mixed and Masked Image Modeling)を提案する。
既存のMIM法は、入力トークンのランダムなサブセットを特別なMASKシンボルに置き換え、劣化した画像から元の画像トークンを再構成することを目的としている。
しかし,MASKシンボルの使用によってトレーニングが大幅に遅くなり,マスク比が大きい(例えばBeiTの40%)ため,トレーニングファインタニングの不整合が生じることがわかった。
対照的に、ある画像のマスクされたトークンを別の画像の目に見えるトークン、すなわち混合画像に置き換える。
次に、混合入力から元の2つの画像を再構成する二重再構成を行い、効率を大幅に向上させる。
MixMIMは様々なアーキテクチャに適用できるが、本論文ではよりシンプルだがより強力な階層変換器を探索し、MixMIM-B, -L, -Hでスケールする。
実験により、MixMIMは高品質な視覚表現を効率的に学習できることが示されている。
特に、88Mパラメータを持つMixMIM-Bは600エポックで事前トレーニングすることで、ImageNet-1K上で85.1%のトップ-1精度を達成する。
さらに、他の6つのデータセットでの転送パフォーマンスは、MixMIMが従来のMIMメソッドよりもFLOP/パフォーマンストレードオフが優れていることを示している。
コードはhttps://github.com/Sense-X/MixMIMで入手できる。
関連論文リスト
- Fast Training of Diffusion Models with Masked Transformers [107.77340216247516]
マスク付き変圧器を用いた大規模拡散モデルの学習に有効な手法を提案する。
具体的には、トレーニング中に拡散された入力画像のパッチの割合をランダムにマスキングする。
ImageNet-256x256 と ImageNet-512x512 の実験により,我々の手法は最先端の拡散変換器 (DiT) モデルよりも競争力があり,より優れた生成性能が得られることが示された。
論文 参考訳(メタデータ) (2023-06-15T17:38:48Z) - Mimic before Reconstruct: Enhancing Masked Autoencoders with Feature
Mimicking [35.11620617064127]
Masked Autoencoders (MAE) は、大規模な視覚表現事前学習のパラダイムとして人気がある。
本稿では,事前学習中に干渉なく高次・低次表現を共同学習するMR-MAEを提案する。
ImageNet-1Kでは、400エポックで事前訓練されたMR-MAEベースが、微調整後の85.8%のトップ1の精度を実現している。
論文 参考訳(メタデータ) (2023-03-09T18:28:18Z) - A Unified View of Masked Image Modeling [117.79456335844439]
マスク付き画像モデリングは、大規模な視覚変換器を訓練する際のラベル・ハングリーの問題を取り除く大きな可能性を示している。
マスク位置の教師モデルから正規化された意味的特徴を再構成する,MaskDistillと呼ばれるシンプルで効果的な手法を提案する。
画像分類とセマンティックセグメンテーションの実験結果から、MaskDistillは最先端の手法よりも同等または優れた性能を達成していることがわかった。
論文 参考訳(メタデータ) (2022-10-19T14:59:18Z) - TokenMixup: Efficient Attention-guided Token-level Data Augmentation for
Transformers [8.099977107670917]
TokenMixupは効果的な注意誘導型トークンレベルのデータ拡張手法である。
TokenMixupの亜種はトークンをひとつのインスタンスに混ぜて、マルチスケールの機能拡張を可能にする。
実験の結果,CIFARおよびImageNet-1Kにおけるベースラインモデルの性能は有意に向上した。
論文 参考訳(メタデータ) (2022-10-14T06:36:31Z) - Beyond Masking: Demystifying Token-Based Pre-Training for Vision
Transformers [122.01591448013977]
Masked Image Modeling (MIM) は下流タスクにおいて有望な結果を示した。
本稿では,欠落した内容を回復して学習する効果的な方法があるかどうかを考察する。
我々は、トークンベースのビジョントランスフォーマーの事前トレーニングに関するいくつかの設計原則を要約する。
この設計は、余分な計算コストを伴わない一連の下流認識タスクにおいて、MIMよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-03-27T14:23:29Z) - MaskGIT: Masked Generative Image Transformer [49.074967597485475]
MaskGITは、ランダムにマスクされたトークンを、あらゆる方向にトークンに出席することによって予測することを学ぶ。
実験により、MaskGITはImageNetデータセット上で最先端のトランスフォーマーモデルを大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2022-02-08T23:54:06Z) - Masked Autoencoders Are Scalable Vision Learners [60.97703494764904]
Masked Autoencoders (MAE) は、コンピュータビジョンのためのスケーラブルな自己教師型学習システムである。
我々は入力画像のランダムなパッチを隠蔽し、欠落したピクセルを再構成する。
これら2つの設計を結合することで,大規模モデルを効率的かつ効率的にトレーニングすることが可能になります。
論文 参考訳(メタデータ) (2021-11-11T18:46:40Z) - Transformer-Based Deep Image Matching for Generalizable Person
Re-identification [114.56752624945142]
画像マッチングと距離学習にトランスフォーマーを適用する可能性について検討する。
視覚変換器 (ViT) とデコーダ付きバニラ変換器 (Vanilla Transformer) はイメージ・ツー・イメージ・アテンションの欠如により画像マッチングに適していないことがわかった。
そこで本研究では,クエリキーの類似性のみを保ちながら,ソフトマックス重み付けによる注意の完全な実装を省略する,単純化されたデコーダを提案する。
論文 参考訳(メタデータ) (2021-05-30T05:38:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。