論文の概要: Uniform Masking: Enabling MAE Pre-training for Pyramid-based Vision
Transformers with Locality
- arxiv url: http://arxiv.org/abs/2205.10063v1
- Date: Fri, 20 May 2022 10:16:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-23 15:15:39.664228
- Title: Uniform Masking: Enabling MAE Pre-training for Pyramid-based Vision
Transformers with Locality
- Title(参考訳): 均一マスキング:局所性を有するピラミッド型視覚変換器のためのMAE事前学習の実現
- Authors: Xiang Li, Wenhai Wang, Lingfeng Yang, Jian Yang
- Abstract要約: Masked AutoEncoder (MAE)は、エレガントな非対称エンコーダデコーダ設計により、視覚的自己超越領域のトレンドを導いた。
本研究では,局所性のあるピラミッドベースのViTのMAE事前学習を実現するために,一様マスキング(UM)を提案する。
- 参考スコア(独自算出の注目度): 28.245387355693545
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Masked AutoEncoder (MAE) has recently led the trends of visual
self-supervision area by an elegant asymmetric encoder-decoder design, which
significantly optimizes both the pre-training efficiency and fine-tuning
accuracy. Notably, the success of the asymmetric structure relies on the
"global" property of Vanilla Vision Transformer (ViT), whose self-attention
mechanism reasons over arbitrary subset of discrete image patches. However, it
is still unclear how the advanced Pyramid-based ViTs (e.g., PVT, Swin) can be
adopted in MAE pre-training as they commonly introduce operators within "local"
windows, making it difficult to handle the random sequence of partial vision
tokens. In this paper, we propose Uniform Masking (UM), successfully enabling
MAE pre-training for Pyramid-based ViTs with locality (termed "UM-MAE" for
short). Specifically, UM includes a Uniform Sampling (US) that strictly samples
$1$ random patch from each $2 \times 2$ grid, and a Secondary Masking (SM)
which randomly masks a portion of (usually $25\%$) the already sampled regions
as learnable tokens. US preserves equivalent elements across multiple
non-overlapped local windows, resulting in the smooth support for popular
Pyramid-based ViTs; whilst SM is designed for better transferable visual
representations since US reduces the difficulty of pixel recovery pre-task that
hinders the semantic learning. We demonstrate that UM-MAE significantly
improves the pre-training efficiency (e.g., it speeds up and reduces the GPU
memory by $\sim 2\times$) of Pyramid-based ViTs, but maintains the competitive
fine-tuning performance across downstream tasks. For example using HTC++
detector, the pre-trained Swin-Large backbone self-supervised under UM-MAE only
in ImageNet-1K can even outperform the one supervised in ImageNet-22K. The
codes are available at https://github.com/implus/UM-MAE.
- Abstract(参考訳): Masked AutoEncoder (MAE) は、最近、事前学習効率と微調整精度の両方を著しく最適化するエレガントな非対称エンコーダデコーダ設計により、視覚自己監督領域のトレンドを導いた。
特に、非対称構造の成功は、Vanilla Vision Transformer (ViT) の「グローバルな」性質に依存している。
しかし、アドバンストピラミッドベースのViT(例えばPVT、Swin)が「ローカル」ウィンドウ内の演算子を導入し、部分的に視覚トークンのランダムなシーケンスを扱うのが困難になるため、MAE事前トレーニングでどのように採用されるのかは不明である。
本稿では,一様マスキング(UM: Uniform Masking)を提案し,局所性(略してUM-MAE)を持つピラミッドベースのViTのMAE事前学習を実現した。
具体的には、UMには、2ドル=2ドルグリッドから1ドル=ランダムパッチを厳格にサンプリングするUniform Smpling (US)と、既にサンプリング済みの領域の一部を(通常25ドル=$)ランダムにマスクするセカンダリ・マスキング (SM)が含まれている。
smは、セマンティック学習を妨げるピクセルリカバリ前のタスクの難しさを低減し、転送可能な視覚的表現を改善するように設計されているが、smは、一般的なピラミッドベースのvitをスムーズにサポートする。
UM-MAEは、MraamidベースのViTの事前トレーニング効率(例えば、GPUメモリを$\sim 2\times$)で大幅に向上するが、下流タスク間の競合的な微調整性能を維持する。
例えば、HTC++検出器を使用する場合、 ImageNet-1K でのみ UM-MAE の下で事前訓練された Swin-Large バックボーンは ImageNet-22K で教師されたバックボーンよりも優れる。
コードはhttps://github.com/implus/um-maeで入手できる。
関連論文リスト
- Bringing Masked Autoencoders Explicit Contrastive Properties for Point Cloud Self-Supervised Learning [116.75939193785143]
画像領域における視覚変換器(ViT)のコントラスト学習(CL)は、従来の畳み込みバックボーンのCLに匹敵する性能を達成した。
ViTで事前訓練した3Dポイントクラウドでは、マスク付きオートエンコーダ(MAE)モデリングが主流である。
論文 参考訳(メタデータ) (2024-07-08T12:28:56Z) - Toward a Deeper Understanding: RetNet Viewed through Convolution [25.8904146140577]
Vision Transformer (ViT)はCNNよりもグローバルな依存関係を学習できるが、CNN固有のローカリティは高価なトレーニングリソースに取って代わることができる。
本稿では、CNNの観点からRetNetの有効性について検討し、視覚領域に合わせたRetNetの変種を示す。
本稿では,1つのマスクが2つの学習可能なパラメータしか持たない新しいガウス混合マスク(GMM)を提案する。
論文 参考訳(メタデータ) (2023-09-11T10:54:22Z) - ShiftAddViT: Mixture of Multiplication Primitives Towards Efficient Vision Transformer [6.473688838974095]
本稿では,GPU上でのエンドツーエンドの推論高速化を実現するために,$textbfShiftAddViT$と呼ばれる新たな乗法モデルを提案する。
様々な2D/3D視覚タスクの実験は、提案したShiftAddViTの有効性を一貫して検証する。
論文 参考訳(メタデータ) (2023-06-10T13:53:41Z) - AdPE: Adversarial Positional Embeddings for Pretraining Vision
Transformers via MAE+ [44.856035786948915]
本稿では,前訓練型視覚変換器に対するAdPE (Adversarial Positional Embedding) アプローチを提案する。
AdPEは位置エンコーディングを摂動することで局所的な視覚構造を歪ませる。
実験により,本手法はMAEの微調整精度を向上させることができることが示された。
論文 参考訳(メタデータ) (2023-03-14T02:42:01Z) - Rethinking Hierarchicies in Pre-trained Plain Vision Transformer [76.35955924137986]
マスク付き画像モデリング(MIM)による自己教師付き事前学習型視覚変換器(ViT)は非常に効果的であることが証明されている。
カスタマイズされたアルゴリズムは、平易なViTのためにバニラと単純なMAEを使用する代わりに、例えばGreenMIMのような階層的なViTのために慎重に設計されるべきである。
本稿では,自己指導型事前学習から階層型アーキテクチャ設計を遠ざける新しいアイデアを提案する。
論文 参考訳(メタデータ) (2022-11-03T13:19:23Z) - SupMAE: Supervised Masked Autoencoders Are Efficient Vision Learners [20.846232536796578]
自己教師型マスケ自動エンコーダ(MAE)は、その印象的な表現学習能力に対して前例のない注目を集めている。
本稿では、教師付き分類分岐を追加することにより、完全に教師付き設定まで拡張する。
提案されたSupervised MAE (SupMAE) は、すべてのイメージパッチを使用する標準的な教師付き事前トレーニングとは異なり、分類のための画像パッチの可視サブセットのみを利用する。
論文 参考訳(メタデータ) (2022-05-28T23:05:03Z) - Green Hierarchical Vision Transformer for Masked Image Modeling [54.14989750044489]
階層型視覚変換器(ViT)を用いたマスク付き画像モデリングのための効率的な手法を提案する。
グループウィンドウのアテンションスキームは,ディバイド・アンド・コンカエ戦略に従って設計する。
グループ化されたパッチに対する注意の全体的なコストを最小限に抑えるため、動的プログラミングアルゴリズムによるグループ化戦略をさらに改善する。
論文 参考訳(メタデータ) (2022-05-26T17:34:42Z) - ConvMAE: Masked Convolution Meets Masked Autoencoders [65.15953258300958]
機能事前トレーニングとマルチスケールハイブリッド畳み込み変換アーキテクチャのためのマスク付き自動エンコーディングは、ViTの可能性をさらに解き放つことができる。
我々のConvMAEフレームワークは、マスクの自動符号化方式により、マルチスケールのハイブリッド畳み込み変換器がより識別的な表現を学習できることを実証している。
事前訓練したConvMAEモデルに基づいて、ConvMAE-Baseは画像Net-1Kの微調整精度をMAE-Baseと比較して1.4%改善する。
論文 参考訳(メタデータ) (2022-05-08T15:12:19Z) - Beyond Masking: Demystifying Token-Based Pre-Training for Vision
Transformers [122.01591448013977]
Masked Image Modeling (MIM) は下流タスクにおいて有望な結果を示した。
本稿では,欠落した内容を回復して学習する効果的な方法があるかどうかを考察する。
我々は、トークンベースのビジョントランスフォーマーの事前トレーニングに関するいくつかの設計原則を要約する。
この設計は、余分な計算コストを伴わない一連の下流認識タスクにおいて、MIMよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-03-27T14:23:29Z) - Pruning Self-attentions into Convolutional Layers in Single Path [89.55361659622305]
ビジョントランスフォーマー(ViT)は、様々なコンピュータビジョンタスクに対して印象的なパフォーマンスを実現している。
トレーニング済みのViTを効率よく自動圧縮するSPViT(Single-Path Vision Transformer pruning)を提案する。
われわれのSPViTはDeiT-Bで52.0%のFLOPをトリミングできる。
論文 参考訳(メタデータ) (2021-11-23T11:35:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。