論文の概要: ConvMAE: Masked Convolution Meets Masked Autoencoders
- arxiv url: http://arxiv.org/abs/2205.03892v1
- Date: Sun, 8 May 2022 15:12:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-11 04:47:02.564277
- Title: ConvMAE: Masked Convolution Meets Masked Autoencoders
- Title(参考訳): convmae: マスク付き畳み込みがマスク付きオートエンコーダと出会う
- Authors: Peng Gao, Teli Ma, Hongsheng Li, Jifeng Dai, Yu Qiao
- Abstract要約: 機能事前トレーニングとマルチスケールハイブリッド畳み込み変換アーキテクチャのためのマスク付き自動エンコーディングは、ViTの可能性をさらに解き放つことができる。
我々のConvMAEフレームワークは、マスクの自動符号化方式により、マルチスケールのハイブリッド畳み込み変換器がより識別的な表現を学習できることを実証している。
事前訓練したConvMAEモデルに基づいて、ConvMAE-Baseは画像Net-1Kの微調整精度をMAE-Baseと比較して1.4%改善する。
- 参考スコア(独自算出の注目度): 65.15953258300958
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Transformers (ViT) become widely-adopted architectures for various
vision tasks. Masked auto-encoding for feature pretraining and multi-scale
hybrid convolution-transformer architectures can further unleash the potentials
of ViT, leading to state-of-the-art performances on image classification,
detection and semantic segmentation. In this paper, our ConvMAE framework
demonstrates that multi-scale hybrid convolution-transformer can learn more
discriminative representations via the mask auto-encoding scheme. However,
directly using the original masking strategy leads to the heavy computational
cost and pretraining-finetuning discrepancy. To tackle the issue, we adopt the
masked convolution to prevent information leakage in the convolution blocks. A
simple block-wise masking strategy is proposed to ensure computational
efficiency. We also propose to more directly supervise the multi-scale features
of the encoder to boost multi-scale features. Based on our pretrained ConvMAE
models, ConvMAE-Base improves ImageNet-1K finetuning accuracy by 1.4% compared
with MAE-Base. On object detection, ConvMAE-Base finetuned for only 25 epochs
surpasses MAE-Base fined-tuned for 100 epochs by 2.9% box AP and 2.2% mask AP
respectively. Code and pretrained models are available at
https://github.com/Alpha-VL/ConvMAE.
- Abstract(参考訳): Vision Transformers (ViT) は様々な視覚タスクのための広く採用されているアーキテクチャである。
機能事前トレーニングとマルチスケールハイブリッド畳み込み変換アーキテクチャのためのマスク付き自動エンコーディングは、ViTの可能性をさらに解き放ち、画像分類、検出、セマンティックセグメンテーションにおける最先端のパフォーマンスをもたらす。
本稿では,マルチスケールハイブリッド畳み込み変換器がマスク自動符号化方式によりより識別的な表現を学習可能であることを示す。
しかし、元のマスキング戦略を直接使用すると、計算コストと事前学習ファインタニングの相違が生じる。
この問題に対処するため,我々は,畳み込みブロックの情報漏洩を防止するため,マスク付き畳み込みを採用する。
計算効率を確保するために,単純なブロックワイズマスキング戦略を提案する。
また,エンコーダのマルチスケール機能を直接監督し,マルチスケール機能を強化することを提案する。
事前訓練したConvMAEモデルに基づいて、ConvMAE-Baseは画像Net-1Kの微調整精度をMAE-Baseと比較して1.4%改善する。
物体検出では、25エポックのConvMAE-Baseが100エポックのMAE-Baseを2.9%のボックスAPと2.2%のマスクAPで微調整している。
コードと事前訓練されたモデルはhttps://github.com/Alpha-VL/ConvMAE.comで入手できる。
関連論文リスト
- Bringing Masked Autoencoders Explicit Contrastive Properties for Point Cloud Self-Supervised Learning [116.75939193785143]
画像領域における視覚変換器(ViT)のコントラスト学習(CL)は、従来の畳み込みバックボーンのCLに匹敵する性能を達成した。
ViTで事前訓練した3Dポイントクラウドでは、マスク付きオートエンコーダ(MAE)モデリングが主流である。
論文 参考訳(メタデータ) (2024-07-08T12:28:56Z) - Adapting LLaMA Decoder to Vision Transformer [65.47663195233802]
本研究は,LLaMAなどのデコーダのみのトランスフォーマーをコンピュータビジョン分野に適用できるかどうかを検討する。
まず、LLaMAのアーキテクチャと整合する標準的なViTを「LLaMAfy」と呼び、自己注意に因果マスクを直接適用することで、注意崩壊の問題が生じる。
我々は,訓練開始時の自己注意に因果マスクを徐々に導入し,最適化行動を容易にするソフトマスク戦略を開発する。
論文 参考訳(メタデータ) (2024-04-10T06:30:08Z) - Mask Propagation for Efficient Video Semantic Segmentation [63.09523058489429]
ビデオセマンティックベースライン劣化(VSS)は、ビデオシーケンス内の各ピクセルにセマンティックラベルを割り当てることを含む。
SSSSと呼ばれるVSSのための効率的なマスク伝搬フレームワークを提案する。
当社のフレームワークは,フレーム単位のMask2Formerと比較して最大4倍のFLOPを削減し,Cityscapes検証セット上では最大2% mIoUしか使用できない。
論文 参考訳(メタデータ) (2023-10-29T09:55:28Z) - Mimic before Reconstruct: Enhancing Masked Autoencoders with Feature
Mimicking [35.11620617064127]
Masked Autoencoders (MAE) は、大規模な視覚表現事前学習のパラダイムとして人気がある。
本稿では,事前学習中に干渉なく高次・低次表現を共同学習するMR-MAEを提案する。
ImageNet-1Kでは、400エポックで事前訓練されたMR-MAEベースが、微調整後の85.8%のトップ1の精度を実現している。
論文 参考訳(メタデータ) (2023-03-09T18:28:18Z) - Semi-MAE: Masked Autoencoders for Semi-supervised Vision Transformers [5.29690621203603]
Semi-MAEは、ビジュアル表現学習を支援するための並列MAEブランチで構成される、純粋なViTベースのSSLフレームワークである。
Semi-MAE は ImageNet の75.9% のトップ-1 の精度を10% のラベルで達成し、半教師付き画像分類における最先端技術を上回っている。
論文 参考訳(メタデータ) (2023-01-04T03:59:17Z) - Pruning Self-attentions into Convolutional Layers in Single Path [89.55361659622305]
ビジョントランスフォーマー(ViT)は、様々なコンピュータビジョンタスクに対して印象的なパフォーマンスを実現している。
トレーニング済みのViTを効率よく自動圧縮するSPViT(Single-Path Vision Transformer pruning)を提案する。
われわれのSPViTはDeiT-Bで52.0%のFLOPをトリミングできる。
論文 参考訳(メタデータ) (2021-11-23T11:35:54Z) - Masked Autoencoders Are Scalable Vision Learners [60.97703494764904]
Masked Autoencoders (MAE) は、コンピュータビジョンのためのスケーラブルな自己教師型学習システムである。
我々は入力画像のランダムなパッチを隠蔽し、欠落したピクセルを再構成する。
これら2つの設計を結合することで,大規模モデルを効率的かつ効率的にトレーニングすることが可能になります。
論文 参考訳(メタデータ) (2021-11-11T18:46:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。