論文の概要: FastMIM: Expediting Masked Image Modeling Pre-training for Vision
- arxiv url: http://arxiv.org/abs/2212.06593v1
- Date: Tue, 13 Dec 2022 14:09:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-14 14:56:12.472217
- Title: FastMIM: Expediting Masked Image Modeling Pre-training for Vision
- Title(参考訳): fastmim: 視覚訓練のためのマスク画像モデリングの迅速化
- Authors: Jianyuan Guo, Kai Han, Han Wu, Yehui Tang, Yunhe Wang and Chang Xu
- Abstract要約: FastMIMは低解像度の入力画像で視覚バックボーンを事前訓練するためのフレームワークである。
入力画像のRGB値の代わりに、向き付け勾配のヒストグラム(Histograms of Oriented Gradients,HOG)機能を再構成する。
ViT-B/Swin-Bをバックボーンとし、ImageNet-1Kで83.8%/84.1%のトップ1の精度を達成できる。
- 参考スコア(独自算出の注目度): 65.47756720190155
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The combination of transformers and masked image modeling (MIM) pre-training
framework has shown great potential in various vision tasks. However, the
pre-training computational budget is too heavy and withholds the MIM from
becoming a practical training paradigm. This paper presents FastMIM, a simple
and generic framework for expediting masked image modeling with the following
two steps: (i) pre-training vision backbones with low-resolution input images;
and (ii) reconstructing Histograms of Oriented Gradients (HOG) feature instead
of original RGB values of the input images. In addition, we propose FastMIM-P
to progressively enlarge the input resolution during pre-training stage to
further enhance the transfer results of models with high capacity. We point out
that: (i) a wide range of input resolutions in pre-training phase can lead to
similar performances in fine-tuning phase and downstream tasks such as
detection and segmentation; (ii) the shallow layers of encoder are more
important during pre-training and discarding last several layers can speed up
the training stage with no harm to fine-tuning performance; (iii) the decoder
should match the size of selected network; and (iv) HOG is more stable than RGB
values when resolution transfers;. Equipped with FastMIM, all kinds of vision
backbones can be pre-trained in an efficient way. For example, we can achieve
83.8%/84.1% top-1 accuracy on ImageNet-1K with ViT-B/Swin-B as backbones.
Compared to previous relevant approaches, we can achieve comparable or better
top-1 accuracy while accelerate the training procedure by $\sim$5$\times$. Code
can be found in https://github.com/ggjy/FastMIM.pytorch.
- Abstract(参考訳): トランスフォーマーとマスク画像モデリング(mim)による事前学習フレームワークの組み合わせは、様々な視覚タスクにおいて大きな可能性を秘めている。
しかし、事前学習の予算は重すぎるため、MIMが実践的な訓練パラダイムになることを控えている。
本稿では,マスク画像モデリングの簡易かつ汎用的なフレームワークであるFastMIMについて,以下の2つのステップで述べる。
(i)低解像度入力画像による視力バックボーンの事前訓練
(2)入力画像のRGB値の代わりに,向き付け勾配(HOG)特徴のヒストグラムを再構成する。
さらに,FastMIM-Pは,事前学習段階における入力解像度を段階的に拡大し,高容量モデルの転送結果をさらに向上する。
私たちはこう指摘している。
(i)事前学習段階における幅広い入力解像度は、微調整段階及び検出・分割等の下流課題において同様の性能をもたらすことができる。
(ii)エンコーダの浅い層は、事前訓練中により重要であり、最後のいくつかの層は、微調整性能に害を及ぼさず、訓練段階を高速化することができる。
(iii)デコーダは、選択したネットワークのサイズと一致しなければならない。
(iv)HOGは解像度転送時のRGB値よりも安定である。
FastMIMと組み合わせることで、あらゆる種類の視覚バックボーンを効率的にトレーニングすることができる。
例えば、vit-b/swin-bをバックボーンとしてimagenet-1kで83.8%/84.1%のtop-1精度を達成できる。
従来の関連するアプローチと比較して、トレーニング手順を$\sim$5$\times$で加速しながら、同等またはより良いトップ1の精度を達成することができる。
コードはhttps://github.com/ggjy/FastMIM.pytorchにある。
関連論文リスト
- MULLER: Multilayer Laplacian Resizer for Vision [16.67232499096539]
MULLERレサイザと呼ばれる,少数のトレーニング可能なパラメータしか持たない,非常に軽量な多層ラプラシアンリサイザを提案する。
MULLERは、様々な訓練パイプラインに簡単に接続できることを示し、基礎となる視覚タスクの性能を、ほとんど、あるいは、余分なコストで効果的に向上させる。
論文 参考訳(メタデータ) (2023-04-06T04:39:21Z) - CoMAE: Single Model Hybrid Pre-training on Small-Scale RGB-D Datasets [50.6643933702394]
本稿では,RGBと深度変調のための単一モデル自己教師型ハイブリッド事前学習フレームワークについて述べる。
我々のCoMAEは、コントラスト学習とマスク画像モデリングという2つの一般的な自己教師付き表現学習アルゴリズムを統合するためのカリキュラム学習戦略を提示している。
論文 参考訳(メタデータ) (2023-02-13T07:09:45Z) - Multi-scale Transformer Network with Edge-aware Pre-training for
Cross-Modality MR Image Synthesis [52.41439725865149]
クロスモダリティ磁気共鳴(MR)画像合成は、与えられたモダリティから欠落するモダリティを生成するために用いられる。
既存の(教師付き学習)手法は、効果的な合成モデルを訓練するために、多くのペア化されたマルチモーダルデータを必要とすることが多い。
マルチスケールトランスフォーマーネットワーク(MT-Net)を提案する。
論文 参考訳(メタデータ) (2022-12-02T11:40:40Z) - Stable Optimization for Large Vision Model Based Deep Image Prior in
Cone-Beam CT Reconstruction [6.558735319783205]
LVM(Large Vision Model)は、最近医療画像のタスクにおいて大きな可能性を実証した。
Deep Image Prior(DIP)は、トレーニングされていないニューラルネットワークを効果的にガイドし、トレーニングデータなしで高品質のCBCT画像を生成する。
スパースビューCBCTのためのフォワードモデルフリーDIPモデルの安定最適化法を提案する。
論文 参考訳(メタデータ) (2022-03-23T15:16:29Z) - Corrupted Image Modeling for Self-Supervised Visual Pre-Training [103.99311611776697]
自己教師型視覚前訓練のためのCIM(Corrupted Image Modeling)を提案する。
CIMは、小さなトレーニング可能なBEiTを備えた補助発電機を使用して、人工マスクトークンを使用する代わりに入力イメージを破損させる。
事前トレーニング後、エンハンサーは下流タスク用の高容量ビジュアルエンコーダとして使用できる。
論文 参考訳(メタデータ) (2022-02-07T17:59:04Z) - Masked Autoencoders Are Scalable Vision Learners [60.97703494764904]
Masked Autoencoders (MAE) は、コンピュータビジョンのためのスケーラブルな自己教師型学習システムである。
我々は入力画像のランダムなパッチを隠蔽し、欠落したピクセルを再構成する。
これら2つの設計を結合することで,大規模モデルを効率的かつ効率的にトレーニングすることが可能になります。
論文 参考訳(メタデータ) (2021-11-11T18:46:40Z) - Memory Efficient Meta-Learning with Large Images [62.70515410249566]
数ショットの分類に対するメタ学習アプローチは、新しいタスクを学ぶために、ほんの数ステップの最適化やシングルフォワードパスを必要とするテスト時に計算的に効率的である。
この制限は、最大1000のイメージを含むタスクの全体サポートセットが、最適化ステップを取る前に処理されなければならないために生じる。
本稿では,1つのGPU上の大容量画像からなる大規模タスクのメタトレーニングを可能にする,汎用的でメモリ効率の良いエピソード・トレーニング手法であるLITEを提案する。
論文 参考訳(メタデータ) (2021-07-02T14:37:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。