Fugu-MT 論文翻訳(概要): FastMIM: Expediting Masked Image Modeling Pre-training for Vision

論文の概要: FastMIM: Expediting Masked Image Modeling Pre-training for Vision

arxiv url: http://arxiv.org/abs/2212.06593v1
Date: Tue, 13 Dec 2022 14:09:32 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-14 14:56:12.472217
Title: FastMIM: Expediting Masked Image Modeling Pre-training for Vision
Title（参考訳）: fastmim: 視覚訓練のためのマスク画像モデリングの迅速化
Authors: Jianyuan Guo, Kai Han, Han Wu, Yehui Tang, Yunhe Wang and Chang Xu
Abstract要約: FastMIMは低解像度の入力画像で視覚バックボーンを事前訓練するためのフレームワークである。入力画像のRGB値の代わりに、向き付け勾配のヒストグラム(Histograms of Oriented Gradients,HOG)機能を再構成する。 ViT-B/Swin-Bをバックボーンとし、ImageNet-1Kで83.8%/84.1%のトップ1の精度を達成できる。
参考スコア（独自算出の注目度）: 65.47756720190155
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The combination of transformers and masked image modeling (MIM) pre-training framework has shown great potential in various vision tasks. However, the pre-training computational budget is too heavy and withholds the MIM from becoming a practical training paradigm. This paper presents FastMIM, a simple and generic framework for expediting masked image modeling with the following two steps: (i) pre-training vision backbones with low-resolution input images; and (ii) reconstructing Histograms of Oriented Gradients (HOG) feature instead of original RGB values of the input images. In addition, we propose FastMIM-P to progressively enlarge the input resolution during pre-training stage to further enhance the transfer results of models with high capacity. We point out that: (i) a wide range of input resolutions in pre-training phase can lead to similar performances in fine-tuning phase and downstream tasks such as detection and segmentation; (ii) the shallow layers of encoder are more important during pre-training and discarding last several layers can speed up the training stage with no harm to fine-tuning performance; (iii) the decoder should match the size of selected network; and (iv) HOG is more stable than RGB values when resolution transfers;. Equipped with FastMIM, all kinds of vision backbones can be pre-trained in an efficient way. For example, we can achieve 83.8%/84.1% top-1 accuracy on ImageNet-1K with ViT-B/Swin-B as backbones. Compared to previous relevant approaches, we can achieve comparable or better top-1 accuracy while accelerate the training procedure by $\sim$5$\times$. Code can be found in https://github.com/ggjy/FastMIM.pytorch.
Abstract（参考訳）: トランスフォーマーとマスク画像モデリング(mim)による事前学習フレームワークの組み合わせは、様々な視覚タスクにおいて大きな可能性を秘めている。しかし、事前学習の予算は重すぎるため、MIMが実践的な訓練パラダイムになることを控えている。本稿では,マスク画像モデリングの簡易かつ汎用的なフレームワークであるFastMIMについて,以下の2つのステップで述べる。 (i)低解像度入力画像による視力バックボーンの事前訓練 (2)入力画像のRGB値の代わりに,向き付け勾配(HOG)特徴のヒストグラムを再構成する。さらに,FastMIM-Pは,事前学習段階における入力解像度を段階的に拡大し,高容量モデルの転送結果をさらに向上する。私たちはこう指摘している。 (i)事前学習段階における幅広い入力解像度は、微調整段階及び検出・分割等の下流課題において同様の性能をもたらすことができる。 (ii)エンコーダの浅い層は、事前訓練中により重要であり、最後のいくつかの層は、微調整性能に害を及ぼさず、訓練段階を高速化することができる。 (iii)デコーダは、選択したネットワークのサイズと一致しなければならない。 (iv)HOGは解像度転送時のRGB値よりも安定である。 FastMIMと組み合わせることで、あらゆる種類の視覚バックボーンを効率的にトレーニングすることができる。例えば、vit-b/swin-bをバックボーンとしてimagenet-1kで83.8%/84.1%のtop-1精度を達成できる。従来の関連するアプローチと比較して、トレーニング手順を$\sim$5$\times$で加速しながら、同等またはより良いトップ1の精度を達成することができる。コードはhttps://github.com/ggjy/FastMIM.pytorchにある。

関連論文リスト

Enhancing pretraining efficiency for medical image segmentation via transferability metrics [0.0]
医用画像のセグメンテーションタスクでは、ラベル付きトレーニングデータの不足が大きな課題となっている。本稿では,事前学習したモデルが対象データをいかに頑健に表現できるかを計測する,対照的な学習に基づく新しい伝達可能性指標を提案する。
論文参考訳（メタデータ） (2024-10-24T12:11:52Z)
MULLER: Multilayer Laplacian Resizer for Vision [16.67232499096539]
MULLERレサイザと呼ばれる,少数のトレーニング可能なパラメータしか持たない,非常に軽量な多層ラプラシアンリサイザを提案する。 MULLERは、様々な訓練パイプラインに簡単に接続できることを示し、基礎となる視覚タスクの性能を、ほとんど、あるいは、余分なコストで効果的に向上させる。
論文参考訳（メタデータ） (2023-04-06T04:39:21Z)
CoMAE: Single Model Hybrid Pre-training on Small-Scale RGB-D Datasets [50.6643933702394]
本稿では,RGBと深度変調のための単一モデル自己教師型ハイブリッド事前学習フレームワークについて述べる。我々のCoMAEは、コントラスト学習とマスク画像モデリングという2つの一般的な自己教師付き表現学習アルゴリズムを統合するためのカリキュラム学習戦略を提示している。
論文参考訳（メタデータ） (2023-02-13T07:09:45Z)
Multi-scale Transformer Network with Edge-aware Pre-training for Cross-Modality MR Image Synthesis [52.41439725865149]
クロスモダリティ磁気共鳴(MR)画像合成は、与えられたモダリティから欠落するモダリティを生成するために用いられる。既存の(教師付き学習)手法は、効果的な合成モデルを訓練するために、多くのペア化されたマルチモーダルデータを必要とすることが多い。マルチスケールトランスフォーマーネットワーク(MT-Net)を提案する。
論文参考訳（メタデータ） (2022-12-02T11:40:40Z)
Stable Optimization for Large Vision Model Based Deep Image Prior in Cone-Beam CT Reconstruction [6.558735319783205]
LVM(Large Vision Model)は、最近医療画像のタスクにおいて大きな可能性を実証した。 Deep Image Prior(DIP)は、トレーニングされていないニューラルネットワークを効果的にガイドし、トレーニングデータなしで高品質のCBCT画像を生成する。スパースビューCBCTのためのフォワードモデルフリーDIPモデルの安定最適化法を提案する。
論文参考訳（メタデータ） (2022-03-23T15:16:29Z)
Corrupted Image Modeling for Self-Supervised Visual Pre-Training [103.99311611776697]
自己教師型視覚前訓練のためのCIM(Corrupted Image Modeling)を提案する。 CIMは、小さなトレーニング可能なBEiTを備えた補助発電機を使用して、人工マスクトークンを使用する代わりに入力イメージを破損させる。事前トレーニング後、エンハンサーは下流タスク用の高容量ビジュアルエンコーダとして使用できる。
論文参考訳（メタデータ） (2022-02-07T17:59:04Z)
Masked Autoencoders Are Scalable Vision Learners [60.97703494764904]
Masked Autoencoders (MAE) は、コンピュータビジョンのためのスケーラブルな自己教師型学習システムである。我々は入力画像のランダムなパッチを隠蔽し、欠落したピクセルを再構成する。これら2つの設計を結合することで,大規模モデルを効率的かつ効率的にトレーニングすることが可能になります。
論文参考訳（メタデータ） (2021-11-11T18:46:40Z)
Memory Efficient Meta-Learning with Large Images [62.70515410249566]
数ショットの分類に対するメタ学習アプローチは、新しいタスクを学ぶために、ほんの数ステップの最適化やシングルフォワードパスを必要とするテスト時に計算的に効率的である。この制限は、最大1000のイメージを含むタスクの全体サポートセットが、最適化ステップを取る前に処理されなければならないために生じる。本稿では,1つのGPU上の大容量画像からなる大規模タスクのメタトレーニングを可能にする,汎用的でメモリ効率の良いエピソード・トレーニング手法であるLITEを提案する。
論文参考訳（メタデータ） (2021-07-02T14:37:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。