論文の概要: Corrupted Image Modeling for Self-Supervised Visual Pre-Training
- arxiv url: http://arxiv.org/abs/2202.03382v1
- Date: Mon, 7 Feb 2022 17:59:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-08 14:11:50.144974
- Title: Corrupted Image Modeling for Self-Supervised Visual Pre-Training
- Title(参考訳): 自己監督型視覚前訓練のための故障画像モデリング
- Authors: Yuxin Fang, Li Dong, Hangbo Bao, Xinggang Wang, Furu Wei
- Abstract要約: 自己教師型視覚前訓練のためのCIM(Corrupted Image Modeling)を提案する。
CIMは、小さなトレーニング可能なBEiTを備えた補助発電機を使用して、人工マスクトークンを使用する代わりに入力イメージを破損させる。
事前トレーニング後、エンハンサーは下流タスク用の高容量ビジュアルエンコーダとして使用できる。
- 参考スコア(独自算出の注目度): 103.99311611776697
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce Corrupted Image Modeling (CIM) for self-supervised visual
pre-training. CIM uses an auxiliary generator with a small trainable BEiT to
corrupt the input image instead of using artificial mask tokens, where some
patches are randomly selected and replaced with plausible alternatives sampled
from the BEiT output distribution. Given this corrupted image, an enhancer
network learns to either recover all the original image pixels, or predict
whether each visual token is replaced by a generator sample or not. The
generator and the enhancer are simultaneously trained and synergistically
updated. After pre-training, the enhancer can be used as a high-capacity visual
encoder for downstream tasks. CIM is a general and flexible visual pre-training
framework that is suitable for various network architectures. For the first
time, CIM demonstrates that both ViT and CNN can learn rich visual
representations using a unified, non-Siamese framework. Experimental results
show that our approach achieves compelling results in vision benchmarks, such
as ImageNet classification and ADE20K semantic segmentation. For example,
300-epoch CIM pre-trained vanilla ViT-Base/16 and ResNet-50 obtain 83.3 and
80.6 Top-1 fine-tuning accuracy on ImageNet-1K image classification
respectively.
- Abstract(参考訳): 自己教師型視覚前訓練のためのCIM(Corrupted Image Modeling)を提案する。
CIMは、小さなトレーニング可能なBEiTを備えた補助ジェネレータを使用して、人工マスクトークンの代わりに入力イメージを破損させ、いくつかのパッチをランダムに選択し、BEiT出力分布からサンプリングされたプラウシブルな代替品に置き換える。
この破損した画像から、エンハンサーネットワークは、元の画像ピクセルをすべて復元するか、または各ビジュアルトークンがジェネレータサンプルに置き換えられるかどうかを予測する。
発電機とエンハンサーは同時に訓練され、相乗的に更新される。
事前トレーニング後、エンハンサーは下流タスク用の高容量ビジュアルエンコーダとして使用できる。
CIMは、様々なネットワークアーキテクチャに適した、汎用的で柔軟なビジュアル事前トレーニングフレームワークである。
CIMは、ViTとCNNの両方が、統合された非サイメスフレームワークを使用してリッチな視覚表現を学習できることを初めて示す。
実験の結果,imagenet分類やade20kセマンティクスセグメンテーションなど,視覚ベンチマークで有意な結果が得られた。
例えば、300-epoch CIM で事前訓練されたバニラ ViT-Base/16 と ResNet-50 はそれぞれ ImageNet-1K 画像分類において83.3 と 80.6 Top-1 の微調整精度を得る。
関連論文リスト
- Improve Supervised Representation Learning with Masked Image Modeling [30.30649867772395]
マスク付き画像モデリングを既存の教師付きトレーニングパラダイムに簡単に統合できる,シンプルで効果的なセットアップを提案する。
アーキテクチャの変更は最小限であり、この設定が学習した表現の質を向上させることができるという仮定のオーバーヘッドはない。
論文 参考訳(メタデータ) (2023-12-01T22:03:25Z) - Learning to Mask and Permute Visual Tokens for Vision Transformer
Pre-Training [59.923672191632065]
我々はMasked and Permuted Vision Transformer(MaPeT)という自己教師型事前学習手法を提案する。
MaPeTは、自動回帰および置換予測を使用して、パッチ内依存関係をキャプチャする。
以上の結果から,MaPeTはImageNet上での競合性能を実証した。
論文 参考訳(メタデータ) (2023-06-12T18:12:19Z) - Centroid-centered Modeling for Efficient Vision Transformer Pre-training [44.24223088955106]
Masked Image Modeling (MIM)は、視覚変換器(ViT)を用いた新しい自己教師型ビジョン事前学習パラダイムである。
提案するCentroid-based approach, CCViT は k-means clustering を利用して画像モデリングのためのCentroid を得る。
提案手法は, 外部監督や蒸留訓練を伴わずに, 最近のベースラインと競合する結果が得られる。
論文 参考訳(メタデータ) (2023-03-08T15:34:57Z) - FastMIM: Expediting Masked Image Modeling Pre-training for Vision [65.47756720190155]
FastMIMは低解像度の入力画像で視覚バックボーンを事前訓練するためのフレームワークである。
入力画像のRGB値の代わりに、向き付け勾配のヒストグラム(Histograms of Oriented Gradients,HOG)機能を再構成する。
ViT-B/Swin-Bをバックボーンとし、ImageNet-1Kで83.8%/84.1%のトップ1の精度を達成できる。
論文 参考訳(メタデータ) (2022-12-13T14:09:32Z) - Co-training $2^L$ Submodels for Visual Recognition [67.02999567435626]
サブモデルコトレーニングは、コトレーニング、自己蒸留、深さに関連する正規化手法である。
サブモデルのコトレーニングは,画像分類やセマンティックセグメンテーションなどの認識タスクのためのバックボーンのトレーニングに有効であることを示す。
論文 参考訳(メタデータ) (2022-12-09T14:38:09Z) - MAGE: MAsked Generative Encoder to Unify Representation Learning and
Image Synthesis [33.46831766206675]
MASked Generative (MAGE)は、SOTA画像生成と自己教師付き表現学習を統合するための最初のフレームワークである。
以前の生成モデルにインスパイアされたMAGEは、入力と出力でベクトル量子化されたGANによって学習された意味トークンを使用する。
ImageNet-1Kでは、1つのMAGE ViT-Lモデルがクラス非条件画像生成のタスクで9.10 FIDを得る。
論文 参考訳(メタデータ) (2022-11-16T18:59:02Z) - mc-BEiT: Multi-choice Discretization for Image BERT Pre-training [52.04866462439979]
Image BERT pre-training with masked image modeling (MIM)は、自己教師付き表現学習に対処する一般的な実践である。
改良されたBERTスタイルの画像事前学習手法であるmc-BEiTを導入する。
論文 参考訳(メタデータ) (2022-03-29T09:08:18Z) - Vector-quantized Image Modeling with Improved VQGAN [93.8443646643864]
本稿では,自動回帰的に画像トークンを予測するためにトランスフォーマーを事前訓練するベクトル量子化画像モデリング手法を提案する。
まず,バニラVQGANに対して,アーキテクチャからコードブック学習までの複数の改良を提案する。
ImageNetで256x256解像度でトレーニングすると、175.1のインセプションスコア(IS)と4.17のFrechet Inception Distance(FID)を達成する。
論文 参考訳(メタデータ) (2021-10-09T18:36:00Z) - BEiT: BERT Pre-Training of Image Transformers [43.704968112586876]
本稿では,画像変換器の双方向表現を表す自己教師型視覚表現モデルBEiTを紹介する。
具体的には、各画像には事前トレーニング、すなわち画像パッチと視覚トークンの2つのビューがある。
まず最初にオリジナル画像を視覚トークンに"トークン"します。次にランダムに画像パッチをマスクして、バックボーントランスフォーマーに入力します。
事前学習の目的は、破損した画像パッチに基づいて元の視覚トークンを復元することである。
論文 参考訳(メタデータ) (2021-06-15T16:02:37Z) - Rethinking CNN Models for Audio Classification [20.182928938110923]
ImageNet-Pretrained標準CNNモデルは、音声分類のための強力なベースラインネットワークとして使用できる。
事前学習した重量のどれがスペクトログラムの学習に役立つかを系統的に研究する。
事前訓練した重みを用いた標準モデルでは、ランダムなデンス重みを使用するよりもよいことを示す。
論文 参考訳(メタデータ) (2020-07-22T01:31:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。