論文の概要: BEiT v2: Masked Image Modeling with Vector-Quantized Visual Tokenizers
- arxiv url: http://arxiv.org/abs/2208.06366v1
- Date: Fri, 12 Aug 2022 16:48:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-15 13:29:47.889605
- Title: BEiT v2: Masked Image Modeling with Vector-Quantized Visual Tokenizers
- Title(参考訳): beit v2: ベクトル量子化視覚トークンを用いたマスク画像モデリング
- Authors: Zhiliang Peng, Li Dong, Hangbo Bao, Qixiang Ye, Furu Wei
- Abstract要約: マスク付き予測のための再構成ターゲットとして,セマンティックリッチなビジュアルトークン化器を提案する。
次に、マスクされた画像パッチに対する元の視覚トークンを予測して、視覚変換器を事前訓練する。
画像分類とセマンティックセグメンテーションの実験は、我々のアプローチがMIM法よりも優れていることを示している。
- 参考スコア(独自算出の注目度): 117.79456335844439
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Masked image modeling (MIM) has demonstrated impressive results in
self-supervised representation learning by recovering corrupted image patches.
However, most methods still operate on low-level image pixels, which hinders
the exploitation of high-level semantics for representation models. In this
study, we propose to use a semantic-rich visual tokenizer as the reconstruction
target for masked prediction, providing a systematic way to promote MIM from
pixel-level to semantic-level. Specifically, we introduce vector-quantized
knowledge distillation to train the tokenizer, which discretizes a continuous
semantic space to compact codes. We then pretrain vision Transformers by
predicting the original visual tokens for the masked image patches. Moreover,
we encourage the model to explicitly aggregate patch information into a global
image representation, which facilities linear probing. Experiments on image
classification and semantic segmentation show that our approach outperforms all
compared MIM methods. On ImageNet-1K (224 size), the base-size BEiT v2 achieves
85.5% top-1 accuracy for fine-tuning and 80.1% top-1 accuracy for linear
probing. The large-size BEiT v2 obtains 87.3% top-1 accuracy for ImageNet-1K
(224 size) fine-tuning, and 56.7% mIoU on ADE20K for semantic segmentation. The
code and pretrained models are available at https://aka.ms/beit.
- Abstract(参考訳): Masked Image Modeling (MIM) は、劣化した画像パッチを復元することにより、自己教師付き表現学習において印象的な結果を示した。
しかし、ほとんどの手法は依然として低レベルのピクセルで動作するため、表現モデルの高レベルセマンティクスの利用を妨げている。
本研究では,MIMを画素レベルからセマンティックレベルまで促進する体系的な方法として,マスキング予測の再構築ターゲットとして意味豊かな視覚トークン化手法を提案する。
具体的には,連続的な意味空間をコンパクトなコードに識別するトークン化器を訓練するために,ベクトル量子化知識蒸留法を導入する。
次に、マスク画像パッチのオリジナルの視覚トークンを予測して、視覚トランスフォーマーを事前トレーニングする。
さらに,我々は,パッチ情報を線形探索機能を備えたグローバル画像表現に明示的に集約することを推奨する。
画像分類とセマンティクスセグメンテーションの実験により,mim法を比較検討した。
ImageNet-1K(224サイズ)では、ベースサイズのBEiT v2は微調整で85.5%、線形探索で80.1%となる。
大型のBEiT v2はImageNet-1K(224サイズ)の微調整で87.3%、セマンティックセグメンテーションでADE20Kで56.7%のmIoUを得る。
コードと事前訓練されたモデルはhttps://aka.ms/beit.com/で入手できる。
関連論文リスト
- CAE v2: Context Autoencoder with CLIP Target [63.61868058214267]
マスク付き画像モデリング(MIM)は、画像パッチのマスキングと再構成によって視覚表現を学習する。
再建管理をCLIP表現に適用することはMIMに有効であることが証明されている。
CLIPをターゲットとしたMIMの精製戦略を検討するため,MIMにおける2つの重要な要素,すなわち,監督位置とマスク比について検討した。
論文 参考訳(メタデータ) (2022-11-17T18:58:33Z) - A Unified View of Masked Image Modeling [117.79456335844439]
マスク付き画像モデリングは、大規模な視覚変換器を訓練する際のラベル・ハングリーの問題を取り除く大きな可能性を示している。
マスク位置の教師モデルから正規化された意味的特徴を再構成する,MaskDistillと呼ばれるシンプルで効果的な手法を提案する。
画像分類とセマンティックセグメンテーションの実験結果から、MaskDistillは最先端の手法よりも同等または優れた性能を達成していることがわかった。
論文 参考訳(メタデータ) (2022-10-19T14:59:18Z) - MILAN: Masked Image Pretraining on Language Assisted Representation [30.24762638226569]
本研究では,MILANと呼ばれる言語支援表現に基づくマスク付き画像事前学習を提案する。
生のピクセルや低レベルの特徴を予測するのではなく、画像の特徴を意味のある信号で再構築することを目的としています。
実験の結果,MILANは従来よりも精度が高いことがわかった。
論文 参考訳(メタデータ) (2022-08-11T21:58:36Z) - mc-BEiT: Multi-choice Discretization for Image BERT Pre-training [52.04866462439979]
Image BERT pre-training with masked image modeling (MIM)は、自己教師付き表現学習に対処する一般的な実践である。
改良されたBERTスタイルの画像事前学習手法であるmc-BEiTを導入する。
論文 参考訳(メタデータ) (2022-03-29T09:08:18Z) - SimMIM: A Simple Framework for Masked Image Modeling [29.015777125540613]
本稿では,マスク画像モデリングのためのシンプルなフレームワークであるSimについて述べる。
フレームワークの主要なコンポーネントについて検討し、各コンポーネントのシンプルな設計が、非常に強力な表現学習性能を示した。
また、このアプローチを利用して3Bモデルのトレーニングをしやすくし、従来の4つの代表的なビジョンベンチマークよりも40ドル安いデータで、最先端の4つのビジョンベンチマークを実現しています。
論文 参考訳(メタデータ) (2021-11-18T18:59:45Z) - iBOT: Image BERT Pre-Training with Online Tokenizer [23.997853010642046]
マスク付き画像モデリング(MIM)について検討し,意味論的に意味のある視覚的トークン化手法の利点と課題を示す。
オンライントークン化装置を用いてマスキング予測を行うことができる自己教師型フレームワークiBOTを提案する。
81.6%の線形探索精度と86.3%の微調整精度をImageNet-1Kで評価することにより,iBOTの優位性を示す。
論文 参考訳(メタデータ) (2021-11-15T15:18:05Z) - Masked Autoencoders Are Scalable Vision Learners [60.97703494764904]
Masked Autoencoders (MAE) は、コンピュータビジョンのためのスケーラブルな自己教師型学習システムである。
我々は入力画像のランダムなパッチを隠蔽し、欠落したピクセルを再構成する。
これら2つの設計を結合することで,大規模モデルを効率的かつ効率的にトレーニングすることが可能になります。
論文 参考訳(メタデータ) (2021-11-11T18:46:40Z) - BEiT: BERT Pre-Training of Image Transformers [43.704968112586876]
本稿では,画像変換器の双方向表現を表す自己教師型視覚表現モデルBEiTを紹介する。
具体的には、各画像には事前トレーニング、すなわち画像パッチと視覚トークンの2つのビューがある。
まず最初にオリジナル画像を視覚トークンに"トークン"します。次にランダムに画像パッチをマスクして、バックボーントランスフォーマーに入力します。
事前学習の目的は、破損した画像パッチに基づいて元の視覚トークンを復元することである。
論文 参考訳(メタデータ) (2021-06-15T16:02:37Z) - Seed the Views: Hierarchical Semantic Alignment for Contrastive
Representation Learning [116.91819311885166]
一つの画像から生成されたビューをtextbfCross-samples や Multi-level representation に拡張することで,階層的なセマンティックアライメント戦略を提案する。
提案手法はCsMlと呼ばれ,サンプル間の多層視覚表現を堅牢な方法で統合する機能を備えている。
論文 参考訳(メタデータ) (2020-12-04T17:26:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。