論文の概要: BEiT: BERT Pre-Training of Image Transformers
- arxiv url: http://arxiv.org/abs/2106.08254v1
- Date: Tue, 15 Jun 2021 16:02:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-16 15:24:36.764802
- Title: BEiT: BERT Pre-Training of Image Transformers
- Title(参考訳): beit: 画像トランスフォーマーのbertプリトレーニング
- Authors: Hangbo Bao, Li Dong, Furu Wei
- Abstract要約: 本稿では,画像変換器の双方向表現を表す自己教師型視覚表現モデルBEiTを紹介する。
具体的には、各画像には事前トレーニング、すなわち画像パッチと視覚トークンの2つのビューがある。
まず最初にオリジナル画像を視覚トークンに"トークン"します。次にランダムに画像パッチをマスクして、バックボーントランスフォーマーに入力します。
事前学習の目的は、破損した画像パッチに基づいて元の視覚トークンを復元することである。
- 参考スコア(独自算出の注目度): 43.704968112586876
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a self-supervised vision representation model BEiT, which stands
for Bidirectional Encoder representation from Image Transformers. Following
BERT developed in the natural language processing area, we propose a masked
image modeling task to pretrain vision Transformers. Specifically, each image
has two views in our pre-training, i.e, image patches (such as 16x16 pixels),
and visual tokens (i.e., discrete tokens). We first "tokenize" the original
image into visual tokens. Then we randomly mask some image patches and fed them
into the backbone Transformer. The pre-training objective is to recover the
original visual tokens based on the corrupted image patches. After pre-training
BEiT, we directly fine-tune the model parameters on downstream tasks by
appending task layers upon the pretrained encoder. Experimental results on
image classification and semantic segmentation show that our model achieves
competitive results with previous pre-training methods. For example, base-size
BEiT achieves 83.2% top-1 accuracy on ImageNet-1K, significantly outperforming
from-scratch DeiT training (81.8%) with the same setup. Moreover, large-size
BEiT obtains 86.3% only using ImageNet-1K, even outperforming ViT-L with
supervised pre-training on ImageNet-22K (85.2%). The code and pretrained models
are available at https://aka.ms/beit.
- Abstract(参考訳): 本稿では,画像変換器の双方向エンコーダ表現を表す自己教師型視覚表現モデルBEiTを紹介する。
自然言語処理領域で開発されたBERTに続いて,視覚変換器を事前訓練するためのマスク付き画像モデリングタスクを提案する。
具体的には、各画像はトレーニング前の2つのビュー、すなわち画像パッチ(16x16ピクセルなど)と視覚トークン(すなわち離散トークン)を持つ。
まず最初にオリジナル画像を視覚トークンに"トークン"します。
その後、画像パッチをランダムにマスクして、背骨トランスフォーマーに入力します。
事前トレーニングの目的は、破損した画像パッチに基づいて元のビジュアルトークンを復元することである。
BEiTを事前訓練した後、トレーニング済みエンコーダにタスク層を付加することにより、下流タスクのモデルパラメータを直接微調整する。
画像分類とセマンティックセグメンテーションの実験結果から,従来の事前学習手法と競合する結果が得られた。
例えば、ベースサイズのBEiTはImageNet-1Kで83.2%のTop-1精度を達成し、同じ設定でDeiTトレーニング(81.8%)で大幅に上回っている。
さらに、大型のBEiTは、ImageNet-1Kのみを使用して86.3%を獲得し、ImageNet-22K(85.2%)の教師付き事前トレーニングでViT-Lを上回っている。
コードと事前訓練されたモデルはhttps://aka.ms/beit.com/で入手できる。
関連論文リスト
- Bridging The Gaps Between Token Pruning and Full Pre-training via Masked
Fine-tuning [19.391064062033436]
動的視覚変換器はトークンを冗長にプルーニングすることで推論を加速するために使用される。
現在のベースモデルは、通常フルイメージトレーニングを採用し、フルイメージを入力として使用し、フィーチャーマップ全体をフォワードプロセスを通して保持する。
マスクと自己教師付きタスクを行うMAEにインスパイアされた我々は、事前訓練されたベースモデルとトークンプルーニングに基づく動的視覚変換器のギャップを埋めるために、マスク付き微調整を考案した。
論文 参考訳(メタデータ) (2023-10-26T06:03:18Z) - BEiT v2: Masked Image Modeling with Vector-Quantized Visual Tokenizers [117.79456335844439]
マスク付き予測のための再構成ターゲットとして,セマンティックリッチなビジュアルトークン化器を提案する。
次に、マスクされた画像パッチに対する元の視覚トークンを予測して、視覚変換器を事前訓練する。
画像分類とセマンティックセグメンテーションの実験は、我々のアプローチがMIM法よりも優れていることを示している。
論文 参考訳(メタデータ) (2022-08-12T16:48:10Z) - MILAN: Masked Image Pretraining on Language Assisted Representation [30.24762638226569]
本研究では,MILANと呼ばれる言語支援表現に基づくマスク付き画像事前学習を提案する。
生のピクセルや低レベルの特徴を予測するのではなく、画像の特徴を意味のある信号で再構築することを目的としています。
実験の結果,MILANは従来よりも精度が高いことがわかった。
論文 参考訳(メタデータ) (2022-08-11T21:58:36Z) - Corrupted Image Modeling for Self-Supervised Visual Pre-Training [103.99311611776697]
自己教師型視覚前訓練のためのCIM(Corrupted Image Modeling)を提案する。
CIMは、小さなトレーニング可能なBEiTを備えた補助発電機を使用して、人工マスクトークンを使用する代わりに入力イメージを破損させる。
事前トレーニング後、エンハンサーは下流タスク用の高容量ビジュアルエンコーダとして使用できる。
論文 参考訳(メタデータ) (2022-02-07T17:59:04Z) - Masked Autoencoders Are Scalable Vision Learners [60.97703494764904]
Masked Autoencoders (MAE) は、コンピュータビジョンのためのスケーラブルな自己教師型学習システムである。
我々は入力画像のランダムなパッチを隠蔽し、欠落したピクセルを再構成する。
これら2つの設計を結合することで,大規模モデルを効率的かつ効率的にトレーニングすることが可能になります。
論文 参考訳(メタデータ) (2021-11-11T18:46:40Z) - Token Labeling: Training a 85.4% Top-1 Accuracy Vision Transformer with
56M Parameters on ImageNet [86.95679590801494]
ImageNet分類におけるビジョントランスフォーマーの可能性を探るため、トレーニングテクニックのバッグを開発しています。
視覚変換器の構造を微調整し,トークンラベリングを導入することで,我々のモデルはCNNよりも優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2021-04-22T04:43:06Z) - Tokens-to-Token ViT: Training Vision Transformers from Scratch on
ImageNet [128.96032932640364]
視覚課題を解決するために,新しいTokens-To-Token Vision Transformer (T2T-ViT)を提案する。
T2T-ViTは、バニラViTのパラメータ数とMACを200%削減し、ImageNetでスクラッチからトレーニングすると2.5%以上の改善を実現している。
例えば、ResNet50に匹敵するサイズを持つT2T-ViTは、ImageNet上で80.7%のトップ1の精度を達成できる。
論文 参考訳(メタデータ) (2021-01-28T13:25:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。