論文の概要: MVP: Multimodality-guided Visual Pre-training
- arxiv url: http://arxiv.org/abs/2203.05175v1
- Date: Thu, 10 Mar 2022 06:11:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-11 14:35:20.001981
- Title: MVP: Multimodality-guided Visual Pre-training
- Title(参考訳): MVP:マルチモーダル誘導型ビジュアル事前トレーニング
- Authors: Longhui Wei, Lingxi Xie, Wengang Zhou, Houqiang Li, Qi Tian
- Abstract要約: マスク付き画像モデリング(MIM)は,視覚前訓練において有望な方向となっている。
本稿では、他のモダリティからのガイダンスを導入し、このような付加的な知識が視覚前訓練に顕著な効果をもたらすことを検証する。
提案手法はMultimodality-guided Visual Pre-training (MVP) と名付けられ,トークン化ツールをCLIPのビジョンブランチに置き換える。
- 参考スコア(独自算出の注目度): 215.11351064601303
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, masked image modeling (MIM) has become a promising direction for
visual pre-training. In the context of vision transformers, MIM learns
effective visual representation by aligning the token-level features with a
pre-defined space (e.g., BEIT used a d-VAE trained on a large image corpus as
the tokenizer). In this paper, we go one step further by introducing guidance
from other modalities and validating that such additional knowledge leads to
impressive gains for visual pre-training. The proposed approach is named
Multimodality-guided Visual Pre-training (MVP), in which we replace the
tokenizer with the vision branch of CLIP, a vision-language model pre-trained
on 400 million image-text pairs. We demonstrate the effectiveness of MVP by
performing standard experiments, i.e., pre-training the ViT models on ImageNet
and fine-tuning them on a series of downstream visual recognition tasks. In
particular, pre-training ViT-Base/16 for 300 epochs, MVP reports a 52.4% mIoU
on ADE20K, surpassing BEIT (the baseline and previous state-of-the-art) with an
impressive margin of 6.8%.
- Abstract(参考訳): 近年,マスク付き画像モデリング(MIM)が視覚前訓練の有望な方向となっている。
視覚変換器の文脈では、MIMはトークンレベルの特徴を予め定義された空間に整列させることで効果的な視覚表現を学ぶ(例えば、BEITは大きな画像コーパスで訓練されたd-VAEをトークン化器として使用した)。
本稿では,他のモダリティからのガイダンスを導入し,その知識が視覚的事前学習において印象的な成果をもたらすことを検証し,さらに一歩前進する。
提案手法はmultimodality-guided visual pre-training (mvp) と呼ばれ、4億のイメージテキストペアで事前学習された視覚言語モデルである clip の vision branch にトークン化器を置き換える。
本研究では,vitモデルをimagenet上で事前学習し,下流の視覚認識タスクで微調整することにより,mvpの有効性を示す。
特に300エポックのViT-Base/16の事前トレーニングにおいて、MVPはADE20Kの52.4% mIoUを報告し、BEIT(ベースラインと以前の最先端技術)を6.8%で上回った。
関連論文リスト
- Rethinking Visual Prompt Learning as Masked Visual Token Modeling [106.71983630652323]
マスク付き視覚トークンモデリング(VPTM)として視覚プロンプト学習を提案し、下流の視覚分類を事前訓練されたマスク付き視覚トークン予測に変換する。
VPTMは、生成前訓練された視覚モデルにおける最初の視覚的プロンプト法であり、タスク修正による事前学習と下流視覚分類の整合性を実現する。
論文 参考訳(メタデータ) (2023-03-09T02:43:10Z) - EVA: Exploring the Limits of Masked Visual Representation Learning at
Scale [46.952339726872374]
EVAは視覚中心の基盤モデルで、大規模に視覚表現の限界を探索する。
EVAは、目に見える画像パッチに調整されたマスクされた画像テキスト整列視覚機能を再構築するために事前訓練されたバニラViTである。
EVAから巨大なCLIPのビジョンタワーを初期化することで、トレーニングを大幅に安定させ、より少ないサンプルと少ない計算でスクラッチからトレーニングを上回ります。
論文 参考訳(メタデータ) (2022-11-14T18:59:52Z) - DeiT III: Revenge of the ViT [56.46810490275699]
Vision Transformer (ViT) は、複数のコンピュータビジョンタスクを処理可能なシンプルなニューラルネットワークアーキテクチャである。
最近の研究によると、ViTsはBeiTのようなBerTライクな事前訓練の恩恵を受けている。
論文 参考訳(メタデータ) (2022-04-14T17:13:44Z) - mc-BEiT: Multi-choice Discretization for Image BERT Pre-training [52.04866462439979]
Image BERT pre-training with masked image modeling (MIM)は、自己教師付き表現学習に対処する一般的な実践である。
改良されたBERTスタイルの画像事前学習手法であるmc-BEiTを導入する。
論文 参考訳(メタデータ) (2022-03-29T09:08:18Z) - VC-GPT: Visual Conditioned GPT for End-to-End Generative
Vision-and-Language Pre-training [9.511101155155957]
視覚と言語による事前学習モデル(VLM)は、クロスモーダル領域において大きな成功を収めているが、そのほとんどは、事前学習に数百万の並列画像キャプチャーデータを必要とする。
本研究では,視覚前訓練モデル (CLIP-ViT) をエンコーダとして,言語前訓練モデル (GPT2) をデコーダとして利用することにより,生成前訓練の必要性を減らすことに焦点を当てる。
論文 参考訳(メタデータ) (2022-01-30T04:44:54Z) - PeCo: Perceptual Codebook for BERT Pre-training of Vision Transformers [102.7922200135147]
本稿では、視覚変換器のBERT事前学習のためのより良いコードブックについて検討する。
対照的に、NLPフィールドの離散トークンは自然に非常に意味がある。
提案した知覚コードブックが生成する視覚的トークンは,より優れた意味を持つことを示す。
論文 参考訳(メタデータ) (2021-11-24T18:59:58Z) - Vector-quantized Image Modeling with Improved VQGAN [93.8443646643864]
本稿では,自動回帰的に画像トークンを予測するためにトランスフォーマーを事前訓練するベクトル量子化画像モデリング手法を提案する。
まず,バニラVQGANに対して,アーキテクチャからコードブック学習までの複数の改良を提案する。
ImageNetで256x256解像度でトレーニングすると、175.1のインセプションスコア(IS)と4.17のFrechet Inception Distance(FID)を達成する。
論文 参考訳(メタデータ) (2021-10-09T18:36:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。