論文の概要: Vector-quantized Image Modeling with Improved VQGAN
- arxiv url: http://arxiv.org/abs/2110.04627v1
- Date: Sat, 9 Oct 2021 18:36:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-12 15:52:33.889655
- Title: Vector-quantized Image Modeling with Improved VQGAN
- Title(参考訳): VQGANの改良によるベクトル量子化画像モデリング
- Authors: Jiahui Yu, Xin Li, Jing Yu Koh, Han Zhang, Ruoming Pang, James Qin,
Alexander Ku, Yuanzhong Xu, Jason Baldridge, Yonghui Wu
- Abstract要約: 本稿では,自動回帰的に画像トークンを予測するためにトランスフォーマーを事前訓練するベクトル量子化画像モデリング手法を提案する。
まず,バニラVQGANに対して,アーキテクチャからコードブック学習までの複数の改良を提案する。
ImageNetで256x256解像度でトレーニングすると、175.1のインセプションスコア(IS)と4.17のFrechet Inception Distance(FID)を達成する。
- 参考スコア(独自算出の注目度): 93.8443646643864
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pretraining language models with next-token prediction on massive text
corpora has delivered phenomenal zero-shot, few-shot, transfer learning and
multi-tasking capabilities on both generative and discriminative language
tasks. Motivated by this success, we explore a Vector-quantized Image Modeling
(VIM) approach that involves pretraining a Transformer to predict rasterized
image tokens autoregressively. The discrete image tokens are encoded from a
learned Vision-Transformer-based VQGAN (ViT-VQGAN). We first propose multiple
improvements over vanilla VQGAN from architecture to codebook learning,
yielding better efficiency and reconstruction fidelity. The improved ViT-VQGAN
further improves vector-quantized image modeling tasks, including
unconditional, class-conditioned image generation and unsupervised
representation learning. When trained on ImageNet at 256x256 resolution, we
achieve Inception Score (IS) of 175.1 and Fr'echet Inception Distance (FID) of
4.17, a dramatic improvement over the vanilla VQGAN, which obtains 70.6 and
17.04 for IS and FID, respectively. Based on ViT-VQGAN and unsupervised
pretraining, we further evaluate the pretrained Transformer by averaging
intermediate features, similar to Image GPT (iGPT). This ImageNet-pretrained
VIM-L significantly beats iGPT-L on linear-probe accuracy from 60.3% to 72.2%
for a similar model size. ViM-L also outperforms iGPT-XL which is trained with
extra web image data and larger model size.
- Abstract(参考訳): 大量のテキストコーパスに対する次の予測を伴う事前学習言語モデルは、生成的および判別的言語タスクの両方において、驚くべきゼロショット、少数ショット、転送学習、マルチタスク機能を提供している。
この成功により、トランスフォーマーを事前訓練してラスタ化画像トークンを自動回帰的に予測するベクトル量子画像モデリング(VIM)アプローチを探求する。
離散画像トークンは、学習されたVit-TransformerベースのVQGAN(ViT-VQGAN)から符号化される。
まず,バニラVQGANに対して,アーキテクチャからコードブック学習までの複数の改良を提案する。
改良されたViT-VQGANは、非条件、クラス条件の画像生成、教師なし表現学習を含むベクトル量子化画像モデリングタスクをさらに改善する。
256x256の解像度でimagenetでトレーニングすると、175.1のインセプションスコア(is)と4.17のfr'echetインセプション距離(fid)を達成し、それぞれ70.6と17.04のisとfidを得るバニラvqganに対する劇的な改善を行った。
また、VT-VQGANと教師なし事前学習に基づいて、画像GPT(iGPT)と同様の中間特徴を平均化することにより、事前訓練したトランスフォーマーの評価を行う。
ImageNet-pretrained VIM-Lは、同様のモデルサイズで線形プローブの精度を60.3%から72.2%に向上させた。
ViM-Lは、余分なWebイメージデータとより大きなモデルサイズでトレーニングされたiGPT-XLよりも優れている。
関連論文リスト
- ViTamin: Designing Scalable Vision Models in the Vision-Language Era [26.878662961209997]
Vision Transformer (ViTs) は、イメージエンコーダのデフォルトの選択肢である。
ViTamin-Lは、ViT-Lを2.0%画像ネットゼロショット精度で大幅に上回る。
436万のパラメータしか持たないViTamin-XLは、82.9%のImageNetゼロショット精度を実現している。
論文 参考訳(メタデータ) (2024-04-02T17:40:29Z) - VL-GPT: A Generative Pre-trained Transformer for Vision and Language
Understanding and Generation [79.02357561313785]
視覚・言語データの同時認識・生成に長けたトランスモデルであるVL-GPT(Vision-Language Generative Pre-Traited Transformer)を導入する。
VL-GPTは、直感的な自己回帰的目的を用いることで、画像とテキストのモダリティを統一した事前学習アプローチを実現する。
論文 参考訳(メタデータ) (2023-12-14T18:59:43Z) - Rejuvenating image-GPT as Strong Visual Representation Learners [28.77567067712619]
本稿では,次のピクセルの予測に自己回帰事前学習を導入する先駆的な研究である画像GPTを強化する。
我々は、予測対象を生の画素から意味トークンにシフトし、視覚的内容の高レベルな理解を可能にする。
実験では、D-iGPTが視覚表現の強力な学習者として優れていることが示された。
論文 参考訳(メタデータ) (2023-12-04T18:59:20Z) - MAGE: MAsked Generative Encoder to Unify Representation Learning and
Image Synthesis [33.46831766206675]
MASked Generative (MAGE)は、SOTA画像生成と自己教師付き表現学習を統合するための最初のフレームワークである。
以前の生成モデルにインスパイアされたMAGEは、入力と出力でベクトル量子化されたGANによって学習された意味トークンを使用する。
ImageNet-1Kでは、1つのMAGE ViT-Lモデルがクラス非条件画像生成のタスクで9.10 FIDを得る。
論文 参考訳(メタデータ) (2022-11-16T18:59:02Z) - MILAN: Masked Image Pretraining on Language Assisted Representation [30.24762638226569]
本研究では,MILANと呼ばれる言語支援表現に基づくマスク付き画像事前学習を提案する。
生のピクセルや低レベルの特徴を予測するのではなく、画像の特徴を意味のある信号で再構築することを目的としています。
実験の結果,MILANは従来よりも精度が高いことがわかった。
論文 参考訳(メタデータ) (2022-08-11T21:58:36Z) - MVP: Multimodality-guided Visual Pre-training [215.11351064601303]
マスク付き画像モデリング(MIM)は,視覚前訓練において有望な方向となっている。
本稿では、他のモダリティからのガイダンスを導入し、このような付加的な知識が視覚前訓練に顕著な効果をもたらすことを検証する。
提案手法はMultimodality-guided Visual Pre-training (MVP) と名付けられ,トークン化ツールをCLIPのビジョンブランチに置き換える。
論文 参考訳(メタデータ) (2022-03-10T06:11:20Z) - An Empirical Study of Training End-to-End Vision-and-Language
Transformers [50.23532518166621]
我々はMETER(textbfMultimodal textbfEnd-to-end textbfTransformtextbfER)を提案する。
具体的には、視覚エンコーダ(例えば、CLIP-ViT、Swin変換器)、テキストエンコーダ(例えば、RoBERTa、DeBERTa)、マルチモーダルフュージョン(例えば、マージアテンション対共振器)である。
論文 参考訳(メタデータ) (2021-11-03T17:55:36Z) - Scaling Vision Transformers [82.08465256393514]
本研究では,Vision Transformerがエラー率,データ,計算の関係をスケールし,特徴付ける方法について検討する。
我々は20億のパラメータを持つViTモデルをトレーニングし、ImageNetの90.45%のトップ-1の精度で新たな最先端技術を実現する。
このモデルは、例えば、ImageNetで84.86%のトップ-1の精度を達成し、1クラスにつき10のサンプルしか持たないような、数ショット学習でもうまく機能する。
論文 参考訳(メタデータ) (2021-06-08T17:47:39Z) - Pre-Trained Image Processing Transformer [95.93031793337613]
我々は、新しい事前学習モデル、すなわち、画像処理変換器(IPT)を開発する。
本稿では、よく知られたImageNetベンチマークを用いて、大量の画像ペアを生成する。
IPTモデルは、これらの画像をマルチヘッドとマルチテールでトレーニングする。
論文 参考訳(メタデータ) (2020-12-01T09:42:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。