論文の概要: MAGE: MAsked Generative Encoder to Unify Representation Learning and
Image Synthesis
- arxiv url: http://arxiv.org/abs/2211.09117v1
- Date: Wed, 16 Nov 2022 18:59:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 15:49:03.088159
- Title: MAGE: MAsked Generative Encoder to Unify Representation Learning and
Image Synthesis
- Title(参考訳): MAGE: 表現学習と画像合成を統合するMasked Generative Encoder
- Authors: Tianhong Li, Huiwen Chang, Shlok Kumar Mishra, Han Zhang, Dina Katabi,
Dilip Krishnan
- Abstract要約: MASked Generative (MAGE)は、SOTA画像生成と自己教師付き表現学習を統合するための最初のフレームワークである。
以前の生成モデルにインスパイアされたMAGEは、入力と出力でベクトル量子化されたGANによって学習された意味トークンを使用する。
ImageNet-1Kでは、1つのMAGE ViT-Lモデルがクラス非条件画像生成のタスクで9.10 FIDを得る。
- 参考スコア(独自算出の注目度): 33.46831766206675
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative modeling and representation learning are two key tasks in computer
vision. However, these models are typically trained independently, which
ignores the potential for each task to help the other, and leads to training
and model maintenance overheads. In this work, we propose MAsked Generative
Encoder (MAGE), the first framework to unify SOTA image generation and
self-supervised representation learning. Our key insight is that using variable
masking ratios in masked image modeling pre-training can allow generative
training (very high masking ratio) and representation learning (lower masking
ratio) under the same training framework. Inspired by previous generative
models, MAGE uses semantic tokens learned by a vector-quantized GAN at inputs
and outputs, combining this with masking. We can further improve the
representation by adding a contrastive loss to the encoder output. We
extensively evaluate the generation and representation learning capabilities of
MAGE. On ImageNet-1K, a single MAGE ViT-L model obtains 9.10 FID in the task of
class-unconditional image generation and 78.9% top-1 accuracy for linear
probing, achieving state-of-the-art performance in both image generation and
representation learning. Code is available at https://github.com/LTH14/mage.
- Abstract(参考訳): 生成モデリングと表現学習はコンピュータビジョンにおける2つの重要なタスクである。
しかしながら、これらのモデルは一般的に独立してトレーニングされ、各タスクが互いに助け合う可能性を無視し、トレーニングやモデルのメンテナンスのオーバーヘッドにつながる。
本研究では,SOTA画像生成と自己教師付き表現学習を統合する最初のフレームワークであるMAsked Generative Encoder (MAGE)を提案する。
私たちの重要な洞察は、マスク画像モデリングの事前トレーニングにおいて可変マスキング比を使用することで、同じトレーニングフレームワークの下で生成的トレーニング(非常に高いマスキング比率)と表現学習(低いマスキング比率)が可能になるということです。
以前の生成モデルにインスパイアされたMAGEは、入力と出力においてベクトル量子化されたGANによって学習された意味トークンを使用し、これをマスキングと組み合わせる。
エンコーダ出力にコントラスト損失を加えることで、さらに表現を改善することができる。
我々はMAGEの生成と表現の学習能力を広く評価した。
ImageNet-1Kでは、1つのMAGE ViT-Lモデルが、クラス非条件画像生成タスクの9.10 FIDと線形探索のための78.9%のトップ-1精度を取得し、画像生成と表現学習の両方で最先端の性能を達成する。
コードはhttps://github.com/lth14/mageで入手できる。
関連論文リスト
- MOCA: Self-supervised Representation Learning by Predicting Masked Online Codebook Assignments [72.6405488990753]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。
所望のプロパティを統一する単段および単段のMOCAを提案する。
我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2023-07-18T15:46:20Z) - Not All Image Regions Matter: Masked Vector Quantization for
Autoregressive Image Generation [78.13793505707952]
既存の自己回帰モデルは、まず画像再構成のための潜伏空間のコードブックを学習し、学習したコードブックに基づいて自己回帰的に画像生成を完了する2段階生成パラダイムに従っている。
そこで本研究では,Masked Quantization VAE (MQ-VAE) Stackモデルを用いた2段階フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-23T02:15:53Z) - Improving Masked Autoencoders by Learning Where to Mask [65.89510231743692]
マスケ画像モデリングは視覚データに対する有望な自己教師型学習手法である。
本稿では,Gumbel-Softmax を用いて,対向学習マスク生成装置とマスク誘導画像モデリングプロセスとを相互接続するフレームワーク AutoMAE を提案する。
実験の結果,AutoMAEは,標準の自己監督型ベンチマークや下流タスクに対して,効果的な事前学習モデルを提供することがわかった。
論文 参考訳(メタデータ) (2023-03-12T05:28:55Z) - EfficientTrain: Exploring Generalized Curriculum Learning for Training
Visual Backbones [80.662250618795]
本稿では視覚バックボーン(例えば視覚変換器)の効率的なトレーニングのための新しいカリキュラム学習手法を提案する。
オフザシェルフ方式として、様々な人気モデルのウォールタイムトレーニングコストを、精度を犠牲にすることなく、ImageNet-1K/22Kで1.5倍に削減する。
論文 参考訳(メタデータ) (2022-11-17T17:38:55Z) - Masked Contrastive Representation Learning [6.737710830712818]
本研究では,自己指導型視覚前訓練のためのMasked Contrastive Representation Learning(MACRL)を提案する。
我々は、サイムズネットワーク(すなわち、両方の枝のエンコーダ・デコーダ構造)に対して非対称な設定を採用する。
実験では、CIFAR-10、CIFAR-100、Tiny-ImageNet、および他の2つのImageNetサブセットを含む様々なビジョンベンチマークにおいて、MACRLが優れた結果を示す。
論文 参考訳(メタデータ) (2022-11-11T05:32:28Z) - The Devil is in the Frequency: Geminated Gestalt Autoencoder for
Self-Supervised Visual Pre-Training [13.087987450384036]
視覚前訓練のための新しいMasked Image Modeling (MIM) をGeminated Autoencoder (Ge$2-AE) と呼ぶ。
具体的には、画素と周波数空間の両方から画像内容を再構成するgeminated decoderをモデルに装備する。
論文 参考訳(メタデータ) (2022-04-18T09:22:55Z) - Corrupted Image Modeling for Self-Supervised Visual Pre-Training [103.99311611776697]
自己教師型視覚前訓練のためのCIM(Corrupted Image Modeling)を提案する。
CIMは、小さなトレーニング可能なBEiTを備えた補助発電機を使用して、人工マスクトークンを使用する代わりに入力イメージを破損させる。
事前トレーニング後、エンハンサーは下流タスク用の高容量ビジュアルエンコーダとして使用できる。
論文 参考訳(メタデータ) (2022-02-07T17:59:04Z) - Masked Autoencoders Are Scalable Vision Learners [60.97703494764904]
Masked Autoencoders (MAE) は、コンピュータビジョンのためのスケーラブルな自己教師型学習システムである。
我々は入力画像のランダムなパッチを隠蔽し、欠落したピクセルを再構成する。
これら2つの設計を結合することで,大規模モデルを効率的かつ効率的にトレーニングすることが可能になります。
論文 参考訳(メタデータ) (2021-11-11T18:46:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。