論文の概要: MILAN: Masked Image Pretraining on Language Assisted Representation
- arxiv url: http://arxiv.org/abs/2208.06049v2
- Date: Mon, 15 Aug 2022 17:37:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-16 11:17:43.875373
- Title: MILAN: Masked Image Pretraining on Language Assisted Representation
- Title(参考訳): MILAN: 言語支援表現に基づく仮面画像作成
- Authors: Zejiang Hou, Fei Sun, Yen-Kuang Chen, Yuan Xie, Sun-Yuan Kung
- Abstract要約: 本研究では,MILANと呼ばれる言語支援表現に基づくマスク付き画像事前学習を提案する。
生のピクセルや低レベルの特徴を予測するのではなく、画像の特徴を意味のある信号で再構築することを目的としています。
実験の結果,MILANは従来よりも精度が高いことがわかった。
- 参考スコア(独自算出の注目度): 30.24762638226569
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Self-attention based transformer models have been dominating many computer
vision tasks in the past few years. Their superb model qualities heavily depend
on the excessively large labeled image datasets. In order to reduce the
reliance on large labeled datasets, reconstruction based masked autoencoders
are gaining popularity, which learn high quality transferable representations
from unlabeled images. For the same purpose, recent weakly supervised image
pretraining methods explore language supervision from text captions
accompanying the images. In this work, we propose masked image pretraining on
language assisted representation, dubbed as MILAN. Instead of predicting raw
pixels or low level features, our pretraining objective is to reconstruct the
image features with substantial semantic signals that are obtained using
caption supervision. Moreover, to accommodate our reconstruction target, we
propose a more efficient prompting decoder architecture and a semantic aware
mask sampling mechanism, which further advance the transfer performance of the
pretrained model. Experimental results demonstrate that MILAN delivers higher
accuracy than the previous works. When the masked autoencoder is pretrained and
finetuned on ImageNet-1K dataset with an input resolution of 224x224, MILAN
achieves a top-1 accuracy of 85.4% on ViTB/16, surpassing previous
state-of-the-arts by 1%. In the downstream semantic segmentation task, MILAN
achieves 52.7 mIoU using ViT-B/16 backbone on ADE20K dataset, outperforming
previous masked pretraining results by 4 points.
- Abstract(参考訳): 自己注意に基づくトランスフォーマーモデルはここ数年、多くのコンピュータビジョンタスクを支配してきた。
彼らのスーパーブモデルの品質は、非常に大きなラベル付き画像データセットに依存する。
大規模なラベル付きデータセットへの依存を減らすため、リコンストラクションベースのマスク付きオートエンコーダが人気を博し、ラベル付き画像から高品質な転送可能表現を学習している。
同じ目的のために、最近の弱教師付き画像事前訓練手法は、画像に付随するテキストキャプションから言語監督を探索する。
本研究では,MILANと呼ばれる言語支援表現に基づくマスク付き画像事前学習を提案する。
生のピクセルや低レベルな特徴を予測する代わりに、前訓練の目的は、キャプションの監督によって得られる実質的な意味的シグナルで画像の特徴を再構築することです。
さらに, 再構成対象に対応するために, より効率的なプロンプト型デコーダアーキテクチャとセマンティック・アウェア・マスク・サンプリング機構を提案し, 事前学習モデルの転送性能をさらに向上させる。
実験の結果,MILANは従来よりも精度が高いことがわかった。
マスク付きオートエンコーダがImageNet-1Kデータセット上で224x224の入力解像度で事前トレーニングされ、微調整されると、MILANはViTB/16で85.4%の最高1の精度を達成し、従来の最先端技術よりも1%上回る。
下流セマンティックセグメンテーションタスクでは、ADE20Kデータセット上のViT-B/16バックボーンを使用して52.7 mIoUを達成する。
関連論文リスト
- Improve Supervised Representation Learning with Masked Image Modeling [30.30649867772395]
マスク付き画像モデリングを既存の教師付きトレーニングパラダイムに簡単に統合できる,シンプルで効果的なセットアップを提案する。
アーキテクチャの変更は最小限であり、この設定が学習した表現の質を向上させることができるという仮定のオーバーヘッドはない。
論文 参考訳(メタデータ) (2023-12-01T22:03:25Z) - Mimic before Reconstruct: Enhancing Masked Autoencoders with Feature
Mimicking [35.11620617064127]
Masked Autoencoders (MAE) は、大規模な視覚表現事前学習のパラダイムとして人気がある。
本稿では,事前学習中に干渉なく高次・低次表現を共同学習するMR-MAEを提案する。
ImageNet-1Kでは、400エポックで事前訓練されたMR-MAEベースが、微調整後の85.8%のトップ1の精度を実現している。
論文 参考訳(メタデータ) (2023-03-09T18:28:18Z) - FastMIM: Expediting Masked Image Modeling Pre-training for Vision [65.47756720190155]
FastMIMは低解像度の入力画像で視覚バックボーンを事前訓練するためのフレームワークである。
入力画像のRGB値の代わりに、向き付け勾配のヒストグラム(Histograms of Oriented Gradients,HOG)機能を再構成する。
ViT-B/Swin-Bをバックボーンとし、ImageNet-1Kで83.8%/84.1%のトップ1の精度を達成できる。
論文 参考訳(メタデータ) (2022-12-13T14:09:32Z) - Exploring the Coordination of Frequency and Attention in Masked Image Modeling [28.418445136155512]
Masked Image Modeling (MIM) はコンピュータビジョンにおける自己教師型学習を支配している。
本稿では,周波数・注意駆動型マスキング・スローング戦略 (FAMT) を提案する。
FAMTはプラグイン・アンド・プレイモジュールとしてシームレスに統合することができ、以前の作業を超えている。
論文 参考訳(メタデータ) (2022-11-28T14:38:19Z) - A Unified View of Masked Image Modeling [117.79456335844439]
マスク付き画像モデリングは、大規模な視覚変換器を訓練する際のラベル・ハングリーの問題を取り除く大きな可能性を示している。
マスク位置の教師モデルから正規化された意味的特徴を再構成する,MaskDistillと呼ばれるシンプルで効果的な手法を提案する。
画像分類とセマンティックセグメンテーションの実験結果から、MaskDistillは最先端の手法よりも同等または優れた性能を達成していることがわかった。
論文 参考訳(メタデータ) (2022-10-19T14:59:18Z) - BEiT v2: Masked Image Modeling with Vector-Quantized Visual Tokenizers [117.79456335844439]
マスク付き予測のための再構成ターゲットとして,セマンティックリッチなビジュアルトークン化器を提案する。
次に、マスクされた画像パッチに対する元の視覚トークンを予測して、視覚変換器を事前訓練する。
画像分類とセマンティックセグメンテーションの実験は、我々のアプローチがMIM法よりも優れていることを示している。
論文 参考訳(メタデータ) (2022-08-12T16:48:10Z) - mc-BEiT: Multi-choice Discretization for Image BERT Pre-training [52.04866462439979]
Image BERT pre-training with masked image modeling (MIM)は、自己教師付き表現学習に対処する一般的な実践である。
改良されたBERTスタイルの画像事前学習手法であるmc-BEiTを導入する。
論文 参考訳(メタデータ) (2022-03-29T09:08:18Z) - Masked Autoencoders Are Scalable Vision Learners [60.97703494764904]
Masked Autoencoders (MAE) は、コンピュータビジョンのためのスケーラブルな自己教師型学習システムである。
我々は入力画像のランダムなパッチを隠蔽し、欠落したピクセルを再構成する。
これら2つの設計を結合することで,大規模モデルを効率的かつ効率的にトレーニングすることが可能になります。
論文 参考訳(メタデータ) (2021-11-11T18:46:40Z) - Vector-quantized Image Modeling with Improved VQGAN [93.8443646643864]
本稿では,自動回帰的に画像トークンを予測するためにトランスフォーマーを事前訓練するベクトル量子化画像モデリング手法を提案する。
まず,バニラVQGANに対して,アーキテクチャからコードブック学習までの複数の改良を提案する。
ImageNetで256x256解像度でトレーニングすると、175.1のインセプションスコア(IS)と4.17のFrechet Inception Distance(FID)を達成する。
論文 参考訳(メタデータ) (2021-10-09T18:36:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。