論文の概要: Improve Supervised Representation Learning with Masked Image Modeling
- arxiv url: http://arxiv.org/abs/2312.00950v1
- Date: Fri, 1 Dec 2023 22:03:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 20:04:53.677473
- Title: Improve Supervised Representation Learning with Masked Image Modeling
- Title(参考訳): マスク画像モデリングによる教師あり表現学習の改善
- Authors: Kaifeng Chen, Daniel Salz, Huiwen Chang, Kihyuk Sohn, Dilip Krishnan,
Mojtaba Seyedhosseini
- Abstract要約: マスク付き画像モデリングを既存の教師付きトレーニングパラダイムに簡単に統合できる,シンプルで効果的なセットアップを提案する。
アーキテクチャの変更は最小限であり、この設定が学習した表現の質を向上させることができるという仮定のオーバーヘッドはない。
- 参考スコア(独自算出の注目度): 30.30649867772395
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training visual embeddings with labeled data supervision has been the de
facto setup for representation learning in computer vision. Inspired by recent
success of adopting masked image modeling (MIM) in self-supervised
representation learning, we propose a simple yet effective setup that can
easily integrate MIM into existing supervised training paradigms. In our
design, in addition to the original classification task applied to a vision
transformer image encoder, we add a shallow transformer-based decoder on top of
the encoder and introduce an MIM task which tries to reconstruct image tokens
based on masked image inputs. We show with minimal change in architecture and
no overhead in inference that this setup is able to improve the quality of the
learned representations for downstream tasks such as classification, image
retrieval, and semantic segmentation. We conduct a comprehensive study and
evaluation of our setup on public benchmarks. On ImageNet-1k, our ViT-B/14
model achieves 81.72% validation accuracy, 2.01% higher than the baseline
model. On K-Nearest-Neighbor image retrieval evaluation with ImageNet-1k, the
same model outperforms the baseline by 1.32%. We also show that this setup can
be easily scaled to larger models and datasets. Code and checkpoints will be
released.
- Abstract(参考訳): ラベル付きデータ監視による視覚埋め込みのトレーニングは、コンピュータビジョンにおける表現学習の事実上のセットアップである。
自己教師付き表現学習におけるマスク付き画像モデリング(MIM)の最近の成功に触発されて,MIMを既存の教師付き訓練パラダイムに容易に統合可能な,シンプルかつ効果的な設定を提案する。
本設計では、視覚変換器の画像エンコーダに適用される元の分類タスクに加えて、エンコーダの上に浅いトランスフォーマーベースのデコーダを追加し、マスク画像入力に基づいて画像トークンを再構成しようとするMIMタスクを導入する。
アーキテクチャの変更を最小限に抑え、この設定が分類、画像検索、セマンティックセグメンテーションといった下流タスクの学習表現の品質を向上させることができるという推論のオーバーヘッドを伴わないことを示す。
我々は、公開ベンチマークで設定の総合的な研究と評価を行う。
ImageNet-1kでは、VT-B/14モデルが81.72%の検証精度を実現し、ベースラインモデルよりも2.01%高い。
ImageNet-1kによるK-Nearest-Neighbor画像検索評価では、同じモデルがベースラインを1.32%上回る。
また、このセットアップをより大きなモデルやデータセットに簡単に拡張できることも示しています。
コードとチェックポイントがリリースされます。
関連論文リスト
- MOFI: Learning Image Representations from Noisy Entity Annotated Images [45.991037315528715]
ノイズの多い実体画像から画像表現を学習するための新しい視覚基盤モデルMOFIを提案する。
MOFIは、事前トレーニングデータ($i$)とトレーニングレシピ($ii$)の2つの重要な側面において、以前のものと異なる。
ノイズの多い画像とテキストのペアから画像にエンティティラベルを自動的に割り当てる手法を提案する。
論文 参考訳(メタデータ) (2023-06-13T17:51:18Z) - MULLER: Multilayer Laplacian Resizer for Vision [16.67232499096539]
MULLERレサイザと呼ばれる,少数のトレーニング可能なパラメータしか持たない,非常に軽量な多層ラプラシアンリサイザを提案する。
MULLERは、様々な訓練パイプラインに簡単に接続できることを示し、基礎となる視覚タスクの性能を、ほとんど、あるいは、余分なコストで効果的に向上させる。
論文 参考訳(メタデータ) (2023-04-06T04:39:21Z) - Good helper is around you: Attention-driven Masked Image Modeling [12.961634455083775]
マスク付き画像モデリング(MIM)は自己教師あり学習において大きな可能性を示している。
我々は,textbfAttention-driven Masking and Throwing Strategy (AMT)を提案する。
AMTは、CIFAR-10/100、STL-10、Tiny ImageNet、ImageNet-1KでMAEの線形探索精度を$2.9%改善した。
論文 参考訳(メタデータ) (2022-11-28T14:38:19Z) - MAGE: MAsked Generative Encoder to Unify Representation Learning and
Image Synthesis [33.46831766206675]
MASked Generative (MAGE)は、SOTA画像生成と自己教師付き表現学習を統合するための最初のフレームワークである。
以前の生成モデルにインスパイアされたMAGEは、入力と出力でベクトル量子化されたGANによって学習された意味トークンを使用する。
ImageNet-1Kでは、1つのMAGE ViT-Lモデルがクラス非条件画像生成のタスクで9.10 FIDを得る。
論文 参考訳(メタデータ) (2022-11-16T18:59:02Z) - A Unified View of Masked Image Modeling [117.79456335844439]
マスク付き画像モデリングは、大規模な視覚変換器を訓練する際のラベル・ハングリーの問題を取り除く大きな可能性を示している。
マスク位置の教師モデルから正規化された意味的特徴を再構成する,MaskDistillと呼ばれるシンプルで効果的な手法を提案する。
画像分類とセマンティックセグメンテーションの実験結果から、MaskDistillは最先端の手法よりも同等または優れた性能を達成していることがわかった。
論文 参考訳(メタデータ) (2022-10-19T14:59:18Z) - BEiT v2: Masked Image Modeling with Vector-Quantized Visual Tokenizers [117.79456335844439]
マスク付き予測のための再構成ターゲットとして,セマンティックリッチなビジュアルトークン化器を提案する。
次に、マスクされた画像パッチに対する元の視覚トークンを予測して、視覚変換器を事前訓練する。
画像分類とセマンティックセグメンテーションの実験は、我々のアプローチがMIM法よりも優れていることを示している。
論文 参考訳(メタデータ) (2022-08-12T16:48:10Z) - SdAE: Self-distillated Masked Autoencoder [95.3684955370897]
本稿では,自己蒸留マスク付きオートエンコーダネットワークSdAEを提案する。
300エポックの事前トレーニングで、バニラViT-BaseモデルはImageNet-1k分類において84.1%の微調整精度を達成する。
論文 参考訳(メタデータ) (2022-07-31T15:07:25Z) - Masked Unsupervised Self-training for Zero-shot Image Classification [98.23094305347709]
Masked Unsupervised Self-Training (MUST)は、疑似ラベルと生画像という2つの異なる、補完的な監督源を活用する新しいアプローチである。
MUSTはCLIPを大きなマージンで改善し、教師なしと教師なしの分類のパフォーマンスギャップを狭める。
論文 参考訳(メタデータ) (2022-06-07T02:03:06Z) - Corrupted Image Modeling for Self-Supervised Visual Pre-Training [103.99311611776697]
自己教師型視覚前訓練のためのCIM(Corrupted Image Modeling)を提案する。
CIMは、小さなトレーニング可能なBEiTを備えた補助発電機を使用して、人工マスクトークンを使用する代わりに入力イメージを破損させる。
事前トレーニング後、エンハンサーは下流タスク用の高容量ビジュアルエンコーダとして使用できる。
論文 参考訳(メタデータ) (2022-02-07T17:59:04Z) - Masked Autoencoders Are Scalable Vision Learners [60.97703494764904]
Masked Autoencoders (MAE) は、コンピュータビジョンのためのスケーラブルな自己教師型学習システムである。
我々は入力画像のランダムなパッチを隠蔽し、欠落したピクセルを再構成する。
これら2つの設計を結合することで,大規模モデルを効率的かつ効率的にトレーニングすることが可能になります。
論文 参考訳(メタデータ) (2021-11-11T18:46:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。