論文の概要: Contrastive Tuning: A Little Help to Make Masked Autoencoders Forget
- arxiv url: http://arxiv.org/abs/2304.10520v1
- Date: Thu, 20 Apr 2023 17:51:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-21 12:10:29.755362
- Title: Contrastive Tuning: A Little Help to Make Masked Autoencoders Forget
- Title(参考訳): 対照的なチューニング:マスク付きオートエンコーダーを忘れる助けになる
- Authors: Johannes Lehner and Benedikt Alkin and Andreas F\"urst and Elisabeth
Rumetshofer and Lukas Miklautz and Sepp Hochreiter
- Abstract要約: Masked Autoencoder Contrastive Tuning (MAE-CT) は、Nearest Neighbor Contrastive Learning (NNCLR) を事前訓練されたMAEに適用するシーケンシャルアプローチである。
MAE-CTは、ラベルを使わずにオブジェクトのセマンティッククラスタを形成するようなリッチな特徴を調整します。
例えば、事前訓練されたViT-L/16から、MAE-CTはImageNet 1%の低撮影精度を67.7%から72.6%に向上させた。
- 参考スコア(独自算出の注目度): 6.783413214176048
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Masked Image Modeling (MIM) methods, like Masked Autoencoders (MAE),
efficiently learn a rich representation of the input. However, for adapting to
downstream tasks, they require a sufficient amount of labeled data since their
rich features capture not only objects but also less relevant image background.
In contrast, Instance Discrimination (ID) methods focus on objects. In this
work, we study how to combine the efficiency and scalability of MIM with the
ability of ID to perform downstream classification in the absence of large
amounts of labeled data. To this end, we introduce Masked Autoencoder
Contrastive Tuning (MAE-CT), a sequential approach that applies Nearest
Neighbor Contrastive Learning (NNCLR) to a pre-trained MAE. MAE-CT tunes the
rich features such that they form semantic clusters of objects without using
any labels. Applied to large and huge Vision Transformer (ViT) models, MAE-CT
matches or excels previous self-supervised methods trained on ImageNet in
linear probing, k-NN and low-shot classification accuracy as well as in
unsupervised clustering accuracy. Notably, similar results can be achieved
without additional image augmentations. While ID methods generally rely on
hand-crafted augmentations to avoid shortcut learning, we find that nearest
neighbor lookup is sufficient and that this data-driven augmentation effect
improves with model size. MAE-CT is compute efficient. For instance, starting
from a MAE pre-trained ViT-L/16, MAE-CT increases the ImageNet 1% low-shot
accuracy from 67.7% to 72.6%, linear probing accuracy from 76.0% to 80.2% and
k-NN accuracy from 60.6% to 79.1% in just five hours using eight A100 GPUs.
- Abstract(参考訳): Masked Image Modeling (MIM)メソッドは、Masked Autoencoders (MAE)のように、入力のリッチな表現を効率的に学習する。
しかし、ダウンストリームタスクへの適応には、リッチな機能はオブジェクトだけでなく、関連する画像背景もキャプチャするので、十分な量のラベル付きデータが必要である。
対照的に、インスタンス識別(ID)メソッドはオブジェクトにフォーカスする。
本研究では,mimの効率性とスケーラビリティを,大量のラベル付きデータがない下で下流分類を行うidの能力と組み合わせる方法について検討する。
そこで,本研究では,近近近距離学習(NNCLR)を事前学習したMAEに適用する,Masked Autoencoder Contrastive Tuning(MAE-CT)を提案する。
MAE-CTは、ラベルを使わずにオブジェクトのセマンティッククラスタを形成するようなリッチな機能をチューニングする。
大型で巨大なViT(Vision Transformer)モデルに適用すると、MAE-CTは、線形プローブ、k-NN、ローショット分類の精度、および教師なしクラスタリングの精度において、ImageNetで訓練された以前の自己教師付きメソッドにマッチまたは拡張する。
特に、画像の増大なしに同様の結果が得られる。
ID法は一般に手作りの強化に頼っているが、近接するルックアップは十分であり、このデータ駆動強化効果はモデルサイズによって改善される。
MAE-CTは計算効率が良い。
例えば、maeが事前トレーニングしたvit-l/16から、mae-ctはイメージネットの低ショット精度を67.7%から72.6%に、リニアプローブ精度を76.0%から80.2%に、k-nn精度を60.6%から79.1%にアップする。
関連論文リスト
- Bringing Masked Autoencoders Explicit Contrastive Properties for Point Cloud Self-Supervised Learning [116.75939193785143]
画像領域における視覚変換器(ViT)のコントラスト学習(CL)は、従来の畳み込みバックボーンのCLに匹敵する性能を達成した。
ViTで事前訓練した3Dポイントクラウドでは、マスク付きオートエンコーダ(MAE)モデリングが主流である。
論文 参考訳(メタデータ) (2024-07-08T12:28:56Z) - Task-customized Masked AutoEncoder via Mixture of Cluster-conditional
Experts [104.9871176044644]
Masked Autoencoder (MAE) は,モデル事前学習において有望な結果が得られる自己教師型学習手法である。
我々は、新しいMAEベースの事前学習パラダイム、Mixture of Cluster-conditional Experts (MoCE)を提案する。
MoCEは、クラスタ条件ゲートを使用して、各専門家にセマンティックなイメージのみをトレーニングする。
論文 参考訳(メタデータ) (2024-02-08T03:46:32Z) - Efficient Masked Autoencoders with Self-Consistency [34.7076436760695]
マスク付き画像モデリング(MIM)はコンピュータビジョンにおける強力な自己教師付き事前学習手法として認識されている。
本研究では,自己整合性(EMAE)を有する効率的なマスク付きオートエンコーダを提案し,事前学習効率を向上させる。
EMAEは、画像分類、オブジェクト検出、セマンティックセグメンテーションなど、さまざまな下流タスクにおける最先端の転送能力を一貫して取得する。
論文 参考訳(メタデータ) (2023-02-28T09:21:12Z) - Stare at What You See: Masked Image Modeling without Reconstruction [154.74533119863864]
Masked Autoencoders (MAE) は、大規模な視覚表現事前学習のパラダイムとして広く普及している。
近年の手法では, 画像特徴を再構成対象として抽出するために, セマンティック・リッチな教師モデルが適用されており, 性能が向上している。
強力な教師モデルによって抽出された特徴は、画像中の領域間のリッチなセマンティックな相関を既にエンコードしていると論じる。
論文 参考訳(メタデータ) (2022-11-16T12:48:52Z) - How Mask Matters: Towards Theoretical Understandings of Masked
Autoencoders [21.849681446573257]
再構成タスクに基づくマスケ自動エンコーダ(MAE)は、自己教師型学習(SSL)の有望なパラダイムになってきた。
本稿では,MAEが意味のある特徴を学習する上で,マスキングがいかに重要であるかを理論的に理解する。
論文 参考訳(メタデータ) (2022-10-15T17:36:03Z) - SdAE: Self-distillated Masked Autoencoder [95.3684955370897]
本稿では,自己蒸留マスク付きオートエンコーダネットワークSdAEを提案する。
300エポックの事前トレーニングで、バニラViT-BaseモデルはImageNet-1k分類において84.1%の微調整精度を達成する。
論文 参考訳(メタデータ) (2022-07-31T15:07:25Z) - SupMAE: Supervised Masked Autoencoders Are Efficient Vision Learners [20.846232536796578]
自己教師型マスケ自動エンコーダ(MAE)は、その印象的な表現学習能力に対して前例のない注目を集めている。
本稿では、教師付き分類分岐を追加することにより、完全に教師付き設定まで拡張する。
提案されたSupervised MAE (SupMAE) は、すべてのイメージパッチを使用する標準的な教師付き事前トレーニングとは異なり、分類のための画像パッチの可視サブセットのみを利用する。
論文 参考訳(メタデータ) (2022-05-28T23:05:03Z) - Model-Agnostic Multitask Fine-tuning for Few-shot Vision-Language
Transfer Learning [59.38343286807997]
未知タスクの視覚言語モデルのためのモデル非依存型マルチタスクファインチューニング(MAMF)を提案する。
モデルに依存しないメタラーニング(MAML)と比較して、MAMFは二段階最適化を捨て、一階勾配のみを使用する。
MAMFは5つのベンチマークデータセット上で、数ショットの転送学習において古典的な微調整法よりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-03-09T17:26:53Z) - Masked Autoencoders Are Scalable Vision Learners [60.97703494764904]
Masked Autoencoders (MAE) は、コンピュータビジョンのためのスケーラブルな自己教師型学習システムである。
我々は入力画像のランダムなパッチを隠蔽し、欠落したピクセルを再構成する。
これら2つの設計を結合することで,大規模モデルを効率的かつ効率的にトレーニングすることが可能になります。
論文 参考訳(メタデータ) (2021-11-11T18:46:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。