論文の概要: Contrastive Tuning: A Little Help to Make Masked Autoencoders Forget
- arxiv url: http://arxiv.org/abs/2304.10520v2
- Date: Thu, 14 Sep 2023 17:57:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-15 19:10:24.647613
- Title: Contrastive Tuning: A Little Help to Make Masked Autoencoders Forget
- Title(参考訳): 対照的なチューニング:マスク付きオートエンコーダーを忘れる助けになる
- Authors: Johannes Lehner and Benedikt Alkin and Andreas F\"urst and Elisabeth
Rumetshofer and Lukas Miklautz and Sepp Hochreiter
- Abstract要約: Masked Autoencoder Contrastive Tuning (MAE-CT)は、ラベルを使わずにオブジェクトのセマンティッククラスタを形成するようなリッチな機能をチューニングするためのシーケンシャルなアプローチである。
MaE-CTは手作りの強化に頼らず、最小限の拡張(クロップとフリップ)のみを使用しながら、しばしば最高のパフォーマンスを達成する。
MaE-CTは、リニアプローブ、k-NN、ローショット分類の精度、および教師なしクラスタリングの精度において、ImageNetで訓練された以前の自己教師手法よりも優れている。
- 参考スコア(独自算出の注目度): 10.290956481715387
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Masked Image Modeling (MIM) methods, like Masked Autoencoders (MAE),
efficiently learn a rich representation of the input. However, for adapting to
downstream tasks, they require a sufficient amount of labeled data since their
rich features code not only objects but also less relevant image background. In
contrast, Instance Discrimination (ID) methods focus on objects. In this work,
we study how to combine the efficiency and scalability of MIM with the ability
of ID to perform downstream classification in the absence of large amounts of
labeled data. To this end, we introduce Masked Autoencoder Contrastive Tuning
(MAE-CT), a sequential approach that utilizes the implicit clustering of the
Nearest Neighbor Contrastive Learning (NNCLR) objective to induce abstraction
in the topmost layers of a pre-trained MAE. MAE-CT tunes the rich features such
that they form semantic clusters of objects without using any labels. Notably,
MAE-CT does not rely on hand-crafted augmentations and frequently achieves its
best performances while using only minimal augmentations (crop & flip).
Further, MAE-CT is compute efficient as it requires at most 10% overhead
compared to MAE re-training. Applied to large and huge Vision Transformer (ViT)
models, MAE-CT excels over previous self-supervised methods trained on ImageNet
in linear probing, k-NN and low-shot classification accuracy as well as in
unsupervised clustering accuracy. With ViT-H/16 MAE-CT achieves a new
state-of-the-art in linear probing of 82.2%.
- Abstract(参考訳): Masked Image Modeling (MIM)メソッドは、Masked Autoencoders (MAE)のように、入力のリッチな表現を効率的に学習する。
しかし、下流のタスクに適応するためには、リッチなフィーチャーコードがオブジェクトだけでなく、画像の背景もあまり関連しないため、十分な量のラベル付きデータが必要である。
対照的に、インスタンス識別(ID)メソッドはオブジェクトにフォーカスする。
本研究では,mimの効率性とスケーラビリティを,大量のラベル付きデータがない下で下流分類を行うidの能力と組み合わせる方法について検討する。
この目的のために,Masked Autoencoder Contrastive Tuning (MAE-CT) を導入する。これは,Nearest Neighbor Contrastive Learning (NNCLR) 目標の暗黙的クラスタリングを利用して,事前学習されたMAEの最上位層における抽象化を誘導する逐次的アプローチである。
MAE-CTは、ラベルを使わずにオブジェクトのセマンティッククラスタを形成するようなリッチな機能をチューニングする。
特に、MAE-CTは手作りの増補に頼らず、最小限の増補(クロップ&フリップ)のみを使用しながら、しばしば最高の性能を達成する。
さらに、MAE-CTはMAE再トレーニングに比べて10%以上のオーバーヘッドを必要とするため、計算効率が良い。
大型で巨大な視覚変換器(ViT)モデルに適用すると、MAE-CTはイメージネットで訓練された以前の自己教師付き手法よりも、線形プローブ、k-NN、ローショット分類精度、および教師なしクラスタリング精度が優れている。
ViT-H/16 MAE-CTでは、線形プローブの82.2%の新たな最先端を実現している。
関連論文リスト
- Bringing Masked Autoencoders Explicit Contrastive Properties for Point Cloud Self-Supervised Learning [116.75939193785143]
画像領域における視覚変換器(ViT)のコントラスト学習(CL)は、従来の畳み込みバックボーンのCLに匹敵する性能を達成した。
ViTで事前訓練した3Dポイントクラウドでは、マスク付きオートエンコーダ(MAE)モデリングが主流である。
論文 参考訳(メタデータ) (2024-07-08T12:28:56Z) - Task-customized Masked AutoEncoder via Mixture of Cluster-conditional
Experts [104.9871176044644]
Masked Autoencoder (MAE) は,モデル事前学習において有望な結果が得られる自己教師型学習手法である。
我々は、新しいMAEベースの事前学習パラダイム、Mixture of Cluster-conditional Experts (MoCE)を提案する。
MoCEは、クラスタ条件ゲートを使用して、各専門家にセマンティックなイメージのみをトレーニングする。
論文 参考訳(メタデータ) (2024-02-08T03:46:32Z) - Efficient Masked Autoencoders with Self-Consistency [34.7076436760695]
マスク付き画像モデリング(MIM)はコンピュータビジョンにおける強力な自己教師付き事前学習手法として認識されている。
本研究では,自己整合性(EMAE)を有する効率的なマスク付きオートエンコーダを提案し,事前学習効率を向上させる。
EMAEは、画像分類、オブジェクト検出、セマンティックセグメンテーションなど、さまざまな下流タスクにおける最先端の転送能力を一貫して取得する。
論文 参考訳(メタデータ) (2023-02-28T09:21:12Z) - Stare at What You See: Masked Image Modeling without Reconstruction [154.74533119863864]
Masked Autoencoders (MAE) は、大規模な視覚表現事前学習のパラダイムとして広く普及している。
近年の手法では, 画像特徴を再構成対象として抽出するために, セマンティック・リッチな教師モデルが適用されており, 性能が向上している。
強力な教師モデルによって抽出された特徴は、画像中の領域間のリッチなセマンティックな相関を既にエンコードしていると論じる。
論文 参考訳(メタデータ) (2022-11-16T12:48:52Z) - How Mask Matters: Towards Theoretical Understandings of Masked
Autoencoders [21.849681446573257]
再構成タスクに基づくマスケ自動エンコーダ(MAE)は、自己教師型学習(SSL)の有望なパラダイムになってきた。
本稿では,MAEが意味のある特徴を学習する上で,マスキングがいかに重要であるかを理論的に理解する。
論文 参考訳(メタデータ) (2022-10-15T17:36:03Z) - SdAE: Self-distillated Masked Autoencoder [95.3684955370897]
本稿では,自己蒸留マスク付きオートエンコーダネットワークSdAEを提案する。
300エポックの事前トレーニングで、バニラViT-BaseモデルはImageNet-1k分類において84.1%の微調整精度を達成する。
論文 参考訳(メタデータ) (2022-07-31T15:07:25Z) - SupMAE: Supervised Masked Autoencoders Are Efficient Vision Learners [20.846232536796578]
自己教師型マスケ自動エンコーダ(MAE)は、その印象的な表現学習能力に対して前例のない注目を集めている。
本稿では、教師付き分類分岐を追加することにより、完全に教師付き設定まで拡張する。
提案されたSupervised MAE (SupMAE) は、すべてのイメージパッチを使用する標準的な教師付き事前トレーニングとは異なり、分類のための画像パッチの可視サブセットのみを利用する。
論文 参考訳(メタデータ) (2022-05-28T23:05:03Z) - Model-Agnostic Multitask Fine-tuning for Few-shot Vision-Language
Transfer Learning [59.38343286807997]
未知タスクの視覚言語モデルのためのモデル非依存型マルチタスクファインチューニング(MAMF)を提案する。
モデルに依存しないメタラーニング(MAML)と比較して、MAMFは二段階最適化を捨て、一階勾配のみを使用する。
MAMFは5つのベンチマークデータセット上で、数ショットの転送学習において古典的な微調整法よりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-03-09T17:26:53Z) - Masked Autoencoders Are Scalable Vision Learners [60.97703494764904]
Masked Autoencoders (MAE) は、コンピュータビジョンのためのスケーラブルな自己教師型学習システムである。
我々は入力画像のランダムなパッチを隠蔽し、欠落したピクセルを再構成する。
これら2つの設計を結合することで,大規模モデルを効率的かつ効率的にトレーニングすることが可能になります。
論文 参考訳(メタデータ) (2021-11-11T18:46:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。