論文の概要: The Dynamic Duo of Collaborative Masking and Target for Advanced Masked Autoencoder Learning
- arxiv url: http://arxiv.org/abs/2412.17566v1
- Date: Mon, 23 Dec 2024 13:37:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 16:01:22.391773
- Title: The Dynamic Duo of Collaborative Masking and Target for Advanced Masked Autoencoder Learning
- Title(参考訳): 高度なマスクオートエンコーダ学習のための協調型マスキングとターゲットの動的デュオ
- Authors: Shentong Mo,
- Abstract要約: CMT-MAEは、教師モデルと学生モデルの両方の注意を通した線形アグリゲーションを通じて、単純な協調マスキング機構を活用する。
ImageNet-1Kで事前学習したフレームワークは、最先端の線形探索と微調整性能を実現する。
- 参考スコア(独自算出の注目度): 16.05598829701769
- License:
- Abstract: Masked autoencoders (MAE) have recently succeeded in self-supervised vision representation learning. Previous work mainly applied custom-designed (e.g., random, block-wise) masking or teacher (e.g., CLIP)-guided masking and targets. However, they ignore the potential role of the self-training (student) model in giving feedback to the teacher for masking and targets. In this work, we present to integrate Collaborative Masking and Targets for boosting Masked AutoEncoders, namely CMT-MAE. Specifically, CMT-MAE leverages a simple collaborative masking mechanism through linear aggregation across attentions from both teacher and student models. We further propose using the output features from those two models as the collaborative target of the decoder. Our simple and effective framework pre-trained on ImageNet-1K achieves state-of-the-art linear probing and fine-tuning performance. In particular, using ViT-base, we improve the fine-tuning results of the vanilla MAE from 83.6% to 85.7%.
- Abstract(参考訳): マスク付きオートエンコーダ(MAE)は近年,自己教師型視覚表現学習に成功している。
以前の作業では、主にカスタムデザイン(例:ランダム、ブロックワイド)のマスキングや教師(例:CLIP)のマスキングとターゲットを適用していた。
しかし,教師にマスキングや目標に対するフィードバックを与える際に,自己学習(学生)モデルが果たす役割は無視されている。
本研究では,協調型マスキングとターゲットを統合することで,マスク付きオートエンコーダ(CMT-MAE)を高速化する。
具体的には、CMT-MAEは、教師モデルと学生モデルの両方の注意を通した線形アグリゲーションを通じて、単純な協調マスキング機構を利用する。
さらに,これらの2つのモデルの出力特徴をデコーダの協調的ターゲットとして用いることを提案する。
ImageNet-1Kで事前学習した簡易かつ効果的なフレームワークは、最先端の線形探索と微調整性能を実現する。
特に、ViTベースを用いて、バニラMAEの微調整結果を83.6%から85.7%に改善する。
関連論文リスト
- Bringing Masked Autoencoders Explicit Contrastive Properties for Point Cloud Self-Supervised Learning [116.75939193785143]
画像領域における視覚変換器(ViT)のコントラスト学習(CL)は、従来の畳み込みバックボーンのCLに匹敵する性能を達成した。
ViTで事前訓練した3Dポイントクラウドでは、マスク付きオートエンコーダ(MAE)モデリングが主流である。
論文 参考訳(メタデータ) (2024-07-08T12:28:56Z) - Adapting LLaMA Decoder to Vision Transformer [65.47663195233802]
本研究は,LLaMAなどのデコーダのみのトランスフォーマーをコンピュータビジョン分野に適用できるかどうかを検討する。
まず、LLaMAのアーキテクチャと整合する標準的なViTを「LLaMAfy」と呼び、自己注意に因果マスクを直接適用することで、注意崩壊の問題が生じる。
我々は,訓練開始時の自己注意に因果マスクを徐々に導入し,最適化行動を容易にするソフトマスク戦略を開発する。
論文 参考訳(メタデータ) (2024-04-10T06:30:08Z) - CL-MAE: Curriculum-Learned Masked Autoencoders [49.24994655813455]
本稿では,自己指導型再建作業の複雑さを継続的に増大させるために,マスキング戦略を更新するカリキュラム学習手法を提案する。
我々は、ImageNet上でCL-MAE(Curriculum-Learned Masked Autoencoder)をトレーニングし、MAEよりも優れた表現学習能力を示すことを示す。
論文 参考訳(メタデータ) (2023-08-31T09:13:30Z) - Exploring The Role of Mean Teachers in Self-supervised Masked
Auto-Encoders [64.03000385267339]
マスク付き画像モデリング(MIM)は視覚変換器を用いた視覚表現の自己教師型学習(SSL)の一般的な戦略となっている。
簡単なSSL方式であるRC-MAE(Restruction-Consistent Masked Auto-Encoder)を提案する。
RC-MAEは、事前学習中に最先端の自己蒸留法よりも早く収束し、メモリ使用量の削減を必要とする。
論文 参考訳(メタデータ) (2022-10-05T08:08:55Z) - Exploring Target Representations for Masked Autoencoders [78.57196600585462]
目的表現の注意深い選択は、よい表現を学ぶために不要であることを示す。
本研究では,多段階のマスク蒸留パイプラインを提案し,無作為なモデルを教師として利用する。
自己指導型自己指導法を非自明なマージンで上回り, 自己指導型教員(dBOT)によるマスク付き知識蒸留を行う手法を提案する。
論文 参考訳(メタデータ) (2022-09-08T16:55:19Z) - Masked Autoencoders Are Scalable Vision Learners [60.97703494764904]
Masked Autoencoders (MAE) は、コンピュータビジョンのためのスケーラブルな自己教師型学習システムである。
我々は入力画像のランダムなパッチを隠蔽し、欠落したピクセルを再構成する。
これら2つの設計を結合することで,大規模モデルを効率的かつ効率的にトレーニングすることが可能になります。
論文 参考訳(メタデータ) (2021-11-11T18:46:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。