論文の概要: Pseudo Labelling for Enhanced Masked Autoencoders
- arxiv url: http://arxiv.org/abs/2406.17450v1
- Date: Tue, 25 Jun 2024 10:41:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-26 14:42:03.063205
- Title: Pseudo Labelling for Enhanced Masked Autoencoders
- Title(参考訳): マスクオートエンコーダの擬似ラベリング
- Authors: Srinivasa Rao Nandam, Sara Atito, Zhenhua Feng, Josef Kittler, Muhammad Awais,
- Abstract要約: クラストークンとデータトークンの両方に擬似ラベリングを統合することで,Masked Autoencoders (MAE) の性能を向上させる手法を提案する。
この戦略では、クラスタ割り当てを擬似ラベルとして使用して、ネットワーク内のインスタンスレベルの識別を促進する。
擬似ラベリングを補助タスクとして組み込むことで,ImageNet-1Kなどの下流タスクに顕著な改善が見られた。
- 参考スコア(独自算出の注目度): 27.029542823306866
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Masked Image Modeling (MIM)-based models, such as SdAE, CAE, GreenMIM, and MixAE, have explored different strategies to enhance the performance of Masked Autoencoders (MAE) by modifying prediction, loss functions, or incorporating additional architectural components. In this paper, we propose an enhanced approach that boosts MAE performance by integrating pseudo labelling for both class and data tokens, alongside replacing the traditional pixel-level reconstruction with token-level reconstruction. This strategy uses cluster assignments as pseudo labels to promote instance-level discrimination within the network, while token reconstruction requires generation of discrete tokens encapturing local context. The targets for pseudo labelling and reconstruction needs to be generated by a teacher network. To disentangle the generation of target pseudo labels and the reconstruction of the token features, we decouple the teacher into two distinct models, where one serves as a labelling teacher and the other as a reconstruction teacher. This separation proves empirically superior to a single teacher, while having negligible impact on throughput and memory consumption. Incorporating pseudo-labelling as an auxiliary task has demonstrated notable improvements in ImageNet-1K and other downstream tasks, including classification, semantic segmentation, and detection.
- Abstract(参考訳): SdAE、CAE、GreenMIM、MixAEなどのMasked Image Modeling(MIM)ベースのモデルでは、予測、損失関数の変更、追加のアーキテクチャコンポーネントの導入により、Masked Autoencoders(MAE)のパフォーマンスを向上させるさまざまな戦略が検討されている。
本稿では,従来の画素レベルの再構築をトークンレベルの再構築に置き換えた上で,クラストークンとデータトークンの両方に擬似ラベリングを統合することで,MAE性能を向上させるアプローチを提案する。
この戦略では、クラスタ割り当てを擬似ラベルとして使用して、ネットワーク内のインスタンスレベルの識別を促進する一方で、トークン再構成では、ローカルコンテキストをカプセル化した離散トークンを生成する必要がある。
擬似ラベリングと再構成のターゲットは教師ネットワークによって生成される必要がある。
対象の擬似ラベルの生成とトークンの特徴の再構築を両立させるため,教師を2つの異なるモデルに分離する。
この分離は、スループットとメモリ消費に無視できる影響を与えながら、単一の教師よりも経験的に優れていることを証明している。
擬似ラベリングを補助タスクとして組み込むことで、ImageNet-1Kや他の下流タスク(分類、セマンティックセグメンテーション、検出など)が顕著に改善された。
関連論文リスト
- MaskUno: Switch-Split Block For Enhancing Instance Segmentation [0.0]
マスク予測を洗練されたROIを処理し、それらを分類し、特定のマスク予測者に割り当てるスイッチスプリットブロックに置き換えることを提案する。
平均平均精度(mAP)が2.03%上昇し,80クラスにおいて高い成績を示した。
論文 参考訳(メタデータ) (2024-07-31T10:12:14Z) - Auxiliary Tasks Enhanced Dual-affinity Learning for Weakly Supervised
Semantic Segmentation [79.05949524349005]
AuxSegNet+は、サリエンシマップから豊富な情報を探索する弱教師付き補助学習フレームワークである。
また,サリエンシとセグメンテーションの特徴マップから画素レベルの親和性を学習するためのクロスタスク親和性学習機構を提案する。
論文 参考訳(メタデータ) (2024-03-02T10:03:21Z) - UGMAE: A Unified Framework for Graph Masked Autoencoders [67.75493040186859]
グラフマスク付きオートエンコーダのための統一フレームワークであるUGMAEを提案する。
まず,ノードの特異性を考慮した適応型特徴マスク生成器を開発した。
次に,階層型構造再構成と特徴再構成を併用し,総合的なグラフ情報を取得する。
論文 参考訳(メタデータ) (2024-02-12T19:39:26Z) - MCTformer+: Multi-Class Token Transformer for Weakly Supervised Semantic
Segmentation [90.73815426893034]
弱教師付きセマンティックセグメンテーションの強化を目的としたトランスフォーマーベースのフレームワークを提案する。
複数のクラストークンを組み込んだマルチクラストークン変換器を導入し,パッチトークンとのクラス認識インタラクションを実現する。
識別型クラストークンの学習を促進するために,Contrastive-Class-Token (CCT)モジュールを提案する。
論文 参考訳(メタデータ) (2023-08-06T03:30:20Z) - DiffusePast: Diffusion-based Generative Replay for Class Incremental
Semantic Segmentation [73.54038780856554]
クラスインクリメンタルセマンティック(CISS)は、新たに追加されたクラスを漸進的に学習することで、従来のセグメンテーションタスクを拡張する。
これは、事前訓練されたGANから生成された古いクラスサンプルを再生するものである。
そこで我々はDiffusePastを提案する。DiffusePastは拡散型生成再生モジュールを特徴とする新しいフレームワークで、異なる命令でより信頼性の高いマスクで意味論的に正確な画像を生成する。
論文 参考訳(メタデータ) (2023-08-02T13:13:18Z) - Unified Mask Embedding and Correspondence Learning for Self-Supervised
Video Segmentation [76.40565872257709]
我々は、局所的な識別的特徴学習のためのフレーム間密度対応を同時にモデル化する統合フレームワークを開発する。
ラベルなしビデオから直接マスク誘導シーケンシャルセグメンテーションを実行することができる。
我々のアルゴリズムは、2つの標準ベンチマーク(DAVIS17とYouTube-VOS)に最先端をセットする。
論文 参考訳(メタデータ) (2023-03-17T16:23:36Z) - Leveraging Auxiliary Tasks with Affinity Learning for Weakly Supervised
Semantic Segmentation [88.49669148290306]
そこで我々はAuxSegNetと呼ばれる弱教師付きマルチタスク・フレームワークを提案し,サリエンシ検出とマルチラベル画像分類を補助タスクとして活用する。
同様の構造的セマンティクスに着想を得て,サリエンシとセグメンテーションの表現から,クロスタスクなグローバル画素レベルの親和性マップを学習することを提案する。
学習されたクロスタスク親和性は、両方のタスクに対して改善された擬似ラベルを提供するために、唾液度予測を洗練し、CAMマップを伝播するために使用することができる。
論文 参考訳(メタデータ) (2021-07-25T11:39:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。