論文の概要: Joint-Embedding Predictive Architecture for Self-Supervised Learning of Mask Classification Architecture
- arxiv url: http://arxiv.org/abs/2407.10733v1
- Date: Mon, 15 Jul 2024 14:01:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 15:01:44.782767
- Title: Joint-Embedding Predictive Architecture for Self-Supervised Learning of Mask Classification Architecture
- Title(参考訳): マスク分類アーキテクチャの自己教師付き学習のための統合埋め込み予測アーキテクチャ
- Authors: Dong-Hee Kim, Sungduk Cho, Hyeonwoo Cho, Chanmin Park, Jinyoung Kim, Won Hwa Kim,
- Abstract要約: マスク分類アーキテクチャ(MCA)に適した自己教師型学習フレームワークであるMask-JEPAを紹介する。
Mask-JEPAは、統合埋め込み予測アーキテクチャとMCAを組み合わせることで、複雑なセマンティクスと正確なオブジェクト境界を正確にキャプチャする。
提案手法は,1) 画素デコーダから普遍的画像分割のための包括的表現を抽出し,2) 変換器デコーダを効果的に訓練する,自己教師型学習における2つの重要な課題に対処する。
- 参考スコア(独自算出の注目度): 5.872289712903129
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we introduce Mask-JEPA, a self-supervised learning framework tailored for mask classification architectures (MCA), to overcome the traditional constraints associated with training segmentation models. Mask-JEPA combines a Joint Embedding Predictive Architecture with MCA to adeptly capture intricate semantics and precise object boundaries. Our approach addresses two critical challenges in self-supervised learning: 1) extracting comprehensive representations for universal image segmentation from a pixel decoder, and 2) effectively training the transformer decoder. The use of the transformer decoder as a predictor within the JEPA framework allows proficient training in universal image segmentation tasks. Through rigorous evaluations on datasets such as ADE20K, Cityscapes and COCO, Mask-JEPA demonstrates not only competitive results but also exceptional adaptability and robustness across various training scenarios. The architecture-agnostic nature of Mask-JEPA further underscores its versatility, allowing seamless adaptation to various mask classification family.
- Abstract(参考訳): 本研究では,マスク分類アーキテクチャ(MCA)に適した自己教師型学習フレームワークであるMask-JEPAを紹介する。
Mask-JEPAは、統合埋め込み予測アーキテクチャとMCAを組み合わせることで、複雑なセマンティクスと正確なオブジェクト境界を正確にキャプチャする。
我々のアプローチは、自己指導型学習における2つの重要な課題に対処する。
1)画素デコーダから普遍的な画像分割のための包括的表現を抽出し、
2) トランスデコーダを効果的に訓練する。
JEPAフレームワーク内の予測子としてTransformer Decoderを使用することで、ユニバーサルイメージセグメンテーションタスクの熟練したトレーニングが可能になる。
ADE20KやCityscapes、COCOといったデータセットに対する厳格な評価を通じて、Mask-JEPAは競争結果だけでなく、さまざまなトレーニングシナリオにおける例外的な適応性と堅牢性も示している。
Mask-JEPAのアーキテクチャに依存しない性質は、その汎用性をさらに強調し、様々なマスク分類群へのシームレスな適応を可能にしている。
関連論文リスト
- Bringing Masked Autoencoders Explicit Contrastive Properties for Point Cloud Self-Supervised Learning [116.75939193785143]
画像領域における視覚変換器(ViT)のコントラスト学習(CL)は、従来の畳み込みバックボーンのCLに匹敵する性能を達成した。
ViTで事前訓練した3Dポイントクラウドでは、マスク付きオートエンコーダ(MAE)モデリングが主流である。
論文 参考訳(メタデータ) (2024-07-08T12:28:56Z) - Pseudo Labelling for Enhanced Masked Autoencoders [27.029542823306866]
クラストークンとデータトークンの両方に擬似ラベリングを統合することで,Masked Autoencoders (MAE) の性能を向上させる手法を提案する。
この戦略では、クラスタ割り当てを擬似ラベルとして使用して、ネットワーク内のインスタンスレベルの識別を促進する。
擬似ラベリングを補助タスクとして組み込むことで,ImageNet-1Kなどの下流タスクに顕著な改善が見られた。
論文 参考訳(メタデータ) (2024-06-25T10:41:45Z) - UGMAE: A Unified Framework for Graph Masked Autoencoders [67.75493040186859]
グラフマスク付きオートエンコーダのための統一フレームワークであるUGMAEを提案する。
まず,ノードの特異性を考慮した適応型特徴マスク生成器を開発した。
次に,階層型構造再構成と特徴再構成を併用し,総合的なグラフ情報を取得する。
論文 参考訳(メタデータ) (2024-02-12T19:39:26Z) - Understanding Masked Autoencoders From a Local Contrastive Perspective [80.57196495601826]
Masked AutoEncoder (MAE)は、シンプルだが効果的なマスキングと再構築戦略によって、自己指導型学習の分野に革命をもたらした。
そこで我々は,MaEの再構成的側面とコントラスト的側面の両方を解析するために,ローカルコントラストMAEと呼ばれる新しい経験的枠組みを導入する。
論文 参考訳(メタデータ) (2023-10-03T12:08:15Z) - CL-MAE: Curriculum-Learned Masked Autoencoders [49.24994655813455]
本稿では,自己指導型再建作業の複雑さを継続的に増大させるために,マスキング戦略を更新するカリキュラム学習手法を提案する。
我々は、ImageNet上でCL-MAE(Curriculum-Learned Masked Autoencoder)をトレーニングし、MAEよりも優れた表現学習能力を示すことを示す。
論文 参考訳(メタデータ) (2023-08-31T09:13:30Z) - i-MAE: Are Latent Representations in Masked Autoencoders Linearly Separable? [26.146459754995597]
マスク付き画像モデリング(MIM)は視覚領域における自己監督型事前学習の強力なアプローチとして認識されている。
本稿では,表現能力を高めるために,インタラクティブなMasked Autoencoders (i-MAE) フレームワークを提案する。
潜在表現の特徴を質的に解析することに加えて,線形分離性の存在と潜在空間における意味論の程度について検討する。
論文 参考訳(メタデータ) (2022-10-20T17:59:54Z) - Exploiting Shape Cues for Weakly Supervised Semantic Segmentation [15.791415215216029]
弱教師付きセマンティックセマンティックセグメンテーション (WSSS) は、画像レベルのラベルのみをトレーニング用として、画素単位のクラス予測を生成することを目的としている。
畳み込みニューラルネットワーク(CNN)のテクスチャバイアス特性を補うために形状情報を活用することを提案する。
我々は、クラスと色親和性の両方を考慮した新しい改良手法により、オンライン方式で予測をさらに洗練する。
論文 参考訳(メタデータ) (2022-08-08T17:25:31Z) - Open-World Instance Segmentation: Exploiting Pseudo Ground Truth From
Learned Pairwise Affinity [59.1823948436411]
我々は、マスク提案のための新しいアプローチ、ジェネリックグループネットワーク(GGN)を提案する。
我々のアプローチは、ピクセル親和性の局所測定とインスタンスレベルのマスク監視を組み合わせることで、データの多様性が許容するほど汎用的なモデルを設計したトレーニングレギュレータを生成する。
論文 参考訳(メタデータ) (2022-04-12T22:37:49Z) - Self-Supervised Visual Representations Learning by Contrastive Mask
Prediction [129.25459808288025]
視覚表現学習のための新しいコントラストマスク予測(CMP)タスクを提案する。
MaskCoは、ビューレベルの機能ではなく、リージョンレベルの機能と対比している。
我々は、ImageNet以外のデータセットのトレーニングでMaskCoを評価し、そのパフォーマンスをMoCo V2と比較した。
論文 参考訳(メタデータ) (2021-08-18T02:50:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。