論文の概要: Masked Momentum Contrastive Learning for Zero-shot Semantic
Understanding
- arxiv url: http://arxiv.org/abs/2308.11448v1
- Date: Tue, 22 Aug 2023 13:55:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-23 18:00:19.946559
- Title: Masked Momentum Contrastive Learning for Zero-shot Semantic
Understanding
- Title(参考訳): ゼロショット意味理解のためのマスクモーメントコントラスト学習
- Authors: Jiantao Wu and Shentong Mo and Muhammad Awais and Sara Atito and
Zhenhua Feng and Josef Kittler
- Abstract要約: 自己教師付き事前学習(SSP)は、ラベル付きデータなしで有意義な特徴表現を抽出できる機械学習の一般的な手法として登場した。
本研究は、コンピュータビジョンタスクにおける純粋な自己教師付き学習(SSL)技術の有効性を評価する。
- 参考スコア(独自算出の注目度): 39.424931953675994
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervised pretraining (SSP) has emerged as a popular technique in
machine learning, enabling the extraction of meaningful feature representations
without labelled data. In the realm of computer vision, pretrained vision
transformers (ViTs) have played a pivotal role in advancing transfer learning.
Nonetheless, the escalating cost of finetuning these large models has posed a
challenge due to the explosion of model size. This study endeavours to evaluate
the effectiveness of pure self-supervised learning (SSL) techniques in computer
vision tasks, obviating the need for finetuning, with the intention of
emulating human-like capabilities in generalisation and recognition of unseen
objects. To this end, we propose an evaluation protocol for zero-shot
segmentation based on a prompting patch. Given a point on the target object as
a prompt, the algorithm calculates the similarity map between the selected
patch and other patches, upon that, a simple thresholding is applied to segment
the target. Another evaluation is intra-object and inter-object similarity to
gauge discriminatory ability of SSP ViTs. Insights from zero-shot segmentation
from prompting and discriminatory abilities of SSP led to the design of a
simple SSP approach, termed MMC. This approaches combines Masked image
modelling for encouraging similarity of local features, Momentum based
self-distillation for transferring semantics from global to local features, and
global Contrast for promoting semantics of global features, to enhance
discriminative representations of SSP ViTs. Consequently, our proposed method
significantly reduces the overlap of intra-object and inter-object
similarities, thereby facilitating effective object segmentation within an
image. Our experiments reveal that MMC delivers top-tier results in zero-shot
semantic segmentation across various datasets.
- Abstract(参考訳): 自己教師付き事前学習(SSP)は、ラベル付きデータなしで有意義な特徴表現を抽出できる機械学習の一般的な手法として登場した。
コンピュータビジョンの領域では、事前学習された視覚変換器(ViT)が伝達学習において重要な役割を担っている。
それでも、これらの大型モデルを微調整するコストの高騰は、モデルサイズの爆発による課題を生じさせている。
本研究は、コンピュータビジョンタスクにおける純粋な自己教師あり学習(SSL)技術の有効性を評価し、人間のような能力を一般化・認識する目的で微調整の必要性を回避しようとするものである。
そこで本研究では,プロンプトパッチに基づくゼロショットセグメンテーションの評価プロトコルを提案する。
プロンプトとして対象オブジェクト上のポイントが与えられると、アルゴリズムは選択されたパッチと他のパッチとの類似度マップを計算し、それに基づいて単純なしきい値を適用してターゲットを分割する。
もう一つの評価は、SSP ViTの識別能力とオブジェクト内およびオブジェクト間類似性である。
ゼロショットセグメンテーション(ゼロショットセグメンテーション)によるSSPの促進と識別能力からの洞察は、MCCと呼ばれる単純なSSPアプローチの設計につながった。
このアプローチは、局所特徴の類似性を促進するMaskedイメージモデリング、グローバル特徴から局所特徴への意味の伝達のためのMomentumベースの自己蒸留、グローバル特徴のセマンティクスを促進するグローバルコントラストを組み合わせて、SSP ViTの識別表現を強化する。
提案手法はオブジェクト内およびオブジェクト間類似性の重複を著しく低減し,画像内の効果的なオブジェクト分割を容易にする。
実験の結果,MCCは様々なデータセットにまたがるゼロショットセマンティックセマンティックセマンティックセグメンテーションの上位層を提供することがわかった。
関連論文リスト
- An Information Compensation Framework for Zero-Shot Skeleton-based Action Recognition [49.45660055499103]
ゼロショットの人間の骨格に基づく行動認識は、トレーニング中に見られるカテゴリ外の行動を認識するモデルを構築することを目的としている。
従来の研究では、シーケンスの視覚的空間分布と意味的空間分布の整合性に焦点が当てられていた。
強固で頑健な表現を得るために,新たな損失関数サンプリング手法を提案する。
論文 参考訳(メタデータ) (2024-06-02T06:53:01Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - Weakly-Supervised Concealed Object Segmentation with SAM-based Pseudo
Labeling and Multi-scale Feature Grouping [40.07070188661184]
Wakly-Supervised Concealed Object (WSCOS) は、周囲の環境とうまく融合したオブジェクトを分割することを目的としている。
内在的な類似性のため、背景から隠された物体を区別することは困難である。
これら2つの課題に対処する新しいWSCOS手法を提案する。
論文 参考訳(メタデータ) (2023-05-18T14:31:34Z) - De-coupling and De-positioning Dense Self-supervised Learning [65.56679416475943]
Dense Self-Supervised Learning (SSL)メソッドは、複数のオブジェクトでイメージを処理する際に、画像レベルの特徴表現を使用する際の制限に対処する。
本研究は, 層深度やゼロパディングに伴う受容野の増大によって生じる, 結合と位置バイアスに悩まされていることを示す。
我々はCOCOにおける本手法の利点と、オブジェクト分類、セマンティックセグメンテーション、オブジェクト検出のための新しい挑戦的ベンチマークであるOpenImage-MINIについて示す。
論文 参考訳(メタデータ) (2023-03-29T18:07:25Z) - Self-supervised Pre-training for Semantic Segmentation in an Indoor
Scene [8.357801312689622]
本稿ではセグメンテーションモデルの自己教師型事前学習手法であるRegConsistを提案する。
我々は,対象環境におけるRGBビューからのセマンティックセグメンテーションを予測するために,コントラスト学習の変種を用いてDCNNモデルを訓練する。
提案手法は、ImageNetで事前訓練されたモデルよりも優れており、全く同じタスクでトレーニングされたモデルと異なるデータセットでトレーニングされたモデルを使用する場合の競合性能を実現する。
論文 参考訳(メタデータ) (2022-10-04T20:10:14Z) - UniVIP: A Unified Framework for Self-Supervised Visual Pre-training [50.87603616476038]
単一中心オブジェクトまたは非調和データセット上で,汎用的な視覚表現を学習するための,新しい自己教師型フレームワークを提案する。
大規模実験により、非高調波COCOで事前訓練されたUniVIPは、最先端の転送性能を実現することが示された。
また、ImageNetのような単一中心オブジェクトのデータセットを利用でき、線形探索において同じ事前学習エポックでBYOLを2.5%上回る。
論文 参考訳(メタデータ) (2022-03-14T10:04:04Z) - SSA: Semantic Structure Aware Inference for Weakly Pixel-Wise Dense
Predictions without Cost [36.27226683586425]
The semantic structure aware inference (SSA) was proposed to explore the semantic structure information hidden in different stage of the CNN-based network to generate high-quality CAM in the model inference。
提案手法はパラメータを含まない利点があり,訓練は不要である。したがって,弱教師付き画素ワイド予測タスクにも適用可能である。
論文 参考訳(メタデータ) (2021-11-05T11:07:21Z) - Improving Few-shot Learning by Spatially-aware Matching and
CrossTransformer [116.46533207849619]
数ショット学習シナリオにおけるスケールと位置ミスマッチの影響について検討する。
本稿では,複数のスケールや場所のマッチングを効果的に行うための,空間認識型マッチング手法を提案する。
論文 参考訳(メタデータ) (2020-01-06T14:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。