論文の概要: SemPLeS: Semantic Prompt Learning for Weakly-Supervised Semantic
Segmentation
- arxiv url: http://arxiv.org/abs/2401.11791v2
- Date: Mon, 11 Mar 2024 04:01:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 14:42:48.416401
- Title: SemPLeS: Semantic Prompt Learning for Weakly-Supervised Semantic
Segmentation
- Title(参考訳): SemPLeS: 弱教師付きセマンティックセグメンテーションのためのセマンティックプロンプト学習
- Authors: Ci-Siang Lin, Chien-Yi Wang, Yu-Chiang Frank Wang, Min-Hung Chen
- Abstract要約: Weakly-Supervised Semantic (WSSS) は、画像レベルの監督のみで画像データを用いてセグメンテーションモデルを訓練することを目的としている。
本稿では,CLIP潜伏空間を効果的に促進するためのWSSS(Semantic Prompt Learning for WSSS)フレームワークを提案する。
SemPLeSはオブジェクト領域と関連するクラスラベル間のセマンティックアライメントを改善することができる。
- 参考スコア(独自算出の注目度): 36.41778553250247
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Weakly-Supervised Semantic Segmentation (WSSS) aims to train segmentation
models using image data with only image-level supervision. Since precise
pixel-level annotations are not accessible, existing methods typically focus on
producing pseudo masks for training segmentation models by refining CAM-like
heatmaps. However, the produced heatmaps may capture only the discriminative
image regions of object categories or the associated co-occurring backgrounds.
To address the issues, we propose a Semantic Prompt Learning for WSSS (SemPLeS)
framework, which learns to effectively prompt the CLIP latent space to enhance
the semantic alignment between the segmented regions and the target object
categories. More specifically, we propose Contrastive Prompt Learning and
Prompt-guided Semantic Refinement to learn the prompts that adequately describe
and suppress the co-occurring backgrounds associated with each target object
category. In this way, SemPLeS can perform better semantic alignment between
object regions and the associated class labels, resulting in desired pseudo
masks for training the segmentation model. The proposed SemPLeS framework
achieves SOTA performance on the standard WSSS benchmarks, PASCAL VOC and MS
COCO, and shows compatibility with other WSSS methods. The source codes are
provided in the supplementary.
- Abstract(参考訳): Weakly-Supervised Semantic Segmentation (WSSS) は、画像レベルの監督のみで画像データを用いてセグメンテーションモデルを訓練することを目的としている。
正確なピクセルレベルのアノテーションはアクセスできないため、既存の手法ではCAMのようなヒートマップを精錬することでセグメンテーションモデルをトレーニングするための擬似マスクの作成に重点を置いている。
しかし、生成したヒートマップは、対象カテゴリの識別画像領域または関連する共起背景のみをキャプチャすることができる。
この問題に対処するため,SemPLeS(Semantic Prompt Learning for WSSS)フレームワークを提案する。このフレームワークはCLIP潜伏空間を効果的に促進し,セグメント化された領域と対象対象オブジェクトのセマンティックアライメントを強化する。
より具体的には、各対象対象カテゴリーに関連づけられた共起の背景を適切に記述し抑制するプロンプトを学ぶために、コントラスト付きプロンプト学習とプロンプトガイド付きセマンティックリファインメントを提案する。
このようにして、semplesは、オブジェクト領域と関連するクラスラベルの間のより優れたセマンティクスアライメントを実行し、セグメンテーションモデルのトレーニングに所望の擬似マスクを生成することができる。
提案するSemPLeSフレームワークは,標準的なWSSSベンチマーク,PASCAL VOC,MS COCO上でのSOTA性能を実現し,他のWSSSメソッドとの互換性を示す。
ソースコードは補足書に記載されている。
関連論文リスト
- Vocabulary-free Image Classification and Semantic Segmentation [71.78089106671581]
本稿では,Vocabulary-free Image Classification (VIC)タスクを導入する。これは,制約のない言語による意味空間から,既知の語彙を必要とせずに,入力画像にクラスを割り当てることを目的としている。
VICは、細かなカテゴリを含む数百万の概念を含む意味空間の広さのために、挑戦的である。
本稿では,事前学習された視覚言語モデルと外部データベースを利用した学習自由度手法CaSEDを提案する。
論文 参考訳(メタデータ) (2024-04-16T19:27:21Z) - Auxiliary Tasks Enhanced Dual-affinity Learning for Weakly Supervised
Semantic Segmentation [79.05949524349005]
AuxSegNet+は、サリエンシマップから豊富な情報を探索する弱教師付き補助学習フレームワークである。
また,サリエンシとセグメンテーションの特徴マップから画素レベルの親和性を学習するためのクロスタスク親和性学習機構を提案する。
論文 参考訳(メタデータ) (2024-03-02T10:03:21Z) - Question-Answer Cross Language Image Matching for Weakly Supervised
Semantic Segmentation [37.15828464616587]
クラスアクティベーションマップ(CAM)は、弱教師付きセマンティックセグメンテーションの一般的なツールとして登場した。
我々はWSSS(QA-CLIMS)のための質問応答クロスランゲージ画像マッチングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-18T10:55:13Z) - CLIP Is Also a Good Teacher: A New Learning Framework for Inductive
Zero-shot Semantic Segmentation [6.181169909576527]
汎用Zero-shot Semanticは、目に見えないカテゴリーと見えないカテゴリの両方を、目に見えないカテゴリの監督下だけに分割することを目的としている。
既存の手法では大規模な視覚言語モデル(VLM)を採用しており、ゼロショット性能が優れている。
ゼロショットおよびオープンボキャブラリタスクに適用されたクローズドセットセグメンテーション用に設計された任意のイメージエンコーダを実現するためのトレーニングフレームワークであるCLIP-ZSS(Zero-shot Semantic)を提案する。
論文 参考訳(メタデータ) (2023-10-03T09:33:47Z) - Location-Aware Self-Supervised Transformers [74.76585889813207]
画像部品の相対的な位置を予測し,セマンティックセグメンテーションのためのネットワークを事前訓練する。
参照パッチのサブセットを問合せのサブセットにマスキングすることで,タスクの難しさを制御します。
実験により,この位置認識事前学習が,いくつかの難解なセマンティックセグメンテーションベンチマークに競合する表現をもたらすことが示された。
論文 参考訳(メタデータ) (2022-12-05T16:24:29Z) - SLAM: Semantic Learning based Activation Map for Weakly Supervised
Semantic Segmentation [34.996841532954925]
SLAM(Semantic Learning based Activation Map)と呼ばれるWSSSのための新しい意味学習ベースのフレームワークを提案する。
まず、各オブジェクトカテゴリのセマンティックスを学習し、入力画像からカテゴリ固有のセマンティック埋め込みを抽出する意味エンコーダを設計する。
アクティベーションマップの正確性、完全性、コンパクト性、整合性を保証するため、4つの損失関数、すなわち、カテゴリ地上、カテゴリ背景、アクティベーション正規化、一貫性損失が提案される。
論文 参考訳(メタデータ) (2022-10-22T11:17:30Z) - Weakly-supervised segmentation of referring expressions [81.73850439141374]
テキスト基底セマンティックSEGmentationは、ピクセルレベルのアノテーションなしで画像レベルの参照式から直接セグメンテーションマスクを学習する。
提案手法は,PhraseCutおよびRefCOCOデータセット上での表現セグメンテーションを弱教師付きで参照する際の有望な結果を示す。
論文 参考訳(メタデータ) (2022-05-10T07:52:24Z) - Leveraging Auxiliary Tasks with Affinity Learning for Weakly Supervised
Semantic Segmentation [88.49669148290306]
そこで我々はAuxSegNetと呼ばれる弱教師付きマルチタスク・フレームワークを提案し,サリエンシ検出とマルチラベル画像分類を補助タスクとして活用する。
同様の構造的セマンティクスに着想を得て,サリエンシとセグメンテーションの表現から,クロスタスクなグローバル画素レベルの親和性マップを学習することを提案する。
学習されたクロスタスク親和性は、両方のタスクに対して改善された擬似ラベルを提供するために、唾液度予測を洗練し、CAMマップを伝播するために使用することができる。
論文 参考訳(メタデータ) (2021-07-25T11:39:58Z) - Causal Intervention for Weakly-Supervised Semantic Segmentation [122.1846968696862]
画像レベルのラベルのみを用いて、より優れたピクセルレベルの擬似マスクを生成することを目指している。
画像,コンテキスト,およびクラスラベル間の因果関係を分析するための構造因果モデルを提案する。
そこで本研究では,画像レベルの分類において,矛盾するバイアスを取り除くためのコンテキスト調整(CONTA)手法を提案する。
論文 参考訳(メタデータ) (2020-09-26T09:26:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。