論文の概要: SemPLeS: Semantic Prompt Learning for Weakly-Supervised Semantic
Segmentation
- arxiv url: http://arxiv.org/abs/2401.11791v1
- Date: Mon, 22 Jan 2024 09:41:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-23 14:49:41.663832
- Title: SemPLeS: Semantic Prompt Learning for Weakly-Supervised Semantic
Segmentation
- Title(参考訳): SemPLeS: 弱教師付きセマンティックセグメンテーションのためのセマンティックプロンプト学習
- Authors: Ci-Siang Lin, Chien-Yi Wang, Yu-Chiang Frank Wang, Min-Hung Chen
- Abstract要約: Weakly-Supervised Semantic (WSSS) は、画像レベルの監視のみを使用して、トレーニング画像データを使用してセグメンテーションモデルをトレーニングすることを目的としている。
正確なピクセルレベルのアノテーションはアクセスできないため、既存の手法ではCAMのようなヒートマップを精錬することでセグメンテーションモデルをトレーニングするための擬似マスクの作成に重点を置いている。
本稿では,WSSS(SemPLeS)フレームワークを提案する。このフレームワークはCLIP空間を効果的に促進し,セグメント化された領域と対象オブジェクトのカテゴリ間のセマンティックアライメントを強化する。
- 参考スコア(独自算出の注目度): 36.41778553250247
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Weakly-Supervised Semantic Segmentation (WSSS) aims to train segmentation
models using training image data with only image-level supervision. Since
precise pixel-level annotations are not accessible, existing methods typically
focus on producing pseudo masks for training segmentation models by refining
CAM-like heatmaps. However, the produced heatmaps may only capture
discriminative image regions of target object categories or the associated
co-occurring backgrounds. To address the issues, we propose a Semantic Prompt
Learning for WSSS (SemPLeS) framework, which learns to effectively prompt the
CLIP space to enhance the semantic alignment between the segmented regions and
the target object categories. More specifically, we propose Contrastive Prompt
Learning and Class-associated Semantic Refinement to learn the prompts that
adequately describe and suppress the image backgrounds associated with each
target object category. In this way, our proposed framework is able to perform
better semantic matching between object regions and the associated text labels,
resulting in desired pseudo masks for training the segmentation model. The
proposed SemPLeS framework achieves SOTA performance on the standard WSSS
benchmarks, PASCAL VOC and MS COCO, and demonstrated interpretability with the
semantic visualization of our learned prompts. The codes will be released.
- Abstract(参考訳): Weakly-Supervised Semantic Segmentation (WSSS) は、画像レベルの監視のみを使用して、トレーニング画像データを使用してセグメンテーションモデルをトレーニングすることを目的としている。
正確なピクセルレベルのアノテーションはアクセスできないため、既存の手法ではCAMのようなヒートマップを精錬することでセグメンテーションモデルをトレーニングするための擬似マスクの作成に重点を置いている。
しかし、生成したヒートマップは、対象対象カテゴリの識別画像領域または関連する共起背景のみをキャプチャする。
この問題に対処するため,SemPLeS(Semantic Prompt Learning for WSSS)フレームワークを提案する。このフレームワークはCLIP空間を効果的に促進し,セグメント化された領域と対象のオブジェクトカテゴリ間のセマンティックアライメントを強化する。
具体的には,各対象カテゴリに関連する画像背景を適切に記述し,抑制するプロンプトを学習するために,コントラスト・プロンプト学習とクラス関連セマンティック・リファインメントを提案する。
このようにして提案するフレームワークでは,オブジェクト領域と関連するテキストラベル間の意味的マッチングが向上し,セグメンテーションモデルをトレーニングするための擬似マスクが望ましい。
提案するSemPLeSフレームワークは,標準的なWSSSベンチマーク,PASCAL VOC,MS COCO上でのSOTA性能を実現し,学習プロンプトのセマンティックビジュアライゼーションによる解釈性を示した。
コードはリリースされます。
関連論文リスト
- Vocabulary-free Image Classification and Semantic Segmentation [71.78089106671581]
本稿では,Vocabulary-free Image Classification (VIC)タスクを導入する。これは,制約のない言語による意味空間から,既知の語彙を必要とせずに,入力画像にクラスを割り当てることを目的としている。
VICは、細かなカテゴリを含む数百万の概念を含む意味空間の広さのために、挑戦的である。
本稿では,事前学習された視覚言語モデルと外部データベースを利用した学習自由度手法CaSEDを提案する。
論文 参考訳(メタデータ) (2024-04-16T19:27:21Z) - Auxiliary Tasks Enhanced Dual-affinity Learning for Weakly Supervised
Semantic Segmentation [79.05949524349005]
AuxSegNet+は、サリエンシマップから豊富な情報を探索する弱教師付き補助学習フレームワークである。
また,サリエンシとセグメンテーションの特徴マップから画素レベルの親和性を学習するためのクロスタスク親和性学習機構を提案する。
論文 参考訳(メタデータ) (2024-03-02T10:03:21Z) - Question-Answer Cross Language Image Matching for Weakly Supervised
Semantic Segmentation [37.15828464616587]
クラスアクティベーションマップ(CAM)は、弱教師付きセマンティックセグメンテーションの一般的なツールとして登場した。
我々はWSSS(QA-CLIMS)のための質問応答クロスランゲージ画像マッチングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-18T10:55:13Z) - CLIP Is Also a Good Teacher: A New Learning Framework for Inductive
Zero-shot Semantic Segmentation [6.181169909576527]
汎用Zero-shot Semanticは、目に見えないカテゴリーと見えないカテゴリの両方を、目に見えないカテゴリの監督下だけに分割することを目的としている。
既存の手法では大規模な視覚言語モデル(VLM)を採用しており、ゼロショット性能が優れている。
ゼロショットおよびオープンボキャブラリタスクに適用されたクローズドセットセグメンテーション用に設計された任意のイメージエンコーダを実現するためのトレーニングフレームワークであるCLIP-ZSS(Zero-shot Semantic)を提案する。
論文 参考訳(メタデータ) (2023-10-03T09:33:47Z) - Location-Aware Self-Supervised Transformers [74.76585889813207]
画像部品の相対的な位置を予測し,セマンティックセグメンテーションのためのネットワークを事前訓練する。
参照パッチのサブセットを問合せのサブセットにマスキングすることで,タスクの難しさを制御します。
実験により,この位置認識事前学習が,いくつかの難解なセマンティックセグメンテーションベンチマークに競合する表現をもたらすことが示された。
論文 参考訳(メタデータ) (2022-12-05T16:24:29Z) - SLAM: Semantic Learning based Activation Map for Weakly Supervised
Semantic Segmentation [34.996841532954925]
SLAM(Semantic Learning based Activation Map)と呼ばれるWSSSのための新しい意味学習ベースのフレームワークを提案する。
まず、各オブジェクトカテゴリのセマンティックスを学習し、入力画像からカテゴリ固有のセマンティック埋め込みを抽出する意味エンコーダを設計する。
アクティベーションマップの正確性、完全性、コンパクト性、整合性を保証するため、4つの損失関数、すなわち、カテゴリ地上、カテゴリ背景、アクティベーション正規化、一貫性損失が提案される。
論文 参考訳(メタデータ) (2022-10-22T11:17:30Z) - Weakly-supervised segmentation of referring expressions [81.73850439141374]
テキスト基底セマンティックSEGmentationは、ピクセルレベルのアノテーションなしで画像レベルの参照式から直接セグメンテーションマスクを学習する。
提案手法は,PhraseCutおよびRefCOCOデータセット上での表現セグメンテーションを弱教師付きで参照する際の有望な結果を示す。
論文 参考訳(メタデータ) (2022-05-10T07:52:24Z) - Leveraging Auxiliary Tasks with Affinity Learning for Weakly Supervised
Semantic Segmentation [88.49669148290306]
そこで我々はAuxSegNetと呼ばれる弱教師付きマルチタスク・フレームワークを提案し,サリエンシ検出とマルチラベル画像分類を補助タスクとして活用する。
同様の構造的セマンティクスに着想を得て,サリエンシとセグメンテーションの表現から,クロスタスクなグローバル画素レベルの親和性マップを学習することを提案する。
学習されたクロスタスク親和性は、両方のタスクに対して改善された擬似ラベルを提供するために、唾液度予測を洗練し、CAMマップを伝播するために使用することができる。
論文 参考訳(メタデータ) (2021-07-25T11:39:58Z) - Causal Intervention for Weakly-Supervised Semantic Segmentation [122.1846968696862]
画像レベルのラベルのみを用いて、より優れたピクセルレベルの擬似マスクを生成することを目指している。
画像,コンテキスト,およびクラスラベル間の因果関係を分析するための構造因果モデルを提案する。
そこで本研究では,画像レベルの分類において,矛盾するバイアスを取り除くためのコンテキスト調整(CONTA)手法を提案する。
論文 参考訳(メタデータ) (2020-09-26T09:26:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。