論文の概要: SemPLeS: Semantic Prompt Learning for Weakly-Supervised Semantic
Segmentation
- arxiv url: http://arxiv.org/abs/2401.11791v1
- Date: Mon, 22 Jan 2024 09:41:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-23 14:49:41.663832
- Title: SemPLeS: Semantic Prompt Learning for Weakly-Supervised Semantic
Segmentation
- Title(参考訳): SemPLeS: 弱教師付きセマンティックセグメンテーションのためのセマンティックプロンプト学習
- Authors: Ci-Siang Lin, Chien-Yi Wang, Yu-Chiang Frank Wang, Min-Hung Chen
- Abstract要約: Weakly-Supervised Semantic (WSSS) は、画像レベルの監視のみを使用して、トレーニング画像データを使用してセグメンテーションモデルをトレーニングすることを目的としている。
正確なピクセルレベルのアノテーションはアクセスできないため、既存の手法ではCAMのようなヒートマップを精錬することでセグメンテーションモデルをトレーニングするための擬似マスクの作成に重点を置いている。
本稿では,WSSS(SemPLeS)フレームワークを提案する。このフレームワークはCLIP空間を効果的に促進し,セグメント化された領域と対象オブジェクトのカテゴリ間のセマンティックアライメントを強化する。
- 参考スコア(独自算出の注目度): 36.41778553250247
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Weakly-Supervised Semantic Segmentation (WSSS) aims to train segmentation
models using training image data with only image-level supervision. Since
precise pixel-level annotations are not accessible, existing methods typically
focus on producing pseudo masks for training segmentation models by refining
CAM-like heatmaps. However, the produced heatmaps may only capture
discriminative image regions of target object categories or the associated
co-occurring backgrounds. To address the issues, we propose a Semantic Prompt
Learning for WSSS (SemPLeS) framework, which learns to effectively prompt the
CLIP space to enhance the semantic alignment between the segmented regions and
the target object categories. More specifically, we propose Contrastive Prompt
Learning and Class-associated Semantic Refinement to learn the prompts that
adequately describe and suppress the image backgrounds associated with each
target object category. In this way, our proposed framework is able to perform
better semantic matching between object regions and the associated text labels,
resulting in desired pseudo masks for training the segmentation model. The
proposed SemPLeS framework achieves SOTA performance on the standard WSSS
benchmarks, PASCAL VOC and MS COCO, and demonstrated interpretability with the
semantic visualization of our learned prompts. The codes will be released.
- Abstract(参考訳): Weakly-Supervised Semantic Segmentation (WSSS) は、画像レベルの監視のみを使用して、トレーニング画像データを使用してセグメンテーションモデルをトレーニングすることを目的としている。
正確なピクセルレベルのアノテーションはアクセスできないため、既存の手法ではCAMのようなヒートマップを精錬することでセグメンテーションモデルをトレーニングするための擬似マスクの作成に重点を置いている。
しかし、生成したヒートマップは、対象対象カテゴリの識別画像領域または関連する共起背景のみをキャプチャする。
この問題に対処するため,SemPLeS(Semantic Prompt Learning for WSSS)フレームワークを提案する。このフレームワークはCLIP空間を効果的に促進し,セグメント化された領域と対象のオブジェクトカテゴリ間のセマンティックアライメントを強化する。
具体的には,各対象カテゴリに関連する画像背景を適切に記述し,抑制するプロンプトを学習するために,コントラスト・プロンプト学習とクラス関連セマンティック・リファインメントを提案する。
このようにして提案するフレームワークでは,オブジェクト領域と関連するテキストラベル間の意味的マッチングが向上し,セグメンテーションモデルをトレーニングするための擬似マスクが望ましい。
提案するSemPLeSフレームワークは,標準的なWSSSベンチマーク,PASCAL VOC,MS COCO上でのSOTA性能を実現し,学習プロンプトのセマンティックビジュアライゼーションによる解釈性を示した。
コードはリリースされます。
関連論文リスト
- FGAseg: Fine-Grained Pixel-Text Alignment for Open-Vocabulary Semantic Segmentation [63.31007867379312]
Open-vocabulary segmentationは、テキストベースの記述に基づいて特定の領域やオブジェクトを識別し、分割することを目的としている。
一般的な解決策は、CLIPのような強力な視覚言語モデル(VLM)を活用して、視覚とテキスト情報のギャップを埋めることである。
対照的に、セグメンテーションタスクは細かいピクセルレベルのアライメントと詳細なカテゴリ境界情報を必要とする。
細粒度画素テキストアライメントとカテゴリ境界補間のためのモデルFGAsegを提案する。
論文 参考訳(メタデータ) (2025-01-01T15:47:04Z) - InvSeg: Test-Time Prompt Inversion for Semantic Segmentation [33.60580908728705]
InvSegはオープン語彙セマンティックセグメンテーションに取り組むテストタイムプロンプトインバージョンメソッドである。
コントラストソフトクラスタリング(Contrastive Soft Clustering, CSC)を導入し, 導出マスクを画像の構造情報と整合させる。
InvSegはコンテキストリッチなテキストプロンプトを埋め込み空間で学習し、モダリティ間の正確なセマンティックアライメントを実現する。
論文 参考訳(メタデータ) (2024-10-15T10:20:31Z) - Vocabulary-free Image Classification and Semantic Segmentation [71.78089106671581]
本稿では,Vocabulary-free Image Classification (VIC)タスクを導入する。これは,制約のない言語による意味空間から,既知の語彙を必要とせずに,入力画像にクラスを割り当てることを目的としている。
VICは、細かなカテゴリを含む数百万の概念を含む意味空間の広さのために、挑戦的である。
本稿では,事前学習された視覚言語モデルと外部データベースを利用した学習自由度手法CaSEDを提案する。
論文 参考訳(メタデータ) (2024-04-16T19:27:21Z) - Auxiliary Tasks Enhanced Dual-affinity Learning for Weakly Supervised
Semantic Segmentation [79.05949524349005]
AuxSegNet+は、サリエンシマップから豊富な情報を探索する弱教師付き補助学習フレームワークである。
また,サリエンシとセグメンテーションの特徴マップから画素レベルの親和性を学習するためのクロスタスク親和性学習機構を提案する。
論文 参考訳(メタデータ) (2024-03-02T10:03:21Z) - CLIP Is Also a Good Teacher: A New Learning Framework for Inductive
Zero-shot Semantic Segmentation [6.181169909576527]
汎用Zero-shot Semanticは、目に見えないカテゴリーと見えないカテゴリの両方を、目に見えないカテゴリの監督下だけに分割することを目的としている。
既存の手法では大規模な視覚言語モデル(VLM)を採用しており、ゼロショット性能が優れている。
ゼロショットおよびオープンボキャブラリタスクに適用されたクローズドセットセグメンテーション用に設計された任意のイメージエンコーダを実現するためのトレーニングフレームワークであるCLIP-ZSS(Zero-shot Semantic)を提案する。
論文 参考訳(メタデータ) (2023-10-03T09:33:47Z) - MixReorg: Cross-Modal Mixed Patch Reorganization is a Good Mask Learner
for Open-World Semantic Segmentation [110.09800389100599]
セマンティックセグメンテーションのための新鮮で簡単な事前学習パラダイムであるMixReorgを提案する。
我々のアプローチは、パッチとテキストの対応を保ちながら、画像パッチを混合することで、きめ細かいパッチテキストペアデータを生成することである。
マスク学習者としてMixReorgを使用することで、従来のテキスト教師付きセマンティックセマンティックセマンティックモデルは、非常に一般化可能なピクセル・セマンティックアライメントを実現することができる。
論文 参考訳(メタデータ) (2023-08-09T09:35:16Z) - Location-Aware Self-Supervised Transformers [74.76585889813207]
画像部品の相対的な位置を予測し,セマンティックセグメンテーションのためのネットワークを事前訓練する。
参照パッチのサブセットを問合せのサブセットにマスキングすることで,タスクの難しさを制御します。
実験により,この位置認識事前学習が,いくつかの難解なセマンティックセグメンテーションベンチマークに競合する表現をもたらすことが示された。
論文 参考訳(メタデータ) (2022-12-05T16:24:29Z) - Causal Intervention for Weakly-Supervised Semantic Segmentation [122.1846968696862]
画像レベルのラベルのみを用いて、より優れたピクセルレベルの擬似マスクを生成することを目指している。
画像,コンテキスト,およびクラスラベル間の因果関係を分析するための構造因果モデルを提案する。
そこで本研究では,画像レベルの分類において,矛盾するバイアスを取り除くためのコンテキスト調整(CONTA)手法を提案する。
論文 参考訳(メタデータ) (2020-09-26T09:26:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。