論文の概要: Semantic Prompt Learning for Weakly-Supervised Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2401.11791v3
- Date: Tue, 17 Dec 2024 04:27:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-18 13:56:25.219935
- Title: Semantic Prompt Learning for Weakly-Supervised Semantic Segmentation
- Title(参考訳): 弱教師付きセマンティックセマンティックセグメンテーションのためのセマンティックプロンプト学習
- Authors: Ci-Siang Lin, Chien-Yi Wang, Yu-Chiang Frank Wang, Min-Hung Chen,
- Abstract要約: Weakly-Supervised Semantic (WSSS) は、画像レベルの監督のみで画像データを用いてセグメンテーションモデルを訓練することを目的としている。
本稿では,CLIP潜伏空間を効果的に促進するためのWSSS(Semantic Prompt Learning for WSSS)フレームワークを提案する。
SemPLeSは、オブジェクトリージョンとクラスラベルのセマンティックアライメントを改善することができるため、セグメンテーションモデルをトレーニングするための擬似マスクが望ましい。
- 参考スコア(独自算出の注目度): 33.336549577936196
- License:
- Abstract: Weakly-Supervised Semantic Segmentation (WSSS) aims to train segmentation models using image data with only image-level supervision. Since precise pixel-level annotations are not accessible, existing methods typically focus on producing pseudo masks for training segmentation models by refining CAM-like heatmaps. However, the produced heatmaps may capture only the discriminative image regions of object categories or the associated co-occurring backgrounds. To address the issues, we propose a Semantic Prompt Learning for WSSS (SemPLeS) framework, which learns to effectively prompt the CLIP latent space to enhance the semantic alignment between the segmented regions and the target object categories. More specifically, we propose Contrastive Prompt Learning and Prompt-guided Semantic Refinement to learn the prompts that adequately describe and suppress the co-occurring backgrounds associated with each object category. In this way, SemPLeS can perform better semantic alignment between object regions and class labels, resulting in desired pseudo masks for training segmentation models. The proposed SemPLeS framework achieves competitive performance on standard WSSS benchmarks, PASCAL VOC 2012 and MS COCO2014, and shows compatibility with other WSSS methods.
- Abstract(参考訳): Weakly-Supervised Semantic Segmentation (WSSS) は、画像レベルの監督のみで画像データを用いてセグメンテーションモデルを訓練することを目的としている。
正確なピクセルレベルのアノテーションはアクセスできないため、既存の手法ではCAMのようなヒートマップを精錬することでセグメンテーションモデルをトレーニングするための擬似マスクの作成に重点を置いている。
しかし、生成したヒートマップは、対象カテゴリの識別画像領域または関連する共起背景のみをキャプチャすることができる。
この問題に対処するため,SemPLeS(Semantic Prompt Learning for WSSS)フレームワークを提案する。このフレームワークはCLIP潜伏空間を効果的に促進し,セグメント化された領域と対象対象オブジェクトのセマンティックアライメントを強化する。
より具体的には、コントラスト・プロンプト・ラーニングとプロンプト誘導セマンティック・リファインメントを提案し、各対象カテゴリに付随する共起背景を適切に記述し、抑制するプロンプトを学習する。
このようにして、SemPLeSはオブジェクト領域とクラスラベルのセマンティックアライメントを改善することができ、結果としてセグメンテーションモデルをトレーニングするための擬似マスクが望まれる。
提案したSemPLeSフレームワークは、標準WSSSベンチマーク、PASCAL VOC 2012、MS COCO2014の競合性能を達成し、他のWSSSメソッドとの互換性を示す。
関連論文リスト
- FGAseg: Fine-Grained Pixel-Text Alignment for Open-Vocabulary Semantic Segmentation [63.31007867379312]
Open-vocabulary segmentationは、テキストベースの記述に基づいて特定の領域やオブジェクトを識別し、分割することを目的としている。
一般的な解決策は、CLIPのような強力な視覚言語モデル(VLM)を活用して、視覚とテキスト情報のギャップを埋めることである。
対照的に、セグメンテーションタスクは細かいピクセルレベルのアライメントと詳細なカテゴリ境界情報を必要とする。
細粒度画素テキストアライメントとカテゴリ境界補間のためのモデルFGAsegを提案する。
論文 参考訳(メタデータ) (2025-01-01T15:47:04Z) - InvSeg: Test-Time Prompt Inversion for Semantic Segmentation [33.60580908728705]
InvSegはオープン語彙セマンティックセグメンテーションに取り組むテストタイムプロンプトインバージョンメソッドである。
コントラストソフトクラスタリング(Contrastive Soft Clustering, CSC)を導入し, 導出マスクを画像の構造情報と整合させる。
InvSegはコンテキストリッチなテキストプロンプトを埋め込み空間で学習し、モダリティ間の正確なセマンティックアライメントを実現する。
論文 参考訳(メタデータ) (2024-10-15T10:20:31Z) - Vocabulary-free Image Classification and Semantic Segmentation [71.78089106671581]
本稿では,Vocabulary-free Image Classification (VIC)タスクを導入する。これは,制約のない言語による意味空間から,既知の語彙を必要とせずに,入力画像にクラスを割り当てることを目的としている。
VICは、細かなカテゴリを含む数百万の概念を含む意味空間の広さのために、挑戦的である。
本稿では,事前学習された視覚言語モデルと外部データベースを利用した学習自由度手法CaSEDを提案する。
論文 参考訳(メタデータ) (2024-04-16T19:27:21Z) - Auxiliary Tasks Enhanced Dual-affinity Learning for Weakly Supervised
Semantic Segmentation [79.05949524349005]
AuxSegNet+は、サリエンシマップから豊富な情報を探索する弱教師付き補助学習フレームワークである。
また,サリエンシとセグメンテーションの特徴マップから画素レベルの親和性を学習するためのクロスタスク親和性学習機構を提案する。
論文 参考訳(メタデータ) (2024-03-02T10:03:21Z) - CLIP Is Also a Good Teacher: A New Learning Framework for Inductive
Zero-shot Semantic Segmentation [6.181169909576527]
汎用Zero-shot Semanticは、目に見えないカテゴリーと見えないカテゴリの両方を、目に見えないカテゴリの監督下だけに分割することを目的としている。
既存の手法では大規模な視覚言語モデル(VLM)を採用しており、ゼロショット性能が優れている。
ゼロショットおよびオープンボキャブラリタスクに適用されたクローズドセットセグメンテーション用に設計された任意のイメージエンコーダを実現するためのトレーニングフレームワークであるCLIP-ZSS(Zero-shot Semantic)を提案する。
論文 参考訳(メタデータ) (2023-10-03T09:33:47Z) - MixReorg: Cross-Modal Mixed Patch Reorganization is a Good Mask Learner
for Open-World Semantic Segmentation [110.09800389100599]
セマンティックセグメンテーションのための新鮮で簡単な事前学習パラダイムであるMixReorgを提案する。
我々のアプローチは、パッチとテキストの対応を保ちながら、画像パッチを混合することで、きめ細かいパッチテキストペアデータを生成することである。
マスク学習者としてMixReorgを使用することで、従来のテキスト教師付きセマンティックセマンティックセマンティックモデルは、非常に一般化可能なピクセル・セマンティックアライメントを実現することができる。
論文 参考訳(メタデータ) (2023-08-09T09:35:16Z) - Location-Aware Self-Supervised Transformers [74.76585889813207]
画像部品の相対的な位置を予測し,セマンティックセグメンテーションのためのネットワークを事前訓練する。
参照パッチのサブセットを問合せのサブセットにマスキングすることで,タスクの難しさを制御します。
実験により,この位置認識事前学習が,いくつかの難解なセマンティックセグメンテーションベンチマークに競合する表現をもたらすことが示された。
論文 参考訳(メタデータ) (2022-12-05T16:24:29Z) - Causal Intervention for Weakly-Supervised Semantic Segmentation [122.1846968696862]
画像レベルのラベルのみを用いて、より優れたピクセルレベルの擬似マスクを生成することを目指している。
画像,コンテキスト,およびクラスラベル間の因果関係を分析するための構造因果モデルを提案する。
そこで本研究では,画像レベルの分類において,矛盾するバイアスを取り除くためのコンテキスト調整(CONTA)手法を提案する。
論文 参考訳(メタデータ) (2020-09-26T09:26:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。