Fugu-MT 論文翻訳(概要): SemPLeS: Semantic Prompt Learning for Weakly-Supervised Semantic Segmentation

論文の概要: SemPLeS: Semantic Prompt Learning for Weakly-Supervised Semantic Segmentation

arxiv url: http://arxiv.org/abs/2401.11791v1
Date: Mon, 22 Jan 2024 09:41:05 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-23 14:49:41.663832
Title: SemPLeS: Semantic Prompt Learning for Weakly-Supervised Semantic Segmentation
Title（参考訳）: SemPLeS: 弱教師付きセマンティックセグメンテーションのためのセマンティックプロンプト学習
Authors: Ci-Siang Lin, Chien-Yi Wang, Yu-Chiang Frank Wang, Min-Hung Chen
Abstract要約: Weakly-Supervised Semantic (WSSS) は、画像レベルの監視のみを使用して、トレーニング画像データを使用してセグメンテーションモデルをトレーニングすることを目的としている。正確なピクセルレベルのアノテーションはアクセスできないため、既存の手法ではCAMのようなヒートマップを精錬することでセグメンテーションモデルをトレーニングするための擬似マスクの作成に重点を置いている。本稿では,WSSS(SemPLeS)フレームワークを提案する。このフレームワークはCLIP空間を効果的に促進し,セグメント化された領域と対象オブジェクトのカテゴリ間のセマンティックアライメントを強化する。
参考スコア（独自算出の注目度）: 36.41778553250247
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Weakly-Supervised Semantic Segmentation (WSSS) aims to train segmentation models using training image data with only image-level supervision. Since precise pixel-level annotations are not accessible, existing methods typically focus on producing pseudo masks for training segmentation models by refining CAM-like heatmaps. However, the produced heatmaps may only capture discriminative image regions of target object categories or the associated co-occurring backgrounds. To address the issues, we propose a Semantic Prompt Learning for WSSS (SemPLeS) framework, which learns to effectively prompt the CLIP space to enhance the semantic alignment between the segmented regions and the target object categories. More specifically, we propose Contrastive Prompt Learning and Class-associated Semantic Refinement to learn the prompts that adequately describe and suppress the image backgrounds associated with each target object category. In this way, our proposed framework is able to perform better semantic matching between object regions and the associated text labels, resulting in desired pseudo masks for training the segmentation model. The proposed SemPLeS framework achieves SOTA performance on the standard WSSS benchmarks, PASCAL VOC and MS COCO, and demonstrated interpretability with the semantic visualization of our learned prompts. The codes will be released.
Abstract（参考訳）: Weakly-Supervised Semantic Segmentation (WSSS) は、画像レベルの監視のみを使用して、トレーニング画像データを使用してセグメンテーションモデルをトレーニングすることを目的としている。正確なピクセルレベルのアノテーションはアクセスできないため、既存の手法ではCAMのようなヒートマップを精錬することでセグメンテーションモデルをトレーニングするための擬似マスクの作成に重点を置いている。しかし、生成したヒートマップは、対象対象カテゴリの識別画像領域または関連する共起背景のみをキャプチャする。この問題に対処するため,SemPLeS(Semantic Prompt Learning for WSSS)フレームワークを提案する。このフレームワークはCLIP空間を効果的に促進し,セグメント化された領域と対象のオブジェクトカテゴリ間のセマンティックアライメントを強化する。具体的には,各対象カテゴリに関連する画像背景を適切に記述し,抑制するプロンプトを学習するために,コントラスト・プロンプト学習とクラス関連セマンティック・リファインメントを提案する。このようにして提案するフレームワークでは,オブジェクト領域と関連するテキストラベル間の意味的マッチングが向上し,セグメンテーションモデルをトレーニングするための擬似マスクが望ましい。提案するSemPLeSフレームワークは,標準的なWSSSベンチマーク,PASCAL VOC,MS COCO上でのSOTA性能を実現し,学習プロンプトのセマンティックビジュアライゼーションによる解釈性を示した。コードはリリースされます。

関連論文リスト

Exploring CLIP's Dense Knowledge for Weakly Supervised Semantic Segmentation [19.26516470653798]
画像レベルラベル付き弱スーパービジョンセマンティック(WSSS)は、クラスマップ(CAM)を用いた画素レベルの予測を実現することを目的としている。最近の手法は主にCAM生成のための画像テキストアライメントに重点を置いているが、パッチテキストアライメントにおけるCLIPの可能性はいまだ解明されていない。我々は,WSSS のパッチテキストアライメントパラダイムを通じて,CLIP の密集した知識を探索する ExCEL を提案する。
論文参考訳（メタデータ） (2025-03-26T02:00:49Z)
FGAseg: Fine-Grained Pixel-Text Alignment for Open-Vocabulary Semantic Segmentation [63.31007867379312]
Open-vocabulary segmentationは、テキストベースの記述に基づいて特定の領域やオブジェクトを識別し、分割することを目的としている。一般的な解決策は、CLIPのような強力な視覚言語モデル(VLM)を活用して、視覚とテキスト情報のギャップを埋めることである。対照的に、セグメンテーションタスクは細かいピクセルレベルのアライメントと詳細なカテゴリ境界情報を必要とする。細粒度画素テキストアライメントとカテゴリ境界補間のためのモデルFGAsegを提案する。
論文参考訳（メタデータ） (2025-01-01T15:47:04Z)
InvSeg: Test-Time Prompt Inversion for Semantic Segmentation [33.60580908728705]
InvSegはオープン語彙セマンティックセグメンテーションに取り組むテストタイムプロンプトインバージョンメソッドである。コントラストソフトクラスタリング(Contrastive Soft Clustering, CSC)を導入し, 導出マスクを画像の構造情報と整合させる。 InvSegはコンテキストリッチなテキストプロンプトを埋め込み空間で学習し、モダリティ間の正確なセマンティックアライメントを実現する。
論文参考訳（メタデータ） (2024-10-15T10:20:31Z)
Vocabulary-free Image Classification and Semantic Segmentation [71.78089106671581]
本稿では,Vocabulary-free Image Classification (VIC)タスクを導入する。これは,制約のない言語による意味空間から,既知の語彙を必要とせずに,入力画像にクラスを割り当てることを目的としている。 VICは、細かなカテゴリを含む数百万の概念を含む意味空間の広さのために、挑戦的である。本稿では,事前学習された視覚言語モデルと外部データベースを利用した学習自由度手法CaSEDを提案する。
論文参考訳（メタデータ） (2024-04-16T19:27:21Z)
Auxiliary Tasks Enhanced Dual-affinity Learning for Weakly Supervised Semantic Segmentation [79.05949524349005]
AuxSegNet+は、サリエンシマップから豊富な情報を探索する弱教師付き補助学習フレームワークである。また,サリエンシとセグメンテーションの特徴マップから画素レベルの親和性を学習するためのクロスタスク親和性学習機構を提案する。
論文参考訳（メタデータ） (2024-03-02T10:03:21Z)
Question-Answer Cross Language Image Matching for Weakly Supervised Semantic Segmentation [37.15828464616587]
クラスアクティベーションマップ(CAM)は、弱教師付きセマンティックセグメンテーションの一般的なツールとして登場した。我々はWSSS(QA-CLIMS)のための質問応答クロスランゲージ画像マッチングフレームワークを提案する。
論文参考訳（メタデータ） (2024-01-18T10:55:13Z)
CLIP Is Also a Good Teacher: A New Learning Framework for Inductive Zero-shot Semantic Segmentation [6.181169909576527]
汎用Zero-shot Semanticは、目に見えないカテゴリーと見えないカテゴリの両方を、目に見えないカテゴリの監督下だけに分割することを目的としている。既存の手法では大規模な視覚言語モデル(VLM)を採用しており、ゼロショット性能が優れている。ゼロショットおよびオープンボキャブラリタスクに適用されたクローズドセットセグメンテーション用に設計された任意のイメージエンコーダを実現するためのトレーニングフレームワークであるCLIP-ZSS(Zero-shot Semantic)を提案する。
論文参考訳（メタデータ） (2023-10-03T09:33:47Z)
MixReorg: Cross-Modal Mixed Patch Reorganization is a Good Mask Learner for Open-World Semantic Segmentation [110.09800389100599]
セマンティックセグメンテーションのための新鮮で簡単な事前学習パラダイムであるMixReorgを提案する。我々のアプローチは、パッチとテキストの対応を保ちながら、画像パッチを混合することで、きめ細かいパッチテキストペアデータを生成することである。マスク学習者としてMixReorgを使用することで、従来のテキスト教師付きセマンティックセマンティックセマンティックモデルは、非常に一般化可能なピクセル・セマンティックアライメントを実現することができる。
論文参考訳（メタデータ） (2023-08-09T09:35:16Z)
Location-Aware Self-Supervised Transformers [74.76585889813207]
画像部品の相対的な位置を予測し,セマンティックセグメンテーションのためのネットワークを事前訓練する。参照パッチのサブセットを問合せのサブセットにマスキングすることで,タスクの難しさを制御します。実験により,この位置認識事前学習が,いくつかの難解なセマンティックセグメンテーションベンチマークに競合する表現をもたらすことが示された。
論文参考訳（メタデータ） (2022-12-05T16:24:29Z)
SLAM: Semantic Learning based Activation Map for Weakly Supervised Semantic Segmentation [34.996841532954925]
SLAM(Semantic Learning based Activation Map)と呼ばれるWSSSのための新しい意味学習ベースのフレームワークを提案する。まず、各オブジェクトカテゴリのセマンティックスを学習し、入力画像からカテゴリ固有のセマンティック埋め込みを抽出する意味エンコーダを設計する。アクティベーションマップの正確性、完全性、コンパクト性、整合性を保証するため、4つの損失関数、すなわち、カテゴリ地上、カテゴリ背景、アクティベーション正規化、一貫性損失が提案される。
論文参考訳（メタデータ） (2022-10-22T11:17:30Z)
Weakly-supervised segmentation of referring expressions [81.73850439141374]
テキスト基底セマンティックSEGmentationは、ピクセルレベルのアノテーションなしで画像レベルの参照式から直接セグメンテーションマスクを学習する。提案手法は,PhraseCutおよびRefCOCOデータセット上での表現セグメンテーションを弱教師付きで参照する際の有望な結果を示す。
論文参考訳（メタデータ） (2022-05-10T07:52:24Z)
Leveraging Auxiliary Tasks with Affinity Learning for Weakly Supervised Semantic Segmentation [88.49669148290306]
そこで我々はAuxSegNetと呼ばれる弱教師付きマルチタスク・フレームワークを提案し,サリエンシ検出とマルチラベル画像分類を補助タスクとして活用する。同様の構造的セマンティクスに着想を得て,サリエンシとセグメンテーションの表現から,クロスタスクなグローバル画素レベルの親和性マップを学習することを提案する。学習されたクロスタスク親和性は、両方のタスクに対して改善された擬似ラベルを提供するために、唾液度予測を洗練し、CAMマップを伝播するために使用することができる。
論文参考訳（メタデータ） (2021-07-25T11:39:58Z)
Causal Intervention for Weakly-Supervised Semantic Segmentation [122.1846968696862]
画像レベルのラベルのみを用いて、より優れたピクセルレベルの擬似マスクを生成することを目指している。画像,コンテキスト,およびクラスラベル間の因果関係を分析するための構造因果モデルを提案する。そこで本研究では,画像レベルの分類において,矛盾するバイアスを取り除くためのコンテキスト調整(CONTA)手法を提案する。
論文参考訳（メタデータ） (2020-09-26T09:26:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。