論文の概要: Segment Anything Model (SAM) Enhanced Pseudo Labels for Weakly
Supervised Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2305.05803v1
- Date: Tue, 9 May 2023 23:24:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-11 15:05:05.357238
- Title: Segment Anything Model (SAM) Enhanced Pseudo Labels for Weakly
Supervised Semantic Segmentation
- Title(参考訳): 弱教師付き意味セグメンテーションのためのsegment anything model (sam)拡張擬似ラベル
- Authors: Tianle Chen, Zheda Mai, Ruiwen Li, Wei-lun Chao
- Abstract要約: 画像レベルの監視のみを備えた弱監視セマンティック(WSSS)が注目されている。
既存のほとんどのメソッドは、教師付きトレーニングのためにピクセルレベルの擬似ラベルを生成するためにクラスアクティベーションマップ(CAM)に依存している。
我々は最近リリースされたSegment Anything Model(SAM)を利用して、これらの制限に対処するためのシンプルで効果的なアプローチを導入する。
当社のアプローチは非常に汎用性が高く,ベースネットワークやパイプラインを変更することなく,既存のWSSSモデルにシームレスに統合することが可能です。
- 参考スコア(独自算出の注目度): 16.57743862117501
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Weakly Supervised Semantic Segmentation (WSSS) with only image-level
supervision has garnered increasing attention due to its low annotation cost
compared to pixel-level annotation. Most existing methods rely on Class
Activation Maps (CAM) to generate pixel-level pseudo labels for supervised
training. However, it is well known that CAM often suffers from partial
activation -- activating the most discriminative part instead of the entire
object area, and false activation -- unnecessarily activating the background
around the object. In this study, we introduce a simple yet effective approach
to address these limitations by harnessing the recently released Segment
Anything Model (SAM) to generate higher-quality pseudo labels with CAM. SAM is
a segmentation foundation model that demonstrates strong zero-shot ability in
partitioning images into segments but lacks semantic labels for these regions.
To circumvent this, we employ pseudo labels for a specific class as the signal
to select the most relevant masks and label them to generate the refined pseudo
labels for this class. The segments generated by SAM are highly precise,
leading to substantial improvements in partial and false activation. Moreover,
existing post-processing modules for producing pseudo labels, such as
AffinityNet, are often computationally heavy, with a significantly long
training time. Surprisingly, we discovered that using the initial CAM with SAM
can achieve on-par performance as the post-processed pseudo label generated
from these modules with much less computational cost. Our approach is highly
versatile and capable of seamless integration into existing WSSS models without
modification to base networks or pipelines. Despite its simplicity, our
approach improves the mean Intersection over Union (mIoU) of pseudo labels from
five state-of-the-art WSSS methods by 6.2\% on average on the PASCAL VOC 2012
dataset.
- Abstract(参考訳): 画素レベルのアノテーションに比べてアノテーションコストが低いため,画像レベルの監視のみを施したWSSS(Weakly Supervised Semantic Segmentation)が注目されている。
既存のほとんどのメソッドは、教師付きトレーニングのためにピクセルレベルの擬似ラベルを生成するためにクラスアクティベーションマップ(CAM)に依存している。
しかし、camは、オブジェクト領域全体ではなく最も差別的な部分を活性化する部分的な活性化と、オブジェクトの周囲の背景を不必要に活性化する誤った活性化に苦しむことがよく知られている。
本研究では,最近リリースされたsegment anything model(sam)を利用して,camを用いた高品質な擬似ラベルを生成する手法を提案する。
SAMは、イメージをセグメントに分割する強力なゼロショット能力を示すセグメンテーション基盤モデルであるが、これらの領域にはセグメンテーションラベルがない。
これを回避するために,特定のクラスに対する擬似ラベルを信号として使用し,最も関連するマスクを選択してラベルを付け,このクラス用に洗練された擬似ラベルを生成する。
SAMによって生成されたセグメントは非常に正確であり、部分的および偽の活性化が大幅に改善される。
さらに、AffinityNetのような擬似ラベルを生成するための既存の後処理モジュールは、しばしば計算的に重く、訓練時間がかなり長い。
意外なことに、SAMで初期CAMを使用することで、計算コストをはるかに削減して、これらのモジュールから生成された後処理の擬似ラベルとして、オンパー性能を達成できることがわかりました。
我々のアプローチは非常に汎用的で、ベースネットワークやパイプラインを変更することなく既存のWSSSモデルにシームレスに統合できます。
その単純さにもかかわらず、PASCAL VOC 2012データセット上では、5つの最先端 WSSS メソッドから擬似ラベルの平均 Intersection over Union (mIoU) を平均 6.2 % 改善している。
関連論文リスト
- Enhancing Weakly Supervised Semantic Segmentation with Multi-modal Foundation Models: An End-to-End Approach [7.012760526318993]
Weakly-Supervised Semantic (WSSS)は、広範囲なラベリングに対してコスト効率のよい回避手段を提供する。
既存のWSSSメソッドは、セグメンテーション結果の低さにつながるオブジェクトの境界を理解するのに苦労しています。
本稿では,境界ボックス内の視覚的基盤モデルを活用することにより,これらの問題に対処する,新しい効果的なフレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-10T16:42:25Z) - PosSAM: Panoptic Open-vocabulary Segment Anything [58.72494640363136]
PosSAMはオープン・ボキャブラリ・パノプティ・セグメンテーション・モデルであり、Segment Anything Model(SAM)の強みを、エンドツーエンドのフレームワークで視覚ネイティブのCLIPモデルと統合する。
本稿では,マスクの質を適応的に向上し,各画像の推論中にオープン語彙分類の性能を高めるマスク対応選択組立アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-14T17:55:03Z) - Semantic-SAM: Segment and Recognize Anything at Any Granularity [83.64686655044765]
本稿では,任意の粒度でセグメンテーションと認識を可能にする汎用画像セグメンテーションモデルであるSemantic-SAMを紹介する。
複数のデータセットを3つの粒度に集約し、オブジェクトとパーツの分離した分類を導入する。
マルチグラニュラリティ機能を実現するために,各クリックで複数のレベルのマスクを生成できるマルチ選択学習方式を提案する。
論文 参考訳(メタデータ) (2023-07-10T17:59:40Z) - Multi-Granularity Denoising and Bidirectional Alignment for Weakly
Supervised Semantic Segmentation [75.32213865436442]
本稿では,雑音ラベルと多クラス一般化問題を緩和するために,MDBAモデルを提案する。
MDBAモデルはPASCAL VOC 2012データセットの検証とテストセットにおいて69.5%と70.2%のmIoUに達することができる。
論文 参考訳(メタデータ) (2023-05-09T03:33:43Z) - Saliency Guided Inter- and Intra-Class Relation Constraints for Weakly
Supervised Semantic Segmentation [66.87777732230884]
本稿では,活性化対象領域の拡大を支援するために,Salliency Guided Inter-およびIntra-Class Relation Constrained (I$2$CRC) フレームワークを提案する。
また,オブジェクトガイド付きラベルリファインメントモジュールを導入し,セグメンテーション予測と初期ラベルをフル活用し,優れた擬似ラベルを得る。
論文 参考訳(メタデータ) (2022-06-20T03:40:56Z) - Inferring the Class Conditional Response Map for Weakly Supervised
Semantic Segmentation [27.269847900950943]
そこで我々は,より優れた擬似ラベルを生成するために,クラス条件推論戦略とアクティベーション対応マスク精細化損失関数を提案する。
本手法は,分類器の再学習を必要とせず,優れたWSSS結果が得られる。
論文 参考訳(メタデータ) (2021-10-27T09:43:40Z) - Towards Single Stage Weakly Supervised Semantic Segmentation [2.28438857884398]
弱教師付きセマンティックセグメンテーションへのシングルステージアプローチを提案する。
ポイントアノテーションを使用して、オンザフライで信頼性の高い擬似マスクを生成します。
我々は、最近の実世界のデータセットにおいて、他のSOTA WSSS手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2021-06-18T18:34:50Z) - A Closer Look at Self-training for Zero-Label Semantic Segmentation [53.4488444382874]
トレーニング中に見られないクラスをセグメント化できることは、ディープラーニングにおいて重要な技術的課題です。
事前のゼロラベルセマンティクスセグメンテーションは、ビジュアル・セマンティクスの埋め込みや生成モデルを学ぶことによってこのタスクにアプローチする。
本研究では,同一画像の異なる増分から生じる擬似ラベルの交点を取り出し,ノイズの多い擬似ラベルをフィルタリングする整合性正規化器を提案する。
論文 参考訳(メタデータ) (2021-04-21T14:34:33Z) - Causal Intervention for Weakly-Supervised Semantic Segmentation [122.1846968696862]
画像レベルのラベルのみを用いて、より優れたピクセルレベルの擬似マスクを生成することを目指している。
画像,コンテキスト,およびクラスラベル間の因果関係を分析するための構造因果モデルを提案する。
そこで本研究では,画像レベルの分類において,矛盾するバイアスを取り除くためのコンテキスト調整(CONTA)手法を提案する。
論文 参考訳(メタデータ) (2020-09-26T09:26:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。