論文の概要: Enhancing Weakly Supervised Semantic Segmentation with Multi-modal Foundation Models: An End-to-End Approach
- arxiv url: http://arxiv.org/abs/2405.06586v1
- Date: Fri, 10 May 2024 16:42:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-13 15:18:23.353127
- Title: Enhancing Weakly Supervised Semantic Segmentation with Multi-modal Foundation Models: An End-to-End Approach
- Title(参考訳): 多モーダルファンデーションモデルによる弱修正セマンティックセグメンテーションの強化:エンド・ツー・エンドアプローチ
- Authors: Elham Ravanbakhsh, Cheng Niu, Yongqing Liang, J. Ramanujam, Xin Li,
- Abstract要約: Weakly-Supervised Semantic (WSSS)は、広範囲なラベリングに対してコスト効率のよい回避手段を提供する。
既存のWSSSメソッドは、セグメンテーション結果の低さにつながるオブジェクトの境界を理解するのに苦労しています。
本稿では,境界ボックス内の視覚的基盤モデルを活用することにより,これらの問題に対処する,新しい効果的なフレームワークを提案する。
- 参考スコア(独自算出の注目度): 7.012760526318993
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semantic segmentation is a core computer vision problem, but the high costs of data annotation have hindered its wide application. Weakly-Supervised Semantic Segmentation (WSSS) offers a cost-efficient workaround to extensive labeling in comparison to fully-supervised methods by using partial or incomplete labels. Existing WSSS methods have difficulties in learning the boundaries of objects leading to poor segmentation results. We propose a novel and effective framework that addresses these issues by leveraging visual foundation models inside the bounding box. Adopting a two-stage WSSS framework, our proposed network consists of a pseudo-label generation module and a segmentation module. The first stage leverages Segment Anything Model (SAM) to generate high-quality pseudo-labels. To alleviate the problem of delineating precise boundaries, we adopt SAM inside the bounding box with the help of another pre-trained foundation model (e.g., Grounding-DINO). Furthermore, we eliminate the necessity of using the supervision of image labels, by employing CLIP in classification. Then in the second stage, the generated high-quality pseudo-labels are used to train an off-the-shelf segmenter that achieves the state-of-the-art performance on PASCAL VOC 2012 and MS COCO 2014.
- Abstract(参考訳): セマンティックセグメンテーションは、コアコンピュータビジョンの問題であるが、データアノテーションのコストが高いため、幅広い応用が妨げられている。
Weakly-Supervised Semantic Segmentation (WSSS) は、部分的または不完全ラベルを用いた完全教師付き手法と比較して、広範囲なラベル付けに対するコスト効率の良い回避策を提供する。
既存のWSSSメソッドは、セグメンテーション結果の低さにつながるオブジェクトの境界を理解するのに苦労しています。
本稿では,境界ボックス内の視覚的基盤モデルを活用することにより,これらの問題に対処する,新しい効果的なフレームワークを提案する。
2段階のWSSSフレームワークを採用することで,提案するネットワークは擬似ラベル生成モジュールとセグメンテーションモジュールから構成される。
第1段階では、Segment Anything Model (SAM) を利用して高品質な擬似ラベルを生成する。
厳密な境界の定式化の問題を緩和するために、別の事前訓練された基礎モデル(例えば、Grounding-DINO)の助けを借りて、境界ボックス内でSAMを採用する。
さらに,分類にCLIPを用いることにより,画像ラベルの監督を行う必要性を解消する。
次に、生成した高品質な擬似ラベルを用いて、PASCAL VOC 2012およびMS COCO 2014の最先端性能を達成するオフ・ザ・シェルフセグメンタを訓練する。
関連論文リスト
- PosSAM: Panoptic Open-vocabulary Segment Anything [58.72494640363136]
PosSAMはオープン・ボキャブラリ・パノプティ・セグメンテーション・モデルであり、Segment Anything Model(SAM)の強みを、エンドツーエンドのフレームワークで視覚ネイティブのCLIPモデルと統合する。
本稿では,マスクの質を適応的に向上し,各画像の推論中にオープン語彙分類の性能を高めるマスク対応選択組立アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-14T17:55:03Z) - Semantic Connectivity-Driven Pseudo-labeling for Cross-domain
Segmentation [89.41179071022121]
自己学習はドメイン間セマンティックセグメンテーションにおいて一般的なアプローチである。
本稿ではセマンティック・コネクティビティ駆動の擬似ラベル方式を提案する。
このアプローチは、接続レベルにおいて擬似ラベルを定式化し、構造的および低雑音のセマンティクスの学習を容易にする。
論文 参考訳(メタデータ) (2023-12-11T12:29:51Z) - A Lightweight Clustering Framework for Unsupervised Semantic
Segmentation [28.907274978550493]
教師なしセマンティックセグメンテーションは、注釈付きデータを用いることなく、画像の各ピクセルを対応するクラスに分類することを目的としている。
教師なしセマンティックセグメンテーションのための軽量クラスタリングフレームワークを提案する。
本フレームワークは,PASCAL VOCおよびMS COCOデータセットの最先端結果を実現する。
論文 参考訳(メタデータ) (2023-11-30T15:33:42Z) - Weakly-Supervised Concealed Object Segmentation with SAM-based Pseudo
Labeling and Multi-scale Feature Grouping [40.07070188661184]
Wakly-Supervised Concealed Object (WSCOS) は、周囲の環境とうまく融合したオブジェクトを分割することを目的としている。
内在的な類似性のため、背景から隠された物体を区別することは困難である。
これら2つの課題に対処する新しいWSCOS手法を提案する。
論文 参考訳(メタデータ) (2023-05-18T14:31:34Z) - Segment Anything Model (SAM) Enhanced Pseudo Labels for Weakly
Supervised Semantic Segmentation [30.812323329239614]
弱教師付きセマンティックセマンティックセグメンテーション(WSSS)は、画像レベルのアノテーションのみを使用することで、精細なピクセルレベルのアノテーションの必要性を回避することを目的としている。
既存のほとんどのメソッドは、ピクセルレベルの擬似ラベルを導出するためにクラスアクティベーションマップ(CAM)に依存している。
オブジェクト,部品,サブパートのきめ細かいインスタンスマスクを生成できるクラスに依存しない基礎モデルであるSegment Anything Model (SAM) を利用した,シンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2023-05-09T23:24:09Z) - Multi-Granularity Denoising and Bidirectional Alignment for Weakly
Supervised Semantic Segmentation [75.32213865436442]
本稿では,雑音ラベルと多クラス一般化問題を緩和するために,MDBAモデルを提案する。
MDBAモデルはPASCAL VOC 2012データセットの検証とテストセットにおいて69.5%と70.2%のmIoUに達することができる。
論文 参考訳(メタデータ) (2023-05-09T03:33:43Z) - Saliency Guided Inter- and Intra-Class Relation Constraints for Weakly
Supervised Semantic Segmentation [66.87777732230884]
本稿では,活性化対象領域の拡大を支援するために,Salliency Guided Inter-およびIntra-Class Relation Constrained (I$2$CRC) フレームワークを提案する。
また,オブジェクトガイド付きラベルリファインメントモジュールを導入し,セグメンテーション予測と初期ラベルをフル活用し,優れた擬似ラベルを得る。
論文 参考訳(メタデータ) (2022-06-20T03:40:56Z) - Fully Self-Supervised Learning for Semantic Segmentation [46.6602159197283]
セマンティックセグメンテーション(FS4)のための完全自己教師型フレームワークを提案する。
自己スーパービジョンのためのグローバルなセマンティック知識をフル活用したセマンティックセマンティックセマンティクスのためのブートストラップ付きトレーニングスキームを提案する。
大規模COCO-Stuffデータセットを用いて本手法の評価を行い,対象物と対象物の両方において7.19mIoUの改善を実現した。
論文 参考訳(メタデータ) (2022-02-24T09:38:22Z) - Novel Class Discovery in Semantic Segmentation [104.30729847367104]
セマンティックにおける新しいクラス発見(NCDSS)について紹介する。
ラベル付き非結合クラスの集合から事前の知識を与えられた新しいクラスを含むラベル付きイメージのセグメンテーションを目的としている。
NCDSSでは、オブジェクトと背景を区別し、画像内の複数のクラスの存在を処理する必要があります。
本稿では,エントロピーに基づく不確実性モデリングと自己学習(EUMS)フレームワークを提案し,ノイズの多い擬似ラベルを克服する。
論文 参考訳(メタデータ) (2021-12-03T13:31:59Z) - Attention-based fusion of semantic boundary and non-boundary information
to improve semantic segmentation [9.518010235273783]
本稿では,新しい融合方式に基づく画像意味的セグメンテーション手法を提案する。
我々の提案の主な目的は、全体セグメンテーション性能を改善するために、オブジェクト境界情報を調べることである。
提案したモデルでは,CityScapes,CamVid,Pascal Contextデータセットで最高のmIoU,Mapillary Vistasで2番目によいmIoUを達成した。
論文 参考訳(メタデータ) (2021-08-05T20:46:53Z) - Causal Intervention for Weakly-Supervised Semantic Segmentation [122.1846968696862]
画像レベルのラベルのみを用いて、より優れたピクセルレベルの擬似マスクを生成することを目指している。
画像,コンテキスト,およびクラスラベル間の因果関係を分析するための構造因果モデルを提案する。
そこで本研究では,画像レベルの分類において,矛盾するバイアスを取り除くためのコンテキスト調整(CONTA)手法を提案する。
論文 参考訳(メタデータ) (2020-09-26T09:26:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。