論文の概要: Fine-grained Background Representation for Weakly Supervised Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2406.15755v1
- Date: Sat, 22 Jun 2024 06:45:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-25 20:45:08.305126
- Title: Fine-grained Background Representation for Weakly Supervised Semantic Segmentation
- Title(参考訳): 弱教師付きセマンティックセグメンテーションのためのきめ細かい背景表現
- Authors: Xu Yin, Woobin Im, Dongbo Min, Yuchi Huo, Fei Pan, Sung-Eui Yoon,
- Abstract要約: 本稿では,多様なBGセマンティクスを発見し,表現するために,FBR法を提案する。
そこで本研究では,FG陰性線を抽出し,地中コントラスト学習を効果的に行うためのアクティブサンプリング戦略を提案する。
本手法は,Pascal Voc および MS COCO テストセットにおいて,73.2 mIoU と 45.6 mIoU のセグメンテーション結果を得る。
- 参考スコア(独自算出の注目度): 35.346567242839065
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating reliable pseudo masks from image-level labels is challenging in the weakly supervised semantic segmentation (WSSS) task due to the lack of spatial information. Prevalent class activation map (CAM)-based solutions are challenged to discriminate the foreground (FG) objects from the suspicious background (BG) pixels (a.k.a. co-occurring) and learn the integral object regions. This paper proposes a simple fine-grained background representation (FBR) method to discover and represent diverse BG semantics and address the co-occurring problems. We abandon using the class prototype or pixel-level features for BG representation. Instead, we develop a novel primitive, negative region of interest (NROI), to capture the fine-grained BG semantic information and conduct the pixel-to-NROI contrast to distinguish the confusing BG pixels. We also present an active sampling strategy to mine the FG negatives on-the-fly, enabling efficient pixel-to-pixel intra-foreground contrastive learning to activate the entire object region. Thanks to the simplicity of design and convenience in use, our proposed method can be seamlessly plugged into various models, yielding new state-of-the-art results under various WSSS settings across benchmarks. Leveraging solely image-level (I) labels as supervision, our method achieves 73.2 mIoU and 45.6 mIoU segmentation results on Pascal Voc and MS COCO test sets, respectively. Furthermore, by incorporating saliency maps as an additional supervision signal (I+S), we attain 74.9 mIoU on Pascal Voc test set. Concurrently, our FBR approach demonstrates meaningful performance gains in weakly-supervised instance segmentation (WSIS) tasks, showcasing its robustness and strong generalization capabilities across diverse domains.
- Abstract(参考訳): 画像レベルのラベルから信頼できる疑似マスクを生成することは、空間情報の欠如により、弱教師付きセマンティックセグメンテーション(WSSS)タスクにおいて困難である。
クラスアクティベーションマップ(CAM)ベースのソリューションは、不審な背景(BG)画素から前景(FG)オブジェクトを識別し、積分対象領域を学習する。
本稿では,多様なBGセマンティクスを発見し,表現し,共起問題に対処するシンプルな背景表現(FBR)法を提案する。
BG表現のためのクラスプロトタイプやピクセルレベルの機能の使用を放棄します。
代わりに、我々は、細粒度BGセマンティック情報を捕捉し、ピクセル対NROIのコントラストを実行し、紛らわしいBGピクセルを区別するために、新しいプリミティブ、負の関心領域(NROI)を開発する。
また,FGの負をフライでマイニングするアクティブサンプリング戦略を提案し,地中コントラスト学習を効果的に行い,対象領域全体を活性化させる。
設計の単純さと使い勝手の良さにより,提案手法は様々なモデルにシームレスに接続することができ,ベンチマーク間でWSSS設定の下で新たな最先端結果が得られる。
画像レベルのラベルのみを監督として活用し,Pascal VocとMS COCOテストセットで73.2 mIoUと45.6 mIoUのセグメンテーション結果を得た。
さらに,サリエンシマップを追加の監視信号(I+S)として組み込むことで,Pascal Vocテストセット上で74.9 mIoUを得ることができた。
同時に、我々のFBRアプローチは、弱教師付きインスタンスセグメンテーション(WSIS)タスクにおいて有意義なパフォーマンス向上を示し、その堅牢性と多様なドメインにわたる強力な一般化能力を示している。
関連論文リスト
- Semantic and Spatial Adaptive Pixel-level Classifier for Semantic Segmentation [11.176993272867396]
上記の課題に対処する新しい意味的・空間的適応型分類器を提案する。
具体的には、固定されたプロトタイプから得られた粗いマスクを用いて、テスト画像のセマンティック領域と空間領域の中心に向けて固定されたプロトタイプを調整する。
提案したSSAは,計算コストを最小限に抑えて,ベースラインモデルのセグメンテーション性能を著しく向上させる。
論文 参考訳(メタデータ) (2024-05-10T15:14:23Z) - Uncovering Prototypical Knowledge for Weakly Open-Vocabulary Semantic
Segmentation [59.37587762543934]
本稿では,弱開語彙セマンティックセマンティックセグメンテーション(WOVSS)の問題点について検討する。
既存の方法は、グループトークンの使用に関する粒度の矛盾に悩まされる。
マルチモーダル正規化を組み込んだプロトタイプ誘導ネットワーク(PGSeg)を提案する。
論文 参考訳(メタデータ) (2023-10-29T13:18:00Z) - Pointly-Supervised Panoptic Segmentation [106.68888377104886]
弱教師付き単眼セグメンテーションにポイントレベルのアノテーションを適用するための新しい手法を提案する。
完全に教師された方法で使用される高密度のピクセルレベルラベルの代わりに、ポイントレベルラベルは、監督対象ごとに単一のポイントしか提供しない。
我々は、ポイントレベルのラベルから同時に汎視的擬似マスクを生成し、それらから学習することで、エンドツーエンドのフレームワークにおける問題を定式化する。
論文 参考訳(メタデータ) (2022-10-25T12:03:51Z) - Towards Effective Image Manipulation Detection with Proposal Contrastive
Learning [61.5469708038966]
本稿では,効果的な画像操作検出のためのコントラスト学習(PCL)を提案する。
我々のPCLは、RGBとノイズビューから2種類のグローバル特徴を抽出し、2ストリームアーキテクチャで構成されている。
我々のPCLは、実際にラベル付けされていないデータに容易に適用でき、手作業によるラベル付けコストを削減し、より一般化可能な機能を促進することができる。
論文 参考訳(メタデータ) (2022-10-16T13:30:13Z) - Active Domain Adaptation with Multi-level Contrastive Units for Semantic
Segmentation [22.048328293739182]
セマンティックイメージセグメンテーションのための多レベルコントラストユニット(ADA-MCU)を用いた新しいアクティブドメイン適応方式を提案する。
ADA-MCUは、ラベル付きおよびラベルなしのピクセルを使用して、画像内、クロスイメージ、およびクロスドメインレベルから構築される。
提案手法は,ラベル付き画素を50%減らした最先端のSSDA手法に対する競合性能を実現し,同レベルのアノテーションコストを用いることで,最先端のSSDA手法よりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2022-05-23T10:55:39Z) - AF$_2$: Adaptive Focus Framework for Aerial Imagery Segmentation [86.44683367028914]
航空画像のセグメンテーションにはいくつかの独特な課題があり、中でも最も重要なものは前景と背景のアンバランスにある。
本稿では,階層的なセグメンテーション手法を採用し,マルチスケール表現を適応的に活用するAdaptive Focus Framework (AF$)を提案する。
AF$は、広く使われている3つの航空ベンチマークの精度を大幅に改善した。
論文 参考訳(メタデータ) (2022-02-18T10:14:45Z) - Weakly Supervised Semantic Segmentation by Pixel-to-Prototype Contrast [43.40192909920495]
クロスビュー特徴のセマンティック一貫性とイントラ(インター)クラスのコンパクト性(分散)について検討した。
本稿では,2つの新しい画素対プロトタイプのコントラスト正規化用語を提案する。
我々の手法は、ベースネットワークを変更することなく、既存のWSSSモデルにシームレスに組み込むことができる。
論文 参考訳(メタデータ) (2021-10-14T01:44:57Z) - Mining Contextual Information Beyond Image for Semantic Segmentation [37.783233906684444]
セマンティックイメージセグメンテーションにおける文脈集約問題について検討する。
個々の画像以外の文脈情報をマイニングして、ピクセル表現をさらに強化することを提案する。
提案手法は,既存のセグメンテーションフレームワークに強制的に組み込むことができる。
論文 参考訳(メタデータ) (2021-08-26T14:34:23Z) - Semi-supervised Semantic Segmentation with Directional Context-aware
Consistency [66.49995436833667]
我々は、ラベル付きデータの小さなセットに、全くラベル付けされていない画像のより大きなコレクションを提供する半教師付きセグメンテーション問題に焦点をあてる。
好ましいハイレベル表現は、自己認識を失わずにコンテキスト情報をキャプチャするべきである。
我々は,DCロス(Directional Contrastive Loss)を画素対ピクセルの整合性を達成するために提示する。
論文 参考訳(メタデータ) (2021-06-27T03:42:40Z) - Railroad is not a Train: Saliency as Pseudo-pixel Supervision for Weakly
Supervised Semantic Segmentation [16.560870740946275]
EPS (Explicit Pseudo-Pixel Supervision) は2つの弱い監督と組み合わせることでピクセルレベルのフィードバックから学習する。
両情報間の補完関係を完全に活用するための共同学習戦略を考案する。
提案手法は, 正確なオブジェクト境界を求め, 共起画素を破棄することにより, 擬似マスクの品質を大幅に向上させることができる。
論文 参考訳(メタデータ) (2021-05-19T07:31:11Z) - Pixel-Level Cycle Association: A New Perspective for Domain Adaptive
Semantic Segmentation [169.82760468633236]
本稿では,ソースとターゲットの画素ペア間の画素レベルサイクルの関連性を構築することを提案する。
我々の手法は1段階のエンドツーエンドで訓練でき、追加のパラメータは導入しない。
論文 参考訳(メタデータ) (2020-10-31T00:11:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。