論文の概要: Exploiting Shape Cues for Weakly Supervised Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2208.04286v1
- Date: Mon, 8 Aug 2022 17:25:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-09 12:26:51.604386
- Title: Exploiting Shape Cues for Weakly Supervised Semantic Segmentation
- Title(参考訳): 弱教師付きセマンティックセグメンテーションのための爆発型形状キュー
- Authors: Sungpil Kho, Pilhyeon Lee, Wonyoung Lee, Minsong Ki, Hyeran Byun
- Abstract要約: 弱教師付きセマンティックセマンティックセグメンテーション (WSSS) は、画像レベルのラベルのみをトレーニング用として、画素単位のクラス予測を生成することを目的としている。
畳み込みニューラルネットワーク(CNN)のテクスチャバイアス特性を補うために形状情報を活用することを提案する。
我々は、クラスと色親和性の両方を考慮した新しい改良手法により、オンライン方式で予測をさらに洗練する。
- 参考スコア(独自算出の注目度): 15.791415215216029
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Weakly supervised semantic segmentation (WSSS) aims to produce pixel-wise
class predictions with only image-level labels for training. To this end,
previous methods adopt the common pipeline: they generate pseudo masks from
class activation maps (CAMs) and use such masks to supervise segmentation
networks. However, it is challenging to derive comprehensive pseudo masks that
cover the whole extent of objects due to the local property of CAMs, i.e., they
tend to focus solely on small discriminative object parts. In this paper, we
associate the locality of CAMs with the texture-biased property of
convolutional neural networks (CNNs). Accordingly, we propose to exploit shape
information to supplement the texture-biased CNN features, thereby encouraging
mask predictions to be not only comprehensive but also well-aligned with object
boundaries. We further refine the predictions in an online fashion with a novel
refinement method that takes into account both the class and the color
affinities, in order to generate reliable pseudo masks to supervise the model.
Importantly, our model is end-to-end trained within a single-stage framework
and therefore efficient in terms of the training cost. Through extensive
experiments on PASCAL VOC 2012, we validate the effectiveness of our method in
producing precise and shape-aligned segmentation results. Specifically, our
model surpasses the existing state-of-the-art single-stage approaches by large
margins. What is more, it also achieves a new state-of-the-art performance over
multi-stage approaches, when adopted in a simple two-stage pipeline without
bells and whistles.
- Abstract(参考訳): weakly supervised semantic segmentation (wsss) は、トレーニングのために画像レベルのラベルのみを使用してピクセル単位のクラス予測を作成することを目的としている。
この目的のために、従来の手法では、クラスアクティベーションマップ(CAM)から擬似マスクを生成し、そのようなマスクを使用してセグメンテーションネットワークを監視していた。
しかし、CAMの局所的な性質のため、オブジェクトの全範囲をカバーする包括的な擬似マスクを導出することは困難である。
本稿では,CAMの局所性と畳み込みニューラルネットワーク(CNN)のテクスチャバイアス特性を関連付ける。
そこで我々は,テクスチャバイアスによるcnnの特徴を補うために形状情報を活用し,マスク予測を包括的だけでなく,オブジェクト境界との整合性も高めることを提案する。
さらに,クラスとカラーの親和性を考慮し,モデルを監視するための信頼性の高い擬似マスクを生成する新しい改良手法を用いて,オンライン手法による予測をさらに洗練する。
重要なのは、当社のモデルは単一ステージフレームワーク内でエンドツーエンドのトレーニングを受けており、トレーニングコストの観点からは効率的です。
PASCAL VOC 2012の広範な実験を通じて, 精度と形状の整合性を示すセグメンテーション結果の精度を検証した。
具体的には、既存の最先端のシングルステージアプローチを大きなマージンで上回ります。
さらに、ベルやホイッスルを使わずに単純な2段階のパイプラインで採用される場合、マルチステージアプローチよりも最先端のパフォーマンスが向上する。
関連論文リスト
- Semantic Refocused Tuning for Open-Vocabulary Panoptic Segmentation [42.020470627552136]
Open-vocabulary Panoptic segmentationは、イメージを意味のあるマスクに正確に分割することを目的とした、新たなタスクである。
マスク分類は、オープンボキャブ・パノプティクスのセグメンテーションにおける主要なパフォーマンスボトルネックである。
オープンボキャブ・パノプティクスのセグメンテーションを大幅に強化する新しいフレームワークであるセマンティック・リフォーカス・タニングを提案する。
論文 参考訳(メタデータ) (2024-09-24T17:50:28Z) - LAC-Net: Linear-Fusion Attention-Guided Convolutional Network for Accurate Robotic Grasping Under the Occlusion [79.22197702626542]
本稿では, 乱れ場面におけるロボットグルーピングのためのアモーダルセグメンテーションを探求する枠組みを提案する。
線形融合注意誘導畳み込みネットワーク(LAC-Net)を提案する。
その結果,本手法が最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2024-08-06T14:50:48Z) - Boosting Unsupervised Semantic Segmentation with Principal Mask Proposals [15.258631373740686]
教師なしセマンティックセグメンテーションは、画像コーパス内のグローバルセマンティックカテゴリをアノテーションなしで識別することで、画像を自動的に意味のある領域に分割することを目的としている。
そこで,PriMaP - 主マスク提案 - 特徴表現に基づいてイメージを意味的に意味のあるマスクに分解する。
これにより、予測最大化アルゴリズムであるPriMaPs-EMを用いて、クラスプロトタイプをPriMaPsに適合させることで、教師なしセマンティックセマンティックセマンティクスを実現することができる。
論文 参考訳(メタデータ) (2024-04-25T17:58:09Z) - PosSAM: Panoptic Open-vocabulary Segment Anything [58.72494640363136]
PosSAMはオープン・ボキャブラリ・パノプティ・セグメンテーション・モデルであり、Segment Anything Model(SAM)の強みを、エンドツーエンドのフレームワークで視覚ネイティブのCLIPモデルと統合する。
本稿では,マスクの質を適応的に向上し,各画像の推論中にオープン語彙分類の性能を高めるマスク対応選択組立アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-14T17:55:03Z) - Delving into Shape-aware Zero-shot Semantic Segmentation [18.51025849474123]
我々はtextbfshape-aware zero-shot semantic segmentation を提案する。
古典的スペクトル法に着想を得て,自己教師付き画素ワイド特徴を持つラプラシア行列の固有ベクトルを活用することを提案する。
提案手法は,PascalとCOCOの両方でゼロショットセマンティックセマンティックセグメンテーションのための最先端性能を新たに設定する。
論文 参考訳(メタデータ) (2023-04-17T17:59:46Z) - What You See is What You Classify: Black Box Attributions [61.998683569022006]
我々は、トレーニング済みのブラックボックス分類器であるExpplanandumの属性を予測するために、ディープネットワークであるExplainerを訓練する。
既存のほとんどのアプローチとは異なり、我々の手法はクラス固有のマスクを直接生成することができる。
我々の属性は、視覚的および定量的に確立された方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-05-23T12:30:04Z) - SSA: Semantic Structure Aware Inference for Weakly Pixel-Wise Dense
Predictions without Cost [36.27226683586425]
The semantic structure aware inference (SSA) was proposed to explore the semantic structure information hidden in different stage of the CNN-based network to generate high-quality CAM in the model inference。
提案手法はパラメータを含まない利点があり,訓練は不要である。したがって,弱教師付き画素ワイド予測タスクにも適用可能である。
論文 参考訳(メタデータ) (2021-11-05T11:07:21Z) - Per-Pixel Classification is Not All You Need for Semantic Segmentation [184.2905747595058]
マスク分類はセマンティックレベルのセグメンテーションタスクとインスタンスレベルのセグメンテーションタスクの両方を解くのに十分一般的である。
マスクの集合を予測する単純なマスク分類モデルであるMaskFormerを提案する。
提案手法は,現在の最先端セマンティック(ADE20Kでは55.6 mIoU)とパノプティックセグメンテーション(COCOでは52.7 PQ)モデルの両方に優れる。
論文 参考訳(メタデータ) (2021-07-13T17:59:50Z) - The Devil is in the Boundary: Exploiting Boundary Representation for
Basis-based Instance Segmentation [85.153426159438]
本研究では,既存のグローバルマスクベースの手法を補完するグローバル境界表現を学習するために,Basisベースのインスタンス(B2Inst)を提案する。
私たちのB2Instは一貫した改善をもたらし、シーン内のインスタンス境界を正確に解析します。
論文 参考訳(メタデータ) (2020-11-26T11:26:06Z) - LevelSet R-CNN: A Deep Variational Method for Instance Segmentation [79.20048372891935]
現在、多くのアートモデルはMask R-CNNフレームワークに基づいている。
本稿では,両世界の長所を結合したR-CNNを提案する。
我々はCOCOおよびCityscapesデータセットに対するアプローチの有効性を示す。
論文 参考訳(メタデータ) (2020-07-30T17:52:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。