論文の概要: Cross Language Image Matching for Weakly Supervised Semantic
Segmentation
- arxiv url: http://arxiv.org/abs/2203.02668v1
- Date: Sat, 5 Mar 2022 06:39:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-08 14:35:03.565561
- Title: Cross Language Image Matching for Weakly Supervised Semantic
Segmentation
- Title(参考訳): 弱教師付きセマンティックセグメンテーションのためのクロス言語画像マッチング
- Authors: Jinheng Xie, Xianxu Hou, Kai Ye, Linlin Shen
- Abstract要約: 本稿では,CLIP(Contrastive Language- Image Pre-training)モデルに基づく,CLIMS(Cross Language Image Matching)フレームワークを提案する。
我々のフレームワークの中核となる考え方は、より完全なオブジェクト領域を活性化し、密接に関連するオープンバックグラウンド領域を抑えるために自然言語の監督を導入することである。
さらに、モデルが密接に関連する背景領域を活性化しないように、共起した背景抑圧損失を設計する。
- 参考スコア(独自算出の注目度): 26.04918485403939
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It has been widely known that CAM (Class Activation Map) usually only
activates discriminative object regions and falsely includes lots of
object-related backgrounds. As only a fixed set of image-level object labels
are available to the WSSS (weakly supervised semantic segmentation) model, it
could be very difficult to suppress those diverse background regions consisting
of open set objects. In this paper, we propose a novel Cross Language Image
Matching (CLIMS) framework, based on the recently introduced Contrastive
Language-Image Pre-training (CLIP) model, for WSSS. The core idea of our
framework is to introduce natural language supervision to activate more
complete object regions and suppress closely-related open background regions.
In particular, we design object, background region and text label matching
losses to guide the model to excite more reasonable object regions for CAM of
each category. In addition, we design a co-occurring background suppression
loss to prevent the model from activating closely-related background regions,
with a predefined set of class-related background text descriptions. These
designs enable the proposed CLIMS to generate a more complete and compact
activation map for the target objects. Extensive experiments on PASCAL VOC2012
dataset show that our CLIMS significantly outperforms the previous
state-of-the-art methods. Code will be available.
- Abstract(参考訳): CAM(Class Activation Map)は、通常、識別対象領域のみを活性化し、多くのオブジェクト関連背景を含むことが広く知られている。
画像レベルのオブジェクトラベルの固定セットのみがWSSS(弱教師付きセマンティックセグメンテーション)モデルで利用可能であるため、オープンセットオブジェクトからなる様々な背景領域を抑圧することは非常に困難である。
本稿では,WSSS 向けに最近導入された Contrastive Language- Image Pre-training (CLIP) モデルに基づく新しいクロス言語画像マッチング (CLIMS) フレームワークを提案する。
我々のフレームワークの中核となる考え方は、より完全なオブジェクト領域を活性化し、密接に関連するオープンバックグラウンド領域を抑えるために自然言語の監督を導入することである。
特に、各カテゴリのCAMに対して、より合理的な対象領域をエキサイティングするために、オブジェクト、背景領域、テキストラベルの損失を誘導する。
さらに,モデルが関連する背景領域をアクティベートするのを防ぐために,クラス関連背景テキスト記述の事前定義されたセットを用いて,共起的背景抑圧損失を設計する。
これらの設計により、提案されたCLIMSはターゲットオブジェクトに対してより完全でコンパクトなアクティベーションマップを生成することができる。
PASCAL VOC2012データセットの大規模な実験により、我々のCLIMSは従来の最先端手法よりも大幅に優れていた。
コードは利用可能だ。
関連論文リスト
- SemPLeS: Semantic Prompt Learning for Weakly-Supervised Semantic
Segmentation [36.41778553250247]
Weakly-Supervised Semantic (WSSS) は、画像レベルの監督のみで画像データを用いてセグメンテーションモデルを訓練することを目的としている。
本稿では,CLIP潜伏空間を効果的に促進するためのWSSS(Semantic Prompt Learning for WSSS)フレームワークを提案する。
SemPLeSはオブジェクト領域と関連するクラスラベル間のセマンティックアライメントを改善することができる。
論文 参考訳(メタデータ) (2024-01-22T09:41:05Z) - Spatial Structure Constraints for Weakly Supervised Semantic
Segmentation [100.0316479167605]
クラスアクティベーションマップ(CAM)は、オブジェクトの最も識別性の高い部分のみを見つけることができる。
注意伸縮の余剰なオブジェクトの過剰な活性化を軽減するために,弱い教師付きセマンティックセマンティックセグメンテーションのための空間構造制約(SSC)を提案する。
提案手法は,PASCAL VOC 2012とCOCOデータセットでそれぞれ72.7%,47.0%mIoUを達成した。
論文 参考訳(メタデータ) (2024-01-20T05:25:25Z) - Question-Answer Cross Language Image Matching for Weakly Supervised
Semantic Segmentation [37.15828464616587]
クラスアクティベーションマップ(CAM)は、弱教師付きセマンティックセグメンテーションの一般的なツールとして登場した。
我々はWSSS(QA-CLIMS)のための質問応答クロスランゲージ画像マッチングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-18T10:55:13Z) - Background Activation Suppression for Weakly Supervised Object
Localization and Semantic Segmentation [84.62067728093358]
弱教師付きオブジェクトローカライゼーションとセマンティックセグメンテーションは、画像レベルのラベルのみを使用してオブジェクトをローカライズすることを目的としている。
画素レベルのローカライゼーションを実現するために,フォアグラウンド予測マップを生成することで,新たなパラダイムが誕生した。
本稿では,物体の局在化学習過程に関する2つの驚くべき実験結果を示す。
論文 参考訳(メタデータ) (2023-09-22T15:44:10Z) - LAW-Diffusion: Complex Scene Generation by Diffusion with Layouts [107.11267074981905]
LAW拡散(LAW-Diffusion)と呼ばれる意味制御可能なレイアウト・AWare拡散モデルを提案する。
LAW拡散は、特にコヒーレントな対象関係を持つ最先端の生成性能をもたらすことを示す。
論文 参考訳(メタデータ) (2023-08-13T08:06:18Z) - Saliency Guided Inter- and Intra-Class Relation Constraints for Weakly
Supervised Semantic Segmentation [66.87777732230884]
本稿では,活性化対象領域の拡大を支援するために,Salliency Guided Inter-およびIntra-Class Relation Constrained (I$2$CRC) フレームワークを提案する。
また,オブジェクトガイド付きラベルリファインメントモジュールを導入し,セグメンテーション予測と初期ラベルをフル活用し,優れた擬似ラベルを得る。
論文 参考訳(メタデータ) (2022-06-20T03:40:56Z) - Self-Supervised Video Object Segmentation via Cutout Prediction and
Tagging [117.73967303377381]
本稿では, 自己教師型ビデオオブジェクト(VOS)アプローチを提案する。
本手法は,対象情報と背景情報の両方を考慮した識別学習損失の定式化に基づく。
提案手法であるCT-VOSは, DAVIS-2017 と Youtube-VOS の2つの挑戦的なベンチマークにおいて,最先端の結果を達成している。
論文 参考訳(メタデータ) (2022-04-22T17:53:27Z) - Contrastive learning of Class-agnostic Activation Map for Weakly
Supervised Object Localization and Semantic Segmentation [32.76127086403596]
ラベルなし画像データを用いたクラス非依存型活性化マップ(C$2$AM)生成のためのコントラスト学習を提案する。
我々は上記の関係に基づいて正対と負の対を形成し、ネットワークを前景と背景を乱すように強制する。
ネットワークは画像前景を識別するために誘導されるため,本手法で学習したクラス非依存のアクティベーションマップは,より完全なオブジェクト領域を生成する。
論文 参考訳(メタデータ) (2022-03-25T08:46:24Z) - Robust Region Feature Synthesizer for Zero-Shot Object Detection [87.79902339984142]
我々は,クラス内セマンティック・ディバージングコンポーネントとクラス間構造保存コンポーネントを含む,新しいゼロショットオブジェクト検出フレームワークを構築した。
リモートセンシング画像においてゼロショット物体検出を行う最初の研究である。
論文 参考訳(メタデータ) (2022-01-01T03:09:15Z) - Cross-Image Region Mining with Region Prototypical Network for Weakly
Supervised Segmentation [45.39679291105364]
トレーニングセットのクロスイメージオブジェクトの多様性を探索する領域ネットワークRPNetを提案する。
画像にまたがる類似の物体は、地域特徴比較によって識別される。
実験の結果,提案手法はより完全で正確な擬似物体マスクを生成することがわかった。
論文 参考訳(メタデータ) (2021-08-17T02:51:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。