論文の概要: Exploit CAM by itself: Complementary Learning System for Weakly
Supervised Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2303.02449v1
- Date: Sat, 4 Mar 2023 16:16:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-07 19:27:21.591537
- Title: Exploit CAM by itself: Complementary Learning System for Weakly
Supervised Semantic Segmentation
- Title(参考訳): 爆発的CAMそれ自体:弱監視セマンティックセグメンテーションのための補完学習システム
- Authors: Jiren Mai and Fei Zhang and Junjie Ye and Marcus Kalander and Xian
Zhang and WanKou Yang and Tongliang Liu and Bo Han
- Abstract要約: 本稿では,CLS(Complementary Learning System)というエージェント学習における興味深い作業機構について述べる。
このシンプルだが効果的な学習パターンを動機として,汎用学習機構(GSLM)を提案する。
汎用学習モジュール(GLM)と特定学習モジュール(SLM)を開発するGSLM
- 参考スコア(独自算出の注目度): 59.24824050194334
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Weakly Supervised Semantic Segmentation (WSSS) with image-level labels has
long been suffering from fragmentary object regions led by Class Activation Map
(CAM), which is incapable of generating fine-grained masks for semantic
segmentation. To guide CAM to find more non-discriminating object patterns,
this paper turns to an interesting working mechanism in agent learning named
Complementary Learning System (CLS). CLS holds that the neocortex builds a
sensation of general knowledge, while the hippocampus specially learns specific
details, completing the learned patterns. Motivated by this simple but
effective learning pattern, we propose a General-Specific Learning Mechanism
(GSLM) to explicitly drive a coarse-grained CAM to a fine-grained pseudo mask.
Specifically, GSLM develops a General Learning Module (GLM) and a Specific
Learning Module (SLM). The GLM is trained with image-level supervision to
extract coarse and general localization representations from CAM. Based on the
general knowledge in the GLM, the SLM progressively exploits the specific
spatial knowledge from the localization representations, expanding the CAM in
an explicit way. To this end, we propose the Seed Reactivation to help SLM
reactivate non-discriminating regions by setting a boundary for activation
values, which successively identifies more regions of CAM. Without extra
refinement processes, our method is able to achieve breakthrough improvements
for CAM of over 20.0% mIoU on PASCAL VOC 2012 and 10.0% mIoU on MS COCO 2014
datasets, representing a new state-of-the-art among existing WSSS methods.
- Abstract(参考訳): 画像レベルのラベルを持つWSSS(Weakly Supervised Semantic Segmentation)は、セマンティックセグメンテーションのためのきめ細かいマスクを生成することができないクラスアクティベーションマップ(CAM)によって導かれる断片的なオブジェクト領域に長年悩まされてきた。
そこで本論文は,CAMがより非識別なオブジェクトパターンを見つけるためのガイドとして,CLS(Complementary Learning System)というエージェント学習における興味深い作業機構について述べる。
clsは、新皮質は一般的な知識の感覚を生じさせ、海馬は特定の詳細を特別に学び、学習されたパターンを完成させる。
このシンプルだが効果的な学習パターンにより、粗いCAMをきめ細かな擬似マスクに明示的に駆動する汎用学習機構(GSLM)を提案する。
具体的には、一般学習モジュール(GLM)と特定学習モジュール(SLM)を開発する。
GLMは、CAMから粗い局所化表現と一般的な局在化表現を抽出するために、画像レベルの監督を訓練されている。
GLMの一般的な知識に基づいて、SLMは局所化表現から空間的知識を段階的に活用し、CAMを明示的な方法で拡張する。
そこで本研究では,SLMによる非識別領域の再活性化を支援するために,活性化値の境界を設定し,CAMのより多くの領域を連続的に識別するSeed Reactivationを提案する。
新たな改良プロセスがなければ,PASCAL VOC 2012では20.0% mIoU,MS COCO 2014データセットでは10.0% mIoU,既存のWSSS手法では10.0% mIoU,CAMでは20.0% mIoU以上の画期的な改善が達成できる。
関連論文リスト
- EAGLE: Towards Efficient Arbitrary Referring Visual Prompts Comprehension for Multimodal Large Language Models [80.00303150568696]
本稿では,既存のアプローチよりもトレーニングの少ない任意の参照視覚的プロンプトの理解を促進するための,MLLM(Multimodal Large Language Models)を提案する。
本手法は,視覚的プロンプトを,MLLMに理解可能な特定の空間領域を伝達する空間概念として応用する。
我々はまた、MLLMの領域レベルの理解を視覚的プロンプトを参照する特定の形式にさらに引き離すための幾何非依存学習パラダイム(GAL)を提案する。
論文 参考訳(メタデータ) (2024-09-25T08:22:00Z) - PosSAM: Panoptic Open-vocabulary Segment Anything [58.72494640363136]
PosSAMはオープン・ボキャブラリ・パノプティ・セグメンテーション・モデルであり、Segment Anything Model(SAM)の強みを、エンドツーエンドのフレームワークで視覚ネイティブのCLIPモデルと統合する。
本稿では,マスクの質を適応的に向上し,各画像の推論中にオープン語彙分類の性能を高めるマスク対応選択組立アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-14T17:55:03Z) - SemPLeS: Semantic Prompt Learning for Weakly-Supervised Semantic
Segmentation [36.41778553250247]
Weakly-Supervised Semantic (WSSS) は、画像レベルの監督のみで画像データを用いてセグメンテーションモデルを訓練することを目的としている。
本稿では,CLIP潜伏空間を効果的に促進するためのWSSS(Semantic Prompt Learning for WSSS)フレームワークを提案する。
SemPLeSはオブジェクト領域と関連するクラスラベル間のセマンティックアライメントを改善することができる。
論文 参考訳(メタデータ) (2024-01-22T09:41:05Z) - Spatial Structure Constraints for Weakly Supervised Semantic
Segmentation [100.0316479167605]
クラスアクティベーションマップ(CAM)は、オブジェクトの最も識別性の高い部分のみを見つけることができる。
注意伸縮の余剰なオブジェクトの過剰な活性化を軽減するために,弱い教師付きセマンティックセマンティックセグメンテーションのための空間構造制約(SSC)を提案する。
提案手法は,PASCAL VOC 2012とCOCOデータセットでそれぞれ72.7%,47.0%mIoUを達成した。
論文 参考訳(メタデータ) (2024-01-20T05:25:25Z) - CLIP Is Also a Good Teacher: A New Learning Framework for Inductive
Zero-shot Semantic Segmentation [6.181169909576527]
汎用Zero-shot Semanticは、目に見えないカテゴリーと見えないカテゴリの両方を、目に見えないカテゴリの監督下だけに分割することを目的としている。
既存の手法では大規模な視覚言語モデル(VLM)を採用しており、ゼロショット性能が優れている。
ゼロショットおよびオープンボキャブラリタスクに適用されたクローズドセットセグメンテーション用に設計された任意のイメージエンコーダを実現するためのトレーニングフレームワークであるCLIP-ZSS(Zero-shot Semantic)を提案する。
論文 参考訳(メタデータ) (2023-10-03T09:33:47Z) - Cross-Video Contextual Knowledge Exploration and Exploitation for
Ambiguity Reduction in Weakly Supervised Temporal Action Localization [23.94629999419033]
弱教師付き時間的行動ローカライゼーション(WSTAL)は、ビデオレベルのラベルを用いて、未トリミングビデオ中のアクションをローカライズすることを目的としている。
私たちの研究は、データセット内のビデオ間のコンテキスト知識を探索し、活用することで、これを新しい視点から解決します。
我々の手法は最先端の手法よりも優れており、他のWSTAL手法に簡単に接続できる。
論文 参考訳(メタデータ) (2023-08-24T07:19:59Z) - Weakly Supervised Semantic Segmentation via Progressive Patch Learning [39.87150496277798]
分類の局所的詳細抽出を改善するために「プログレッシブ・パッチ・ラーニング」アプローチを提案する。
は、機能マップをパッチに分解し、最終的なアグリゲーションの前に各ローカルパッチを独立して処理する。
プログレッシブ・パッチ・ラーニング(Progressive Patch Learning)は、特徴の破壊とパッチ・ラーニングをさらにプログレッシブな方法で多段階の粒度に拡張する。
論文 参考訳(メタデータ) (2022-09-16T09:54:17Z) - Saliency Guided Inter- and Intra-Class Relation Constraints for Weakly
Supervised Semantic Segmentation [66.87777732230884]
本稿では,活性化対象領域の拡大を支援するために,Salliency Guided Inter-およびIntra-Class Relation Constrained (I$2$CRC) フレームワークを提案する。
また,オブジェクトガイド付きラベルリファインメントモジュールを導入し,セグメンテーション予測と初期ラベルをフル活用し,優れた擬似ラベルを得る。
論文 参考訳(メタデータ) (2022-06-20T03:40:56Z) - SSA: Semantic Structure Aware Inference for Weakly Pixel-Wise Dense
Predictions without Cost [36.27226683586425]
The semantic structure aware inference (SSA) was proposed to explore the semantic structure information hidden in different stage of the CNN-based network to generate high-quality CAM in the model inference。
提案手法はパラメータを含まない利点があり,訓練は不要である。したがって,弱教師付き画素ワイド予測タスクにも適用可能である。
論文 参考訳(メタデータ) (2021-11-05T11:07:21Z) - Boosting Few-shot Semantic Segmentation with Transformers [81.43459055197435]
TRansformer-based Few-shot Semantic segmentation Method (TRFS)
我々のモデルは,グローバル・エンハンスメント・モジュール(GEM)とローカル・エンハンスメント・モジュール(LEM)の2つのモジュールから構成される。
論文 参考訳(メタデータ) (2021-08-04T20:09:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。