論文の概要: Weakly-Supervised Semantic Segmentation with Visual Words Learning and
Hybrid Pooling
- arxiv url: http://arxiv.org/abs/2202.04812v1
- Date: Thu, 10 Feb 2022 03:19:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-12 05:37:48.534323
- Title: Weakly-Supervised Semantic Segmentation with Visual Words Learning and
Hybrid Pooling
- Title(参考訳): 視覚単語学習とハイブリッドポーリングによる弱教師付きセマンティックセグメンテーション
- Authors: Lixiang Ru and Bo Du and Yibing Zhan and Chen Wu
- Abstract要約: 画像レベルのラベルを持つWSSS(Weakly Supervised Semantic Activation)メソッドは、一般的に分類ネットワークをトレーニングして、初期粗いセグメンテーションラベルとしてクラスマップ(CAM)を生成する。
これら2つの問題は、分類ネットワークのトレーニングにおいて、画像レベルの監督とグローバル情報の集約のみに起因する。
本研究では,視覚単語学習モジュールとハイブリッドプーリング手法を提案し,これらを分類ネットワークに組み込んで上記の問題を緩和する。
- 参考スコア(独自算出の注目度): 38.336345235423586
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Weakly-Supervised Semantic Segmentation (WSSS) methods with image-level
labels generally train a classification network to generate the Class
Activation Maps (CAMs) as the initial coarse segmentation labels. However,
current WSSS methods still perform far from satisfactorily because their
adopted CAMs 1) typically focus on partial discriminative object regions and 2)
usually contain useless background regions. These two problems are attributed
to the sole image-level supervision and aggregation of global information when
training the classification networks. In this work, we propose the visual words
learning module and hybrid pooling approach, and incorporate them in the
classification network to mitigate the above problems. In the visual words
learning module, we counter the first problem by enforcing the classification
network to learn fine-grained visual word labels so that more object extents
could be discovered. Specifically, the visual words are learned with a
codebook, which could be updated via two proposed strategies, i.e.
learning-based strategy and memory-bank strategy. The second drawback of CAMs
is alleviated with the proposed hybrid pooling, which incorporates the global
average and local discriminative information to simultaneously ensure object
completeness and reduce background regions. We evaluated our methods on PASCAL
VOC 2012 and MS COCO 2014 datasets. Without any extra saliency prior, our
method achieved 70.6% and 70.7% mIoU on the $val$ and $test$ set of PASCAL VOC
dataset, respectively, and 36.2% mIoU on the $val$ set of MS COCO dataset,
which significantly surpassed the performance of state-of-the-art WSSS methods.
- Abstract(参考訳): 画像レベルのラベルを持つWSSS(Weakly Supervised Semantic Segmentation)手法は、一般的に分類ネットワークをトレーニングし、初期粗いセグメンテーションラベルとしてクラスアクティベーションマップ(CAM)を生成する。
しかし、現在の WSSS メソッドは CAM が採用されているため、まだ十分ではない。
1) 典型的には部分的識別対象領域に焦点をあてる
2) 通常は無用な背景領域を含む。
これら2つの問題は、分類ネットワークのトレーニングにおいて、画像レベルの監督とグローバル情報の集約のみに起因する。
本研究では,視覚単語学習モジュールとハイブリッドプーリング手法を提案し,これらを分類ネットワークに組み込んで上記の問題を緩和する。
視覚単語学習モジュールでは,分類ネットワークを強制して細粒度の視覚単語ラベルを学習し,さらに多くのオブジェクト範囲を発見できるようにすることで,第1の問題を解決する。
具体的には、ビジュアルワードはコードブックで学習され、学習ベースの戦略とメモリバンク戦略という2つの戦略によって更新される。
CAMの第二の欠点は、グローバル平均および局所判別情報を組み込んだハイブリッドプーリングによって軽減され、オブジェクトの完全性と背景領域の低減が図られる。
PASCAL VOC 2012 と MS COCO 2014 データセットを用いて評価を行った。
提案手法では,それぞれ$val$と$test$のPASCAL VOCデータセットのセットに対して70.6%と70.7%のmIoUを達成し,MS COCOデータセットの$val$セットに対して36.2%のmIoUを達成した。
関連論文リスト
- DIAL: Dense Image-text ALignment for Weakly Supervised Semantic Segmentation [8.422110274212503]
弱教師付きセマンティックセグメンテーションアプローチは通常、初期シード生成にクラスアクティベーションマップ(CAM)に依存する。
DALNetは、テキストの埋め込みを利用して、さまざまなレベルの粒度のオブジェクトの包括的理解と正確な位置決めを強化する。
このアプローチは特に、シングルステージの手法として、より効率的なエンドツーエンドプロセスを可能にします。
論文 参考訳(メタデータ) (2024-09-24T06:51:49Z) - Enhancing Visual Continual Learning with Language-Guided Supervision [76.38481740848434]
継続的な学習は、モデルが以前獲得した知識を忘れずに新しいタスクを学習できるようにすることを目的としている。
ワンホットラベルが伝達する少ない意味情報は,タスク間の効果的な知識伝達を妨げている,と我々は主張する。
具体的には, PLM を用いて各クラスのセマンティックターゲットを生成し, 凍結し, 監視信号として機能する。
論文 参考訳(メタデータ) (2024-03-24T12:41:58Z) - Auxiliary Tasks Enhanced Dual-affinity Learning for Weakly Supervised
Semantic Segmentation [79.05949524349005]
AuxSegNet+は、サリエンシマップから豊富な情報を探索する弱教師付き補助学習フレームワークである。
また,サリエンシとセグメンテーションの特徴マップから画素レベルの親和性を学習するためのクロスタスク親和性学習機構を提案する。
論文 参考訳(メタデータ) (2024-03-02T10:03:21Z) - TagCLIP: A Local-to-Global Framework to Enhance Open-Vocabulary
Multi-Label Classification of CLIP Without Training [29.431698321195814]
Contrastive Language-Image Pre-Training (CLIP) はオープン語彙分類において顕著な能力を示した。
CLIPは、グローバル機能が最も顕著なクラスに支配される傾向があるため、マルチラベルデータセットのパフォーマンスが低い。
画像タグを得るための局所言語フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-20T08:15:40Z) - Generalized Category Discovery with Clustering Assignment Consistency [56.92546133591019]
一般化圏発見(GCD)は、最近提案されたオープンワールドタスクである。
クラスタリングの一貫性を促進するための協調学習ベースのフレームワークを提案する。
提案手法は,3つの総合的なベンチマークと3つのきめ細かい視覚認識データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-10-30T00:32:47Z) - High-fidelity Pseudo-labels for Boosting Weakly-Supervised Segmentation [17.804090651425955]
画像レベルの弱い教師付きセグメンテーション(WSSS)は、トレーニング中にセグメンテーションマスクを代理することで、通常膨大なデータアノテーションコストを削減する。
本研究は,GAPの代替となる重要サンプリングと特徴類似性損失という,CAMを改善するための2つの手法に基づく。
複数の独立二項問題の後部二項問題に基づいて両手法を再構成する。
パフォーマンスが向上し、より一般的なものになり、事実上あらゆるWSSSメソッドを増強できるアドオンメソッドが出来上がります。
論文 参考訳(メタデータ) (2023-04-05T17:43:57Z) - Learning to Discover and Detect Objects [43.52208526783969]
新たなクラス発見・検出・ローカライゼーション(NCDL)の課題に取り組む。
この設定では、よく観察されるクラスのオブジェクトのラベル付きソースデータセットを仮定する。
検出ネットワークをエンドツーエンドでトレーニングすることにより、さまざまなクラスに対してすべてのリージョン提案を分類することが可能になる。
論文 参考訳(メタデータ) (2022-10-19T17:59:55Z) - L2G: A Simple Local-to-Global Knowledge Transfer Framework for Weakly
Supervised Semantic Segmentation [67.26984058377435]
高品質なオブジェクトアテンションマイニングのための簡易なローカル・グローバルな知識伝達フレームワークであるL2Gについて述べる。
本フレームワークは,グローバルな視点から収集したリッチオブジェクトの詳細知識をグローバルネットワークで学習する。
実験の結果,PASCAL VOC 2012とMS COCO 2014の検証セットにおいて,72.1%,44.2%のmIoU値が得られた。
論文 参考訳(メタデータ) (2022-04-07T04:31:32Z) - Contrastive learning of Class-agnostic Activation Map for Weakly
Supervised Object Localization and Semantic Segmentation [32.76127086403596]
ラベルなし画像データを用いたクラス非依存型活性化マップ(C$2$AM)生成のためのコントラスト学習を提案する。
我々は上記の関係に基づいて正対と負の対を形成し、ネットワークを前景と背景を乱すように強制する。
ネットワークは画像前景を識別するために誘導されるため,本手法で学習したクラス非依存のアクティベーションマップは,より完全なオブジェクト領域を生成する。
論文 参考訳(メタデータ) (2022-03-25T08:46:24Z) - Mining Cross-Image Semantics for Weakly Supervised Semantic Segmentation [128.03739769844736]
2つのニューラルコアテンションを分類器に組み込んで、画像間のセマンティックな類似点と相違点をキャプチャする。
オブジェクトパターン学習の強化に加えて、コアテンションは他の関連する画像からのコンテキストを活用して、ローカライズマップの推論を改善することができる。
提案アルゴリズムは,これらすべての設定に対して新たな最先端性を設定し,その有効性と一般化性を示す。
論文 参考訳(メタデータ) (2020-07-03T21:53:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。