論文の概要: Activation Modulation and Recalibration Scheme for Weakly Supervised
Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2112.08996v1
- Date: Thu, 16 Dec 2021 16:26:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-17 15:48:45.412685
- Title: Activation Modulation and Recalibration Scheme for Weakly Supervised
Semantic Segmentation
- Title(参考訳): 弱教師付きセマンティックセグメンテーションにおけるアクティベーション変調とリカレーション方式
- Authors: Jie Qin, Jie Wu, Xuefeng Xiao, Lujun Li, Xingang Wang
- Abstract要約: 弱教師付きセマンティックセグメンテーションのための新しいアクティベーション変調と再校正手法を提案する。
PASCAL VOC 2012データセット上で,AMRが新たな最先端パフォーマンスを確立することを示す。
また,本手法はプラグアンドプレイであり,他の手法と組み合わせて性能向上を図ることが可能であることを実験により明らかにした。
- 参考スコア(独自算出の注目度): 24.08326440298189
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Image-level weakly supervised semantic segmentation (WSSS) is a fundamental
yet challenging computer vision task facilitating scene understanding and
automatic driving. Most existing methods resort to classification-based Class
Activation Maps (CAMs) to play as the initial pseudo labels, which tend to
focus on the discriminative image regions and lack customized characteristics
for the segmentation task. To alleviate this issue, we propose a novel
activation modulation and recalibration (AMR) scheme, which leverages a
spotlight branch and a compensation branch to obtain weighted CAMs that can
provide recalibration supervision and task-specific concepts. Specifically, an
attention modulation module (AMM) is employed to rearrange the distribution of
feature importance from the channel-spatial sequential perspective, which helps
to explicitly model channel-wise interdependencies and spatial encodings to
adaptively modulate segmentation-oriented activation responses. Furthermore, we
introduce a cross pseudo supervision for dual branches, which can be regarded
as a semantic similar regularization to mutually refine two branches. Extensive
experiments show that AMR establishes a new state-of-the-art performance on the
PASCAL VOC 2012 dataset, surpassing not only current methods trained with the
image-level of supervision but also some methods relying on stronger
supervision, such as saliency label. Experiments also reveal that our scheme is
plug-and-play and can be incorporated with other approaches to boost their
performance.
- Abstract(参考訳): 画像レベルの弱い教師付きセマンティックセグメンテーション(WSSS)は、シーン理解と自動運転を容易にする基本的なコンピュータビジョンタスクである。
既存のほとんどの手法では、分類に基づくクラスアクティベーションマップ (CAM) を用いて初期擬似ラベルとして機能し、識別画像領域に集中し、セグメンテーションタスクのカスタマイズされた特徴を欠いている。
この問題を軽減するために、スポットライトブランチと補償ブランチを活用して、リカレーション監視とタスク固有の概念を提供する重み付きCAMを得る新しいアクティベーション変調・リカレーション(AMR)方式を提案する。
具体的には、アテンション変調モジュール(AMM)を用いて、チャネル空間の逐次的な視点から特徴量の分布を再構成し、チャネルの相互依存性と空間エンコーディングを明確にモデル化し、セグメンテーション指向のアクティベーション応答を適応的に変調する。
さらに,2つの枝を相互に洗練する意味的類似の正規化として捉えることができる,二重枝の相互疑似監督を導入する。
大規模な実験により、AMRはPASCAL VOC 2012データセット上で新しい最先端のパフォーマンスを確立し、画像レベルの監督で訓練された現在の方法だけでなく、唾液ラベルのようなより強力な監督に依存する方法も超えている。
実験の結果,本手法はプラグアンドプレイであり,他の手法と組み合わせて性能を向上できることがわかった。
関連論文リスト
- An Information Compensation Framework for Zero-Shot Skeleton-based Action Recognition [49.45660055499103]
ゼロショットの人間の骨格に基づく行動認識は、トレーニング中に見られるカテゴリ外の行動を認識するモデルを構築することを目的としている。
従来の研究では、シーケンスの視覚的空間分布と意味的空間分布の整合性に焦点が当てられていた。
強固で頑健な表現を得るために,新たな損失関数サンプリング手法を提案する。
論文 参考訳(メタデータ) (2024-06-02T06:53:01Z) - Unleashing Network Potentials for Semantic Scene Completion [50.95486458217653]
本稿では,新しいSSCフレームワーク - Adrial Modality Modulation Network (AMMNet)を提案する。
AMMNetは、モダリティ間の勾配流の相互依存性を可能にするクロスモーダル変調と、動的勾配競争を利用するカスタマイズされた逆トレーニングスキームの2つのコアモジュールを導入している。
AMMNetは最先端のSSC法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2024-03-12T11:48:49Z) - Auxiliary Tasks Enhanced Dual-affinity Learning for Weakly Supervised
Semantic Segmentation [79.05949524349005]
AuxSegNet+は、サリエンシマップから豊富な情報を探索する弱教師付き補助学習フレームワークである。
また,サリエンシとセグメンテーションの特徴マップから画素レベルの親和性を学習するためのクロスタスク親和性学習機構を提案する。
論文 参考訳(メタデータ) (2024-03-02T10:03:21Z) - USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text
Retrieval [115.28586222748478]
Image-Text Retrieval (ITR) は、与えられたクエリに意味のあるターゲットインスタンスを、他のモダリティから検索することを目的としている。
既存のアプローチは通常、2つの大きな制限に悩まされる。
論文 参考訳(メタデータ) (2023-01-17T12:42:58Z) - Cross-modal Consensus Network for Weakly Supervised Temporal Action
Localization [74.34699679568818]
時間的行動局所化 (WS-TAL) は、ビデオレベルの分類的監督によって、ビデオ内のアクションインスタンスをローカライズすることを目的とした課題である。
この問題に対処するためのクロスモーダルコンセンサスネットワーク(CO2-Net)を提案する。
論文 参考訳(メタデータ) (2021-07-27T04:21:01Z) - Weakly supervised segmentation with cross-modality equivariant
constraints [7.757293476741071]
弱い教師付き学習は、セマンティックセグメンテーションにおける大きなラベル付きデータセットの必要性を軽減するための魅力的な代替手段として登場した。
本稿では,マルチモーダル画像シナリオにおける自己スーパービジョンを活用した新しい学習戦略を提案する。
私たちのアプローチは、同じ学習条件下で関連する最近の文学を上回ります。
論文 参考訳(メタデータ) (2021-04-06T13:14:20Z) - Unsupervised Domain Adaptation in Semantic Segmentation via Orthogonal
and Clustered Embeddings [25.137859989323537]
本稿では,機能クラスタリング手法に基づく効果的なUnsupervised Domain Adaptation(UDA)戦略を提案する。
識別的クラスタリング性能を高めるために,2つの新しい学習目標を導入する。
論文 参考訳(メタデータ) (2020-11-25T10:06:22Z) - Self-supervised Equivariant Attention Mechanism for Weakly Supervised
Semantic Segmentation [93.83369981759996]
本稿では,自己監督同変注意機構(SEAM)を提案する。
本手法は,完全教師付きセマンティックセグメンテーションにおいて,同値が暗黙の制約であることを示す。
本稿では,ネットワーク学習のための自己スーパービジョンを提供するために,様々な変換画像から予測されたCAMの整合性正則化を提案する。
論文 参考訳(メタデータ) (2020-04-09T14:57:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。