論文の概要: Dual Progressive Transformations for Weakly Supervised Semantic
Segmentation
- arxiv url: http://arxiv.org/abs/2209.15211v1
- Date: Fri, 30 Sep 2022 03:42:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 15:43:27.870404
- Title: Dual Progressive Transformations for Weakly Supervised Semantic
Segmentation
- Title(参考訳): 弱教師付きセマンティックセグメンテーションのためのデュアルプログレッシブトランスフォーメーション
- Authors: Dongjian Huo, Yukun Su and Qingyao Wu
- Abstract要約: 弱教師付きセマンティックセグメンテーション(WSSS)はコンピュータビジョンにおいて難しい課題である。
グローバルに完全かつ局所的に正確なクラスアクティベーションマップをマイニングするための畳み込みニューラルネットワーク精製変換器(CRT)を提案する。
提案したCRTは、弱教師付きセマンティックセグメンテーションタスクの両方において、最先端の性能を実現する。
- 参考スコア(独自算出の注目度): 23.68115323096787
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Weakly supervised semantic segmentation (WSSS), which aims to mine the object
regions by merely using class-level labels, is a challenging task in computer
vision. The current state-of-the-art CNN-based methods usually adopt
Class-Activation-Maps (CAMs) to highlight the potential areas of the object,
however, they may suffer from the part-activated issues. To this end, we try an
early attempt to explore the global feature attention mechanism of vision
transformer in WSSS task. However, since the transformer lacks the inductive
bias as in CNN models, it can not boost the performance directly and may yield
the over-activated problems. To tackle these drawbacks, we propose a
Convolutional Neural Networks Refined Transformer (CRT) to mine a globally
complete and locally accurate class activation maps in this paper. To validate
the effectiveness of our proposed method, extensive experiments are conducted
on PASCAL VOC 2012 and CUB-200-2011 datasets. Experimental evaluations show
that our proposed CRT achieves the new state-of-the-art performance on both the
weakly supervised semantic segmentation task the weakly supervised object
localization task, which outperform others by a large margin.
- Abstract(参考訳): クラスレベルのラベルだけでオブジェクト領域をマイニングすることを目的としたweakly supervised semantic segmentation(wsss)は、コンピュータビジョンにおいて難しい課題である。
現在の最先端のCNNベースのメソッドは、通常、オブジェクトの潜在的な領域を強調するためにクラスアクティベーションマップ(CAM)を採用しています。
この目的のために,WSSSタスクにおける視覚変換器のグローバルな特徴注意機構の探索を試みた。
しかし、変換器はCNNモデルのように誘導バイアスを欠いているため、直接的に性能を向上することができず、過剰に作動する問題を引き起こす可能性がある。
これらの欠点に対処するため,我々はCRT (Convolutional Neural Networks Refined Transformer) を提案し,グローバルに完全かつ局所的に正確なクラスアクティベーションマップをマイニングする。
提案手法の有効性を検証するため,PASCAL VOC 2012 と CUB-200-2011 のデータセットについて広範な実験を行った。
実験により,提案するcrtは,弱い教師付き意味セグメンテーションタスクと弱い教師付きオブジェクトローカライゼーションタスクの両方において,新たな最先端性能を達成し,他を圧倒することを示した。
関連論文リスト
- ACTRESS: Active Retraining for Semi-supervised Visual Grounding [52.08834188447851]
前回の研究であるRefTeacherは、疑似自信と注意に基づく監督を提供するために教師学生の枠組みを採用することで、この課題に取り組むための最初の試みである。
このアプローチは、Transformerベースのパイプラインに従う現在の最先端のビジュアルグラウンドモデルと互換性がない。
本稿では, ACTRESS を略したセミスーパービジョン視覚グラウンドのためのアクティブ・リトレーニング手法を提案する。
論文 参考訳(メタデータ) (2024-07-03T16:33:31Z) - Visual Prompt Tuning in Null Space for Continual Learning [51.96411454304625]
既存のプロンプトチューニング手法は、継続学習(CL)における印象的な性能を示す。
本稿では,従来のタスクの特徴に代表される部分空間に直交する方向のプロンプトを調整し,各タスクを学習することを目的とする。
実際には、即時勾配予測を実装するために、実効的なヌル空間に基づく近似解が提案されている。
論文 参考訳(メタデータ) (2024-06-09T05:57:40Z) - Leveraging Swin Transformer for Local-to-Global Weakly Supervised
Semantic Segmentation [12.103012959947055]
本研究では、初期シードCAMの精度を高めるために「SWTformer」を提案することで、Swin Transformerの使用について検討する。
SWTformer-V1は、精度0.98%のmAPを実現し、最先端モデルより優れている。
SWTformer-V2は、追加情報を抽出するためにマルチスケールの機能融合機構を組み込んでいる。
論文 参考訳(メタデータ) (2024-01-31T13:41:17Z) - Dual-Augmented Transformer Network for Weakly Supervised Semantic
Segmentation [4.02487511510606]
弱教師付きセマンティックセグメンテーション(WSSS)は、クラスレベルのラベルのみにオブジェクトを分割することを目的とした、基本的なコンピュータビジョンタスクである。
従来の手法では、CNNベースのネットワークを採用し、クラスアクティベーションマップ(CAM)戦略を用いて対象領域を発見する。
別の方法は、視覚変換器(ViT)を探索して画像を符号化し、グローバルな意味情報を取得することである。
相互補完学習のためのCNNベースネットワークとトランスフォーマーネットワークを併用したデュアルネットワークを提案する。
論文 参考訳(メタデータ) (2023-09-30T08:41:11Z) - Background Activation Suppression for Weakly Supervised Object
Localization and Semantic Segmentation [84.62067728093358]
弱教師付きオブジェクトローカライゼーションとセマンティックセグメンテーションは、画像レベルのラベルのみを使用してオブジェクトをローカライズすることを目的としている。
画素レベルのローカライゼーションを実現するために,フォアグラウンド予測マップを生成することで,新たなパラダイムが誕生した。
本稿では,物体の局在化学習過程に関する2つの驚くべき実験結果を示す。
論文 参考訳(メタデータ) (2023-09-22T15:44:10Z) - Semantic-Constraint Matching Transformer for Weakly Supervised Object
Localization [31.039698757869974]
弱教師付きオブジェクトローカライゼーション(WSOL)は、イメージレベルの監督のみでオブジェクトをローカライズすることを学ぶ。
従来のCNNベースのメソッドは、エンティティのスコープ全体ではなく、オブジェクトの識別部分に集中して、部分的なアクティベーションの問題に悩まされていた。
本稿では,変圧器を用いたセマンティック・制約マッチングネットワーク(SCMN)を提案する。
論文 参考訳(メタデータ) (2023-09-04T03:20:31Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - Activation Modulation and Recalibration Scheme for Weakly Supervised
Semantic Segmentation [24.08326440298189]
弱教師付きセマンティックセグメンテーションのための新しいアクティベーション変調と再校正手法を提案する。
PASCAL VOC 2012データセット上で,AMRが新たな最先端パフォーマンスを確立することを示す。
また,本手法はプラグアンドプレイであり,他の手法と組み合わせて性能向上を図ることが可能であることを実験により明らかにした。
論文 参考訳(メタデータ) (2021-12-16T16:26:14Z) - TSG: Target-Selective Gradient Backprop for Probing CNN Visual Saliency [72.9106103283475]
我々は、畳み込みニューラルネットワークを解釈するために視覚的サリエンシ、すなわち視覚的説明について研究する。
これらの観測に触発されて、我々はTSG(Target-Selective Gradient)バックプロップと呼ばれる新しいビジュアル・サリエンシ・フレームワークを提案する。
提案したTSGはTSG-ConvとTSG-FCの2つのコンポーネントから構成され、それぞれ畳み込み層と完全連結層の勾配を補正する。
論文 参考訳(メタデータ) (2021-10-11T12:00:20Z) - Efficient Hybrid Transformer: Learning Global-local Context for Urban
Sence Segmentation [11.237929167356725]
都市景観画像のセマンティックセグメンテーションのための効率的なハイブリッドトランスフォーマ(EHT)を提案する。
EHTはCNNとTransformerを利用して、グローバルなローカルコンテキストを学び、特徴表現を強化する。
提案されたEHTはUAVidテストセットで67.0% mIoUを達成し、他の軽量モデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2021-09-18T13:55:38Z) - Self-supervised Equivariant Attention Mechanism for Weakly Supervised
Semantic Segmentation [93.83369981759996]
本稿では,自己監督同変注意機構(SEAM)を提案する。
本手法は,完全教師付きセマンティックセグメンテーションにおいて,同値が暗黙の制約であることを示す。
本稿では,ネットワーク学習のための自己スーパービジョンを提供するために,様々な変換画像から予測されたCAMの整合性正則化を提案する。
論文 参考訳(メタデータ) (2020-04-09T14:57:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。