論文の概要: WegFormer: Transformers for Weakly Supervised Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2203.08421v1
- Date: Wed, 16 Mar 2022 06:50:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-17 14:48:18.822102
- Title: WegFormer: Transformers for Weakly Supervised Semantic Segmentation
- Title(参考訳): WegFormer: 弱教師付きセマンティックセグメンテーション用トランスフォーマー
- Authors: Chunmeng Liu, Enze Xie, Wenjia Wang, Wenhai Wang, Guangyao Li, Ping
Luo
- Abstract要約: この作業では、Transformerを導入し、WegFormerと呼ばれるシンプルで効果的なWSSSフレームワークを構築します。
既存のCNNベースの方法とは異なり、WegFormerはVision Transformerを分類器として使用し、高品質な擬似セグメンテーションマスクを生成する。
WegFormerはPASCAL VOCデータセット上で最先端の70.5% mIoUを達成し、以前のベストメソッドを大幅に上回っている。
- 参考スコア(独自算出の注目度): 32.3201557200616
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although convolutional neural networks (CNNs) have achieved remarkable
progress in weakly supervised semantic segmentation (WSSS), the effective
receptive field of CNN is insufficient to capture global context information,
leading to sub-optimal results. Inspired by the great success of Transformers
in fundamental vision areas, this work for the first time introduces
Transformer to build a simple and effective WSSS framework, termed WegFormer.
Unlike existing CNN-based methods, WegFormer uses Vision Transformer (ViT) as a
classifier to produce high-quality pseudo segmentation masks. To this end, we
introduce three tailored components in our Transformer-based framework, which
are (1) a Deep Taylor Decomposition (DTD) to generate attention maps, (2) a
soft erasing module to smooth the attention maps, and (3) an efficient
potential object mining (EPOM) to filter noisy activation in the background.
Without any bells and whistles, WegFormer achieves state-of-the-art 70.5% mIoU
on the PASCAL VOC dataset, significantly outperforming the previous best
method. We hope WegFormer provides a new perspective to tap the potential of
Transformer in weakly supervised semantic segmentation. Code will be released.
- Abstract(参考訳): 畳み込みニューラルネットワーク(CNN)は、弱教師付きセマンティックセグメンテーション(WSSS)において顕著な進歩を遂げているが、CNNの効果的な受容領域は、グローバルな文脈情報を捉えるには不十分であり、準最適結果をもたらす。
基本的なビジョン領域におけるトランスフォーマーの成功に触発されて、この作業が初めてtransformerを導入して、シンプルで効果的なwsssフレームワークであるwegformerを構築した。
既存のcnnベースの方法とは異なり、wegformerは視覚トランスフォーマー(vit)を分類器として、高品質の擬似セグメンテーションマスクを生成する。
そこで本研究では,(1)注意マップを生成するための深いtaylor分解(dtd),(2)注意マップを滑らかにするための軟消去モジュール,(3)背景のノイズをフィルタリングする効率的なポテンシャルオブジェクトマイニング(epom)という,トランスフォーマーベースのフレームワークにおいて,3つの調整済みコンポーネントを導入する。
wegformerは、pascal vocデータセットで最先端の70.5%のmiouを達成し、以前の最良の方法を大きく上回っている。
wegformerは、弱い教師付きセマンティックセグメンテーションでtransformerのポテンシャルをタップする新しい視点を提供することを願っている。
コードはリリースされる。
関連論文リスト
- Efficient Point Transformer with Dynamic Token Aggregating for Point Cloud Processing [19.73918716354272]
ポイントクラウド表現と処理のための動的トークン集約(DTA-Former)を用いた効率的なポイントトランスフォーマーを提案する。
ModelNet40、ShapeNet、航空機搭載MultiSpectral LiDAR(MS-LiDAR)データセット上の前点変換器よりも最大30$times$高速でSOTAパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-05-23T20:50:50Z) - Minimalist and High-Performance Semantic Segmentation with Plain Vision
Transformers [10.72362704573323]
トランス層に加えて,3$Times$3の畳み込みのみで構成されるモデルであるPlainSegを導入する。
また,階層的特徴の活用を可能にするPlainSeg-Hierを提案する。
論文 参考訳(メタデータ) (2023-10-19T14:01:40Z) - Dual-Augmented Transformer Network for Weakly Supervised Semantic
Segmentation [4.02487511510606]
弱教師付きセマンティックセグメンテーション(WSSS)は、クラスレベルのラベルのみにオブジェクトを分割することを目的とした、基本的なコンピュータビジョンタスクである。
従来の手法では、CNNベースのネットワークを採用し、クラスアクティベーションマップ(CAM)戦略を用いて対象領域を発見する。
別の方法は、視覚変換器(ViT)を探索して画像を符号化し、グローバルな意味情報を取得することである。
相互補完学習のためのCNNベースネットワークとトランスフォーマーネットワークを併用したデュアルネットワークを提案する。
論文 参考訳(メタデータ) (2023-09-30T08:41:11Z) - ConvFormer: Combining CNN and Transformer for Medical Image Segmentation [17.88894109620463]
医用画像分割のための階層型CNNとTransformerハイブリッドアーキテクチャであるConvFormerを提案する。
ゼロからトレーニングされたConvFormerは、さまざまなCNNやTransformerベースのアーキテクチャより優れ、最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2022-11-15T23:11:22Z) - MISSU: 3D Medical Image Segmentation via Self-distilling TransUNet [55.16833099336073]
医用画像セグメンテーションのためのトランスフォーマーベースUNetを提案する。
グローバルな意味情報と局所的な空間的詳細特徴を同時に学習する。
MISSUは従来の最先端手法よりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2022-06-02T07:38:53Z) - Transformer Scale Gate for Semantic Segmentation [53.27673119360868]
Transformer Scale Gate (TSG) は、視覚変換器の自己および横断的な注意をスケール選択に活用する。
Pascal ContextとADE20Kデータセットに関する我々の実験は、我々の特徴選択戦略が一貫した利益を達成することを示す。
論文 参考訳(メタデータ) (2022-05-14T13:11:39Z) - nnFormer: Interleaved Transformer for Volumetric Segmentation [50.10441845967601]
本稿では,自己意図と畳み込みを実証的に組み合わせた,インターリーブアーキテクチャを備えた強力なセグメンテーションモデルであるnnFormerを紹介する。
nnFormerは、SynapseとACDCの2つの一般的なデータセットで、以前のTransformerベースのメソッドよりも大幅に改善されている。
論文 参考訳(メタデータ) (2021-09-07T17:08:24Z) - SOTR: Segmenting Objects with Transformers [0.0]
高品質なインスタンスセグメンテーションのための,新しい,フレキシブルで効果的なトランスフォーマーベースモデルを提案する。
提案手法は, TRansformer (SOTR) を用いたSegmenting Objects (Segmenting Objects) により, 分割パイプラインを単純化する。
我々のSOTRはMS COCOデータセットでよく機能し、最先端のインスタンスセグメンテーションアプローチを超えています。
論文 参考訳(メタデータ) (2021-08-15T14:10:11Z) - Container: Context Aggregation Network [83.12004501984043]
最近の発見は、従来の畳み込みやトランスフォーマーコンポーネントを使わずに、シンプルなベースのソリューションが効果的な視覚表現を生成できることを示している。
マルチヘッドコンテキストアグリゲーションのための汎用ビルディングブロックCONText Ion NERtwokを提案する。
より大規模な入力画像解像度に依存する下流タスクにはスケールしないTransformerベースの手法とは対照的に、当社の効率的なネットワークであるModellightは、オブジェクト検出やインスタンスセグメンテーションネットワークに利用することができる。
論文 参考訳(メタデータ) (2021-06-02T18:09:11Z) - Segmenter: Transformer for Semantic Segmentation [79.9887988699159]
セマンティックセグメンテーションのためのトランスフォーマーモデルであるSegmenterを紹介します。
最近のViT(Vision Transformer)上に構築し,セマンティックセグメンテーションに拡張する。
これは、挑戦的なADE20Kデータセット上でのアートの状態を上回り、Pascal ContextとCityscapesでオンパーを実行する。
論文 参考訳(メタデータ) (2021-05-12T13:01:44Z) - Spherical Transformer: Adapting Spherical Signal to CNNs [53.18482213611481]
Spherical Transformerは、球状信号を標準CNNで直接処理できるベクトルに変換できます。
我々は,球面MNIST認識,3次元オブジェクト分類,全方向画像セマンティックセグメンテーションの課題に対するアプローチを評価する。
論文 参考訳(メタデータ) (2021-01-11T12:33:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。