論文の概要: MECPformer: Multi-estimations Complementary Patch with CNN-Transformers
for Weakly Supervised Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2303.10689v1
- Date: Sun, 19 Mar 2023 15:42:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-21 17:44:26.673815
- Title: MECPformer: Multi-estimations Complementary Patch with CNN-Transformers
for Weakly Supervised Semantic Segmentation
- Title(参考訳): MECPformer: 弱教師付きセマンティックセグメンテーションのためのCNN変換器による多重推定補間パッチ
- Authors: Chunmeng Liu, Guangyao Li, Yao Shen, Ruiqi Wang
- Abstract要約: マルチ推定補間パッチ(MECP)戦略とアダプティブ・コンフリクト・モジュール(ACM)を用いた簡易かつ効果的な手法を提案する。
さらに、ACMは競合するピクセルを適応的に除去し、ネットワークの自己学習能力を利用して潜在的なターゲット情報をマイニングする。
当社のMECPformerはPASCAL VOC 2012で72.0% mIoU、MS COCO 2014データセットで42.4%に達した。
- 参考スコア(独自算出の注目度): 8.975330500836057
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The initial seed based on the convolutional neural network (CNN) for weakly
supervised semantic segmentation always highlights the most discriminative
regions but fails to identify the global target information. Methods based on
transformers have been proposed successively benefiting from the advantage of
capturing long-range feature representations. However, we observe a flaw
regardless of the gifts based on the transformer. Given a class, the initial
seeds generated based on the transformer may invade regions belonging to other
classes. Inspired by the mentioned issues, we devise a simple yet effective
method with Multi-estimations Complementary Patch (MECP) strategy and Adaptive
Conflict Module (ACM), dubbed MECPformer. Given an image, we manipulate it with
the MECP strategy at different epochs, and the network mines and deeply fuses
the semantic information at different levels. In addition, ACM adaptively
removes conflicting pixels and exploits the network self-training capability to
mine potential target information. Without bells and whistles, our MECPformer
has reached new state-of-the-art 72.0% mIoU on the PASCAL VOC 2012 and 42.4% on
MS COCO 2014 dataset. The code is available at
https://github.com/ChunmengLiu1/MECPformer.
- Abstract(参考訳): 弱教師付き意味セグメンテーションのための畳み込みニューラルネットワーク(cnn)に基づく初期シードは、常に最も識別可能な領域を強調するが、グローバルターゲット情報の識別に失敗する。
長距離特徴表現の利点を活かした変換器に基づく手法が提案されている。
しかし, 変圧器をベースとした贈り物によらず, 欠陥を観察する。
クラスが与えられた場合、トランスフォーマーに基づいて生成された初期種は他のクラスに属する領域に侵入することができる。
上記の問題に触発されて,MECPformerと呼ばれる,MECP戦略と適応競合モジュール(Adaptive Conflict Module, ACM)を用いた簡易かつ効果的な手法を考案した。
画像が与えられた場合、私たちは異なる時代におけるMECP戦略でそれを操作し、ネットワークは異なるレベルで意味情報を深く融合させます。
さらに、ACMは競合するピクセルを適応的に除去し、ネットワークの自己学習能力を利用して潜在的なターゲット情報をマイニングする。
ベルとホイッスルなしで、私たちのMECPformerはPASCAL VOC 2012で72.0% mIoU、MS COCO 2014データセットで42.4%に達した。
コードはhttps://github.com/ChunmengLiu1/MECPformerで入手できる。
関連論文リスト
- Affine-Consistent Transformer for Multi-Class Cell Nuclei Detection [76.11864242047074]
本稿では, 原子核位置を直接生成する新しいアフィン一貫性変換器 (AC-Former) を提案する。
本稿では,AAT (Adaptive Affine Transformer) モジュールを導入し,ローカルネットワークトレーニングのためのオリジナル画像をワープするための重要な空間変換を自動学習する。
実験結果から,提案手法は様々なベンチマークにおいて既存の最先端アルゴリズムを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2023-10-22T02:27:02Z) - ConvFormer: Plug-and-Play CNN-Style Transformers for Improving Medical
Image Segmentation [10.727162449071155]
我々はCNNスタイルのトランスフォーマー(ConvFormer)を構築し、より注意収束を促進し、セグメンテーション性能を向上させる。
位置埋め込みとトークン化とは対照的に、ConvFormerは2D畳み込みと最大プーリングを採用して位置情報の保存と特徴サイズの縮小を実現している。
論文 参考訳(メタデータ) (2023-09-09T02:18:17Z) - SwinV2DNet: Pyramid and Self-Supervision Compounded Feature Learning for
Remote Sensing Images Change Detection [12.727650696327878]
本稿では,変換器とCNNの利点を継承するために,エンドツーエンドの複合ネットワークSwinV2DNetを提案する。
これは、密に接続されたSwin V2バックボーンを通じて、変更関係の機能をキャプチャする。
CNNブランチを通じて、低レベルの事前変更と後変更の機能を提供する。
論文 参考訳(メタデータ) (2023-08-22T03:31:52Z) - Focal-UNet: UNet-like Focal Modulation for Medical Image Segmentation [8.75217589103206]
本稿では,新たに導入された焦点変調機構の助けを借りて,医用画像セグメンテーションのための新しいU字型アーキテクチャを提案する。
局所的および大域的特徴を集約する焦点モジュールの能力により、我々のモデルは変換器の広い受容場を同時に得ることができる。
論文 参考訳(メタデータ) (2022-12-19T06:17:22Z) - Max Pooling with Vision Transformers reconciles class and shape in
weakly supervised semantic segmentation [0.0]
本研究は,CAMをベースとせず,ViT-PCM (ViT Patch-Class Mapping) と呼ばれる新しいWSSS手法を提案する。
当社のモデルは,PascalVOC 2012 $val$setで69.3%のmIoUを達成した,ベースライン擬似マスク(BPM)の最先端技術よりも優れています。
論文 参考訳(メタデータ) (2022-10-31T15:32:23Z) - Cross-receptive Focused Inference Network for Lightweight Image
Super-Resolution [64.25751738088015]
トランスフォーマーに基づく手法は、単一画像超解像(SISR)タスクにおいて顕著な性能を示した。
動的に特徴を抽出するために文脈情報を組み込む必要がある変換器は無視される。
我々は,CNNとTransformerを混合したCTブロックのカスケードで構成される,軽量なクロスレセプティブ・フォーカスド・推論・ネットワーク(CFIN)を提案する。
論文 参考訳(メタデータ) (2022-07-06T16:32:29Z) - MISSU: 3D Medical Image Segmentation via Self-distilling TransUNet [55.16833099336073]
医用画像セグメンテーションのためのトランスフォーマーベースUNetを提案する。
グローバルな意味情報と局所的な空間的詳細特徴を同時に学習する。
MISSUは従来の最先端手法よりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2022-06-02T07:38:53Z) - TransCAM: Transformer Attention-based CAM Refinement for Weakly
Supervised Semantic Segmentation [19.333543299407832]
弱教師付きセマンティックセグメンテーションのための Conformer ベースのソリューション TransCAM を提案する。
PASCAL VOC 2012の検証とテストセットにおいて,TransCAMは69.3%,69.6%の新たな最先端性能を実現している。
論文 参考訳(メタデータ) (2022-03-14T16:17:18Z) - HAT: Hierarchical Aggregation Transformers for Person Re-identification [87.02828084991062]
我々は,CNNとトランスフォーマーの両方の利点を,高性能な画像ベース人物Re-IDに適用する。
作業は、画像ベースのRe-IDのためのCNNとTransformerの両方の利点を初めて活用する。
論文 参考訳(メタデータ) (2021-07-13T09:34:54Z) - Less is More: Pay Less Attention in Vision Transformers [61.05787583247392]
注意の少ないvIsion Transformerは、畳み込み、完全接続層、自己アテンションが、画像パッチシーケンスを処理するためにほぼ同等な数学的表現を持つという事実に基づいている。
提案したLITは、画像分類、オブジェクト検出、インスタンス分割を含む画像認識タスクにおいて有望な性能を達成する。
論文 参考訳(メタデータ) (2021-05-29T05:26:07Z) - Swin-Unet: Unet-like Pure Transformer for Medical Image Segmentation [63.46694853953092]
Swin-Unetは、医用画像セグメンテーション用のUnetライクなトランスフォーマーである。
トークン化されたイメージパッチは、TransformerベースのU字型デコーダデコーダアーキテクチャに供給される。
論文 参考訳(メタデータ) (2021-05-12T09:30:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。