論文の概要: Leveraging Swin Transformer for Local-to-Global Weakly Supervised
Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2401.17828v2
- Date: Mon, 11 Mar 2024 04:59:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 14:33:12.971495
- Title: Leveraging Swin Transformer for Local-to-Global Weakly Supervised
Semantic Segmentation
- Title(参考訳): 局所-Global Weakly Supervised Semantic Segmentationのためのスウィントランスの活用
- Authors: Rozhan Ahmadi, Shohreh Kasaei
- Abstract要約: 本研究では、初期シードCAMの精度を高めるために「SWTformer」を提案することで、Swin Transformerの使用について検討する。
SWTformer-V1は、精度0.98%のmAPを実現し、最先端モデルより優れている。
SWTformer-V2は、追加情報を抽出するためにマルチスケールの機能融合機構を組み込んでいる。
- 参考スコア(独自算出の注目度): 12.103012959947055
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, weakly supervised semantic segmentation using image-level
labels as supervision has received significant attention in the field of
computer vision. Most existing methods have addressed the challenges arising
from the lack of spatial information in these labels by focusing on
facilitating supervised learning through the generation of pseudo-labels from
class activation maps (CAMs). Due to the localized pattern detection of CNNs,
CAMs often emphasize only the most discriminative parts of an object, making it
challenging to accurately distinguish foreground objects from each other and
the background. Recent studies have shown that Vision Transformer (ViT)
features, due to their global view, are more effective in capturing the scene
layout than CNNs. However, the use of hierarchical ViTs has not been
extensively explored in this field. This work explores the use of Swin
Transformer by proposing "SWTformer" to enhance the accuracy of the initial
seed CAMs by bringing local and global views together. SWTformer-V1 generates
class probabilities and CAMs using only the patch tokens as features.
SWTformer-V2 incorporates a multi-scale feature fusion mechanism to extract
additional information and utilizes a background-aware mechanism to generate
more accurate localization maps with improved cross-object discrimination.
Based on experiments on the PascalVOC 2012 dataset, SWTformer-V1 achieves a
0.98% mAP higher localization accuracy, outperforming state-of-the-art models.
It also yields comparable performance by 0.82% mIoU on average higher than
other methods in generating initial localization maps, depending only on the
classification network. SWTformer-V2 further improves the accuracy of the
generated seed CAMs by 5.32% mIoU, further proving the effectiveness of the
local-to-global view provided by the Swin transformer. Code available at:
https://github.com/RozhanAhmadi/SWTformer
- Abstract(参考訳): 近年,画像レベルのラベルを用いたセマンティックセマンティックセグメンテーションがコンピュータビジョンの分野で注目されている。
既存の手法の多くは、クラスアクティベーションマップ(cams)から疑似ラベルを生成することによって教師付き学習を促進することに焦点を当て、これらのラベルにおける空間情報の欠如から生じる課題に対処している。
CNNの局所的なパターン検出のため、CAMはオブジェクトの最も差別的な部分のみを強調することが多く、前景オブジェクトと背景オブジェクトを正確に区別することは困難である。
近年の研究では、視覚変換器(ViT)の機能はCNNよりもシーンレイアウトを捉えるのに効果的であることが示されている。
しかし、この分野では階層型 ViT の使用が広く研究されていない。
本研究は,「swtformer」の提案により,初期シードカメラの精度を高めるために,局所的およびグローバル的なビューを組み合わせることで,swinトランスフォーマーの利用を探求する。
SWTformer-V1は、パッチトークンのみを特徴として、クラス確率とCAMを生成する。
SWTformer-V2には、追加情報を抽出するマルチスケール機能融合機構が組み込まれており、背景認識機構を使用して、クロスオブジェクト識別を改善したより正確なローカライゼーションマップを生成する。
PascalVOC 2012データセットの実験に基づいて、SWTformer-V1は0.98%のmAPのローカライゼーション精度を実現し、最先端モデルを上回っている。
また、分類ネットワークに依存して初期位置マップを生成する場合、他の手法よりも平均0.82% mIoUで同等の性能が得られる。
SWTformer-V2はさらに、生成されたシードCAMの精度を5.32% mIoUで改善し、Swin変換器によって提供されるローカル・グローバルビューの有効性を証明した。
コード提供: https://github.com/rozhanahmadi/swtformer
関連論文リスト
- Other Tokens Matter: Exploring Global and Local Features of Vision Transformers for Object Re-Identification [63.147482497821166]
我々はまず,ViTのグローバルおよびローカルな特徴の影響を探求し,高性能オブジェクトRe-IDのための新しいグローバルローカ変換器(GLTrans)を提案する。
提案手法は,4つのオブジェクトRe-IDベンチマークにおいて優れた性能を実現する。
論文 参考訳(メタデータ) (2024-04-23T12:42:07Z) - ELGC-Net: Efficient Local-Global Context Aggregation for Remote Sensing Change Detection [65.59969454655996]
本稿では,変化領域を正確に推定するために,リッチな文脈情報を利用する効率的な変化検出フレームワークELGC-Netを提案する。
提案するELGC-Netは、リモートセンシング変更検出ベンチマークにおいて、最先端の性能を新たに設定する。
また,ELGC-Net-LWも導入した。
論文 参考訳(メタデータ) (2024-03-26T17:46:25Z) - Affine-Consistent Transformer for Multi-Class Cell Nuclei Detection [76.11864242047074]
本稿では, 原子核位置を直接生成する新しいアフィン一貫性変換器 (AC-Former) を提案する。
本稿では,AAT (Adaptive Affine Transformer) モジュールを導入し,ローカルネットワークトレーニングのためのオリジナル画像をワープするための重要な空間変換を自動学習する。
実験結果から,提案手法は様々なベンチマークにおいて既存の最先端アルゴリズムを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2023-10-22T02:27:02Z) - Max Pooling with Vision Transformers reconciles class and shape in
weakly supervised semantic segmentation [0.0]
本研究は,CAMをベースとせず,ViT-PCM (ViT Patch-Class Mapping) と呼ばれる新しいWSSS手法を提案する。
当社のモデルは,PascalVOC 2012 $val$setで69.3%のmIoUを達成した,ベースライン擬似マスク(BPM)の最先端技術よりも優れています。
論文 参考訳(メタデータ) (2022-10-31T15:32:23Z) - Dual Progressive Transformations for Weakly Supervised Semantic
Segmentation [23.68115323096787]
弱教師付きセマンティックセグメンテーション(WSSS)はコンピュータビジョンにおいて難しい課題である。
グローバルに完全かつ局所的に正確なクラスアクティベーションマップをマイニングするための畳み込みニューラルネットワーク精製変換器(CRT)を提案する。
提案したCRTは、弱教師付きセマンティックセグメンテーションタスクの両方において、最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-09-30T03:42:52Z) - Vision Transformers: From Semantic Segmentation to Dense Prediction [144.38869017091199]
画像分類における視覚変換器(ViT)は、視覚表現学習の方法論をシフトさせている。
本研究では、高密度視覚予測のためのVTのグローバルな文脈学習の可能性について検討する。
我々のモチベーションは、グローバルコンテキストを全受容界層で学習することで、ViTがより強力な長距離依存性情報を取得することである。
論文 参考訳(メタデータ) (2022-07-19T15:49:35Z) - Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z) - Transformer-Guided Convolutional Neural Network for Cross-View
Geolocalization [20.435023745201878]
本稿ではトランスフォーマー誘導型畳み込みニューラルネットワーク(TransGCNN)アーキテクチャを提案する。
我々のTransGCNNは、入力画像からCNNのバックボーン抽出特徴マップと、グローバルコンテキストをモデル化するTransformerヘッドで構成される。
CVUSAとCVACT_valでそれぞれ94.12%,84.92%の精度を達成した。
論文 参考訳(メタデータ) (2022-04-21T08:46:41Z) - Unifying Global-Local Representations in Salient Object Detection with Transformer [55.23033277636774]
我々は、視覚変換器という新しいアテンションベースのエンコーダを有能な物体検出に導入する。
非常に浅い層でのグローバルビューでは、トランスフォーマーエンコーダはより局所的な表現を保持する。
提案手法は,5つのベンチマークにおいて,他のFCN法およびトランスフォーマー法よりも優れていた。
論文 参考訳(メタデータ) (2021-08-05T17:51:32Z) - Feature Fusion Vision Transformer for Fine-Grained Visual Categorization [22.91753200323264]
我々は、新しい純粋なトランスベースフレームワークFeature Fusion Vision Transformer (FFVT)を提案する。
各トランス層から重要なトークンを集約し、ローカル、低レベル、中レベルの情報を補う。
我々は,相互注意重み付け (MAWS) と呼ばれる新しいトークン選択モジュールを設計し,ネットワークを効果的かつ効率的に識別トークンの選択に向けて誘導する。
論文 参考訳(メタデータ) (2021-07-06T01:48:43Z) - TransFG: A Transformer Architecture for Fine-grained Recognition [27.76159820385425]
近年,視覚変換器 (ViT) は従来の分類課題において高い性能を示した。
我々は、トランスの生の注意重みをすべて注意マップに統合する新しいトランスベースのフレームワークTransFGを提案します。
類似サブクラスの特徴表現間の距離をさらに拡大するために、コントラスト損失が適用される。
論文 参考訳(メタデータ) (2021-03-14T17:03:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。