論文の概要: Dual-Augmented Transformer Network for Weakly Supervised Semantic
Segmentation
- arxiv url: http://arxiv.org/abs/2310.00307v1
- Date: Sat, 30 Sep 2023 08:41:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 05:10:33.134579
- Title: Dual-Augmented Transformer Network for Weakly Supervised Semantic
Segmentation
- Title(参考訳): 弱教師付き意味セグメンテーションのためのデュアルオーグメンテーショントランスフォーマネットワーク
- Authors: Jingliang Deng, Zonghan Li
- Abstract要約: 弱教師付きセマンティックセグメンテーション(WSSS)は、クラスレベルのラベルのみにオブジェクトを分割することを目的とした、基本的なコンピュータビジョンタスクである。
従来の手法では、CNNベースのネットワークを採用し、クラスアクティベーションマップ(CAM)戦略を用いて対象領域を発見する。
別の方法は、視覚変換器(ViT)を探索して画像を符号化し、グローバルな意味情報を取得することである。
相互補完学習のためのCNNベースネットワークとトランスフォーマーネットワークを併用したデュアルネットワークを提案する。
- 参考スコア(独自算出の注目度): 4.02487511510606
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Weakly supervised semantic segmentation (WSSS), a fundamental computer vision
task, which aims to segment out the object within only class-level labels. The
traditional methods adopt the CNN-based network and utilize the class
activation map (CAM) strategy to discover the object regions. However, such
methods only focus on the most discriminative region of the object, resulting
in incomplete segmentation. An alternative is to explore vision transformers
(ViT) to encode the image to acquire the global semantic information. Yet, the
lack of transductive bias to objects is a flaw of ViT. In this paper, we
explore the dual-augmented transformer network with self-regularization
constraints for WSSS. Specifically, we propose a dual network with both
CNN-based and transformer networks for mutually complementary learning, where
both networks augment the final output for enhancement. Massive systemic
evaluations on the challenging PASCAL VOC 2012 benchmark demonstrate the
effectiveness of our method, outperforming previous state-of-the-art methods.
- Abstract(参考訳): 弱教師付きセマンティックセグメンテーション(WSSS)は、クラスレベルのラベルのみにオブジェクトを分割することを目的とした、基本的なコンピュータビジョンタスクである。
従来の手法ではcnnベースのネットワークを採用し、クラスアクティベーションマップ(cam)戦略を使用してオブジェクト領域を検出する。
しかし、そのような手法は対象の最も差別的な領域にのみ焦点をあて、不完全セグメンテーションをもたらす。
別の方法は、視覚変換器(ViT)を探索して画像を符号化し、グローバルな意味情報を取得することである。
しかし、オブジェクトへのトランスダクティブバイアスの欠如は、ViTの欠陥である。
本稿では,WSSS の自己正規化制約を考慮した二層変圧器ネットワークについて検討する。
具体的には,相互補完学習のためのCNNベースネットワークとトランスフォーマーネットワークを併用した2つのネットワークを提案する。
PASCAL VOC 2012ベンチマークにおける大規模システム評価は,従来の最先端手法よりも優れていることを示す。
関連論文リスト
- Affine-Consistent Transformer for Multi-Class Cell Nuclei Detection [76.11864242047074]
本稿では, 原子核位置を直接生成する新しいアフィン一貫性変換器 (AC-Former) を提案する。
本稿では,AAT (Adaptive Affine Transformer) モジュールを導入し,ローカルネットワークトレーニングのためのオリジナル画像をワープするための重要な空間変換を自動学習する。
実験結果から,提案手法は様々なベンチマークにおいて既存の最先端アルゴリズムを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2023-10-22T02:27:02Z) - Semantic-Constraint Matching Transformer for Weakly Supervised Object
Localization [31.039698757869974]
弱教師付きオブジェクトローカライゼーション(WSOL)は、イメージレベルの監督のみでオブジェクトをローカライズすることを学ぶ。
従来のCNNベースのメソッドは、エンティティのスコープ全体ではなく、オブジェクトの識別部分に集中して、部分的なアクティベーションの問題に悩まされていた。
本稿では,変圧器を用いたセマンティック・制約マッチングネットワーク(SCMN)を提案する。
論文 参考訳(メタデータ) (2023-09-04T03:20:31Z) - USAGE: A Unified Seed Area Generation Paradigm for Weakly Supervised
Semantic Segmentation [90.08744714206233]
両タイプのネットワークに対して,シードエリアジェネレーション(USAGE)のための統一最適化パラダイムを提案する。
実験の結果,UAGEはCNNとトランスフォーマーの両方のシード領域生成を一貫して改善することがわかった。
論文 参考訳(メタデータ) (2023-03-14T11:25:02Z) - Representation Separation for Semantic Segmentation with Vision
Transformers [11.431694321563322]
イメージをパッチのシーケンスとして符号化するビジョントランスフォーマー(ViT)は、セマンティックセグメンテーションの新しいパラダイムをもたらす。
局所パッチレベルと大域領域レベルでの表現分離の効率的な枠組みをViTを用いたセマンティックセグメンテーションに適用する。
論文 参考訳(メタデータ) (2022-12-28T09:54:52Z) - Dual Progressive Transformations for Weakly Supervised Semantic
Segmentation [23.68115323096787]
弱教師付きセマンティックセグメンテーション(WSSS)はコンピュータビジョンにおいて難しい課題である。
グローバルに完全かつ局所的に正確なクラスアクティベーションマップをマイニングするための畳み込みニューラルネットワーク精製変換器(CRT)を提案する。
提案したCRTは、弱教師付きセマンティックセグメンテーションタスクの両方において、最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-09-30T03:42:52Z) - WegFormer: Transformers for Weakly Supervised Semantic Segmentation [32.3201557200616]
この作業では、Transformerを導入し、WegFormerと呼ばれるシンプルで効果的なWSSSフレームワークを構築します。
既存のCNNベースの方法とは異なり、WegFormerはVision Transformerを分類器として使用し、高品質な擬似セグメンテーションマスクを生成する。
WegFormerはPASCAL VOCデータセット上で最先端の70.5% mIoUを達成し、以前のベストメソッドを大幅に上回っている。
論文 参考訳(メタデータ) (2022-03-16T06:50:31Z) - A Unified Architecture of Semantic Segmentation and Hierarchical
Generative Adversarial Networks for Expression Manipulation [52.911307452212256]
セマンティックセグメンテーションと階層的GANの統一アーキテクチャを開発する。
我々のフレームワークのユニークな利点は、将来的なセマンティックセグメンテーションネットワーク条件を生成モデルに渡すことである。
我々は,AffectNetとRaFDの2つの難解な表情翻訳ベンチマークとセマンティックセグメンテーションベンチマークであるCelebAMask-HQについて評価を行った。
論文 参考訳(メタデータ) (2021-12-08T22:06:31Z) - Efficient Hybrid Transformer: Learning Global-local Context for Urban
Sence Segmentation [11.237929167356725]
都市景観画像のセマンティックセグメンテーションのための効率的なハイブリッドトランスフォーマ(EHT)を提案する。
EHTはCNNとTransformerを利用して、グローバルなローカルコンテキストを学び、特徴表現を強化する。
提案されたEHTはUAVidテストセットで67.0% mIoUを達成し、他の軽量モデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2021-09-18T13:55:38Z) - Context Decoupling Augmentation for Weakly Supervised Semantic
Segmentation [53.49821324597837]
微調整されたセマンティックセグメンテーションは、近年深く研究されている困難な問題です。
本稿では、オブジェクトが現れる固有のコンテキストを変更する Context Decoupling Augmentation (CDA) メソッドを紹介します。
提案手法の有効性を検証するため, PASCAL VOC 2012データセットにいくつかの代替ネットワークアーキテクチャを用いた広範な実験を行い, CDAが様々なWSSS手法を新たな最先端技術に拡張できることを実証した。
論文 参考訳(メタデータ) (2021-03-02T15:05:09Z) - A Transductive Multi-Head Model for Cross-Domain Few-Shot Learning [72.30054522048553]
本稿では,クロスドメインなFew-Shot学習問題に対処するため,TMHFS(Transductive Multi-Head Few-Shot Learning)を提案する。
提案手法は, 4つの異なる対象領域において, 強いベースライン, 微調整を著しく上回っている。
論文 参考訳(メタデータ) (2020-06-08T02:39:59Z) - Ventral-Dorsal Neural Networks: Object Detection via Selective Attention [51.79577908317031]
我々はVDNet(Ventral-Dorsal Networks)と呼ばれる新しいフレームワークを提案する。
人間の視覚システムの構造にインスパイアされた我々は「Ventral Network」と「Dorsal Network」の統合を提案する。
実験の結果,提案手法は最先端の物体検出手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-05-15T23:57:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。