論文の概要: MetaSeg: MetaFormer-based Global Contexts-aware Network for Efficient Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2408.07576v1
- Date: Wed, 14 Aug 2024 14:16:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-15 13:03:36.496372
- Title: MetaSeg: MetaFormer-based Global Contexts-aware Network for Efficient Semantic Segmentation
- Title(参考訳): MetaSeg: 効率的なセマンティックセグメンテーションのためのMetaFormerベースのグローバルコンテキスト認識ネットワーク
- Authors: Beoungwoo Kang, Seunghun Moon, Yubin Cho, Hyunwoo Yu, Suk-Ju Kang,
- Abstract要約: バックボーンからデコーダへのメタフォーマーアーキテクチャを活用する強力なセマンティックセグメンテーションネットワークであるMetaSegを提案する。
私たちのMetaSegは、MetaFormerアーキテクチャがデコーダやバックボーンの有用なコンテキストをキャプチャする上で重要な役割を担っていることを示しています。
これは、CNNベースのバックボーンをMetaFormerブロックを使って採用し、グローバルコンテキストをキャプチャするための新しい自己注意モジュールで構成されるMetaFormerベースのデコーダを設計する動機となります。
- 参考スコア(独自算出の注目度): 13.375673104675023
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Beyond the Transformer, it is important to explore how to exploit the capacity of the MetaFormer, an architecture that is fundamental to the performance improvements of the Transformer. Previous studies have exploited it only for the backbone network. Unlike previous studies, we explore the capacity of the Metaformer architecture more extensively in the semantic segmentation task. We propose a powerful semantic segmentation network, MetaSeg, which leverages the Metaformer architecture from the backbone to the decoder. Our MetaSeg shows that the MetaFormer architecture plays a significant role in capturing the useful contexts for the decoder as well as for the backbone. In addition, recent segmentation methods have shown that using a CNN-based backbone for extracting the spatial information and a decoder for extracting the global information is more effective than using a transformer-based backbone with a CNN-based decoder. This motivates us to adopt the CNN-based backbone using the MetaFormer block and design our MetaFormer-based decoder, which consists of a novel self-attention module to capture the global contexts. To consider both the global contexts extraction and the computational efficiency of the self-attention for semantic segmentation, we propose a Channel Reduction Attention (CRA) module that reduces the channel dimension of the query and key into the one dimension. In this way, our proposed MetaSeg outperforms the previous state-of-the-art methods with more efficient computational costs on popular semantic segmentation and a medical image segmentation benchmark, including ADE20K, Cityscapes, COCO-stuff, and Synapse. The code is available at \url{https://github.com/hyunwoo137/MetaSeg}.
- Abstract(参考訳): Transformer以外にも、Transformerのパフォーマンス改善の基礎となるアーキテクチャであるMetaFormerのキャパシティを利用する方法を検討することが重要である。
これまでの研究では、バックボーンネットワークのみに利用されていた。
従来の研究とは異なり、メタフォーマーアーキテクチャはセマンティックセグメンテーションタスクにおいてより広範囲に機能する。
バックボーンからデコーダへのメタフォーマーアーキテクチャを活用する強力なセマンティックセグメンテーションネットワークであるMetaSegを提案する。
私たちのMetaSegは、MetaFormerアーキテクチャがデコーダやバックボーンの有用なコンテキストをキャプチャする上で重要な役割を担っていることを示しています。
さらに,最近のセグメンテーション手法では,空間情報を抽出するCNNベースのバックボーンとグローバル情報を抽出するデコーダが,CNNベースのデコーダを用いたトランスフォーマベースのバックボーンよりも有効であることが示されている。
これは、CNNベースのバックボーンをMetaFormerブロックを使って採用し、グローバルコンテキストをキャプチャするための新しい自己注意モジュールで構成されるMetaFormerベースのデコーダを設計する動機となります。
セマンティックセグメンテーションのための自己アテンションのグローバルなコンテキスト抽出と計算効率の両方を考慮するために,クエリとキーのチャネル次元を1次元に縮小するチャネルリダクションアテンション(CRA)モジュールを提案する。
このようにして、提案したMetaSegは、ADE20K、Cityscapes、COCO-stuff、Synapseを含む、一般的なセマンティックセグメンテーションと医療画像セグメンテーションのベンチマークにおいて、より効率的な計算コストで従来の最先端手法よりも優れている。
コードは \url{https://github.com/hyunwoo137/MetaSeg} で公開されている。
関連論文リスト
- ScribFormer: Transformer Makes CNN Work Better for Scribble-based
Medical Image Segmentation [43.24187067938417]
本稿では,ScribFormerと呼ばれるスクリブル制御型医用画像分割のためのCNN-Transformerハイブリッドソリューションを提案する。
提案したScribFormerモデルはトリプルブランチ構造、すなわちCNNブランチとTransformerブランチのハイブリッド、注意誘導型クラスアクティベーションマップ(ACAM)ブランチを備えている。
論文 参考訳(メタデータ) (2024-02-03T04:55:22Z) - Metadata Improves Segmentation Through Multitasking Elicitation [6.924743564169896]
本稿では,畳み込みネットワークにおけるチャネル変調機構を用いてメタデータを組み込み,セマンティックセグメンテーションタスクに与える影響について検討する。
畳み込みネットワークへの付加的な入力としてのメタデータは、一般的なモデルに対するピンブルアドオンとして実装が安価でありながらセグメンテーション結果を改善することができることを示す。
論文 参考訳(メタデータ) (2023-08-18T09:23:55Z) - Transformer-Based Visual Segmentation: A Survey [118.01564082499948]
ビジュアルセグメンテーションは、画像、ビデオフレーム、またはポイントクラウドを複数のセグメンテーションまたはグループに分割する。
トランスフォーマー(Transformer)は、自然言語処理用に設計された自己アテンションに基づくニューラルネットワークの一種である。
トランスフォーマーは、様々なセグメンテーションタスクに対して堅牢で統一的で、さらにシンプルなソリューションを提供する。
論文 参考訳(メタデータ) (2023-04-19T17:59:02Z) - Learning Target-aware Representation for Visual Tracking via Informative
Interactions [49.552877881662475]
トラッキングのための特徴表現のターゲット認識能力を改善するために,新しいバックボーンアーキテクチャを提案する。
提案したGIMモジュールとInBN機構は、CNNやTransformerなど、さまざまなバックボーンタイプに適用可能である。
論文 参考訳(メタデータ) (2022-01-07T16:22:27Z) - SeMask: Semantically Masked Transformers for Semantic Segmentation [10.15763397352378]
SeMaskは、セマンティックアテンション操作の助けを借りて、セマンティック情報をエンコーダに組み込むフレームワークである。
我々のフレームワークはADE20Kデータセットで58.22% mIoUの新たな最先端を実現し、CityscapesデータセットではmIoUメトリックで3%以上の改善を実現している。
論文 参考訳(メタデータ) (2021-12-23T18:56:02Z) - Boosting Few-shot Semantic Segmentation with Transformers [81.43459055197435]
TRansformer-based Few-shot Semantic segmentation Method (TRFS)
我々のモデルは,グローバル・エンハンスメント・モジュール(GEM)とローカル・エンハンスメント・モジュール(LEM)の2つのモジュールから構成される。
論文 参考訳(メタデータ) (2021-08-04T20:09:21Z) - Segmenter: Transformer for Semantic Segmentation [79.9887988699159]
セマンティックセグメンテーションのためのトランスフォーマーモデルであるSegmenterを紹介します。
最近のViT(Vision Transformer)上に構築し,セマンティックセグメンテーションに拡張する。
これは、挑戦的なADE20Kデータセット上でのアートの状態を上回り、Pascal ContextとCityscapesでオンパーを実行する。
論文 参考訳(メタデータ) (2021-05-12T13:01:44Z) - Local Memory Attention for Fast Video Semantic Segmentation [157.7618884769969]
既存の単一フレームセマンティックセグメンテーションモデルをビデオセマンティックセグメンテーションパイプラインに変換する新しいニューラルネットワークモジュールを提案する。
我々のアプローチは過去のフレームにおける意味情報の豊富な表現をメモリモジュールに集約する。
都市景観におけるセグメンテーション性能は,それぞれ1.7%,2.1%改善し,erfnetの推論時間は1.5msに抑えられた。
論文 参考訳(メタデータ) (2021-01-05T18:57:09Z) - Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective
with Transformers [149.78470371525754]
セマンティックセグメンテーションをシーケンスからシーケンスへの予測タスクとして扱う。
具体的には、イメージをパッチのシーケンスとしてエンコードするために純粋なトランスをデプロイします。
トランスのすべての層でモデル化されたグローバルコンテキストにより、このエンコーダは、SETR(SEgmentation TRansformer)と呼ばれる強力なセグメンテーションモデルを提供するための単純なデコーダと組み合わせることができる。
SETRはADE20K(50.28% mIoU)、Pascal Context(55.83% mIoU)、およびCityscapesの競争力のある結果に関する最新技術を達成している。
論文 参考訳(メタデータ) (2020-12-31T18:55:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。