論文の概要: MUSTER: A Multi-scale Transformer-based Decoder for Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2211.13928v2
- Date: Sat, 17 Aug 2024 01:47:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-21 06:43:37.232471
- Title: MUSTER: A Multi-scale Transformer-based Decoder for Semantic Segmentation
- Title(参考訳): MUSTER: セマンティックセグメンテーションのためのマルチスケールトランスフォーマーベースのデコーダ
- Authors: Jing Xu, Wentao Shi, Pan Gao, Zhengwei Wang, Qizhu Li,
- Abstract要約: MUSTERはトランスフォーマーベースのデコーダで、階層エンコーダとシームレスに統合される。
MSKAユニットはエンコーダとデコーダからのマルチスケール機能の融合を可能にし、包括的な情報統合を容易にする。
ADE20Kデータセットでは,50.23の単一スケールmIoUと51.88のマルチスケールmIoUを達成する。
- 参考スコア(独自算出の注目度): 19.83103856355554
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent works on semantic segmentation, there has been a significant focus on designing and integrating transformer-based encoders. However, less attention has been given to transformer-based decoders. We emphasize that the decoder stage is equally vital as the encoder in achieving superior segmentation performance. It disentangles and refines high-level cues, enabling precise object boundary delineation at the pixel level. In this paper, we introduce a novel transformer-based decoder called MUSTER, which seamlessly integrates with hierarchical encoders and consistently delivers high-quality segmentation results, regardless of the encoder architecture. Furthermore, we present a variant of MUSTER that reduces FLOPS while maintaining performance. MUSTER incorporates carefully designed multi-head skip attention (MSKA) units and introduces innovative upsampling operations. The MSKA units enable the fusion of multi-scale features from the encoder and decoder, facilitating comprehensive information integration. The upsampling operation leverages encoder features to enhance object localization and surpasses traditional upsampling methods, improving mIoU (mean Intersection over Union) by 0.4% to 3.2%. On the challenging ADE20K dataset, our best model achieves a single-scale mIoU of 50.23 and a multi-scale mIoU of 51.88, which is on-par with the current state-of-the-art model. Remarkably, we achieve this while significantly reducing the number of FLOPs by 61.3%. Our source code and models are publicly available at: https://github.com/shiwt03/MUSTER.
- Abstract(参考訳): セマンティックセグメンテーションに関する最近の研究では、トランスフォーマーベースのエンコーダの設計と統合に重点が置かれている。
しかし、トランスフォーマーベースのデコーダには注意が向けられていない。
我々は,デコーダの段は,より優れたセグメンテーション性能を実現する上で,エンコーダと同等に重要であることを強調した。
ハイレベルなキューをアンタングルして洗練し、ピクセルレベルでの正確なオブジェクト境界のデライン化を可能にする。
本稿では,階層型エンコーダとシームレスに統合し,エンコーダアーキテクチャによらず常に高品質なセグメンテーション結果を提供する,MUSTERと呼ばれる新しいトランスフォーマベースのデコーダを提案する。
さらに,性能を保ちながらFLOPSを低減するMUSTERの変種を提案する。
MUSTERは、慎重に設計されたマルチヘッド・スキップ・アテンション(MSKA)を取り入れ、革新的なアップサンプリング・オペレーションを導入している。
MSKAユニットはエンコーダとデコーダからのマルチスケール機能の融合を可能にし、包括的な情報統合を容易にする。
アップサンプリング操作は、エンコーダ機能を活用してオブジェクトのローカライゼーションを強化し、従来のアップサンプリング手法を超越し、mIoU(平均ユニオン間)を0.4%から3.2%改善する。
ADE20Kデータセットでは,50.23の単一スケールmIoUと51.88のマルチスケールmIoUを実現している。
注目すべきは、FLOPの数を61.3%削減しつつ、これを実現することである。
私たちのソースコードとモデルは、https://github.com/shiwt03/MUSTER.comで公開されています。
関連論文リスト
- CFPFormer: Feature-pyramid like Transformer Decoder for Segmentation and Detection [1.837431956557716]
特徴ピラミッドは、医療画像のセグメンテーションやオブジェクト検出といったタスクのために、畳み込みニューラルネットワーク(CNN)やトランスフォーマーで広く採用されている。
本稿では,特徴ピラミッドと変圧器を統合したデコーダブロックを提案する。
本モデルでは,既存手法と比較して,小型物体の検出性能が向上する。
論文 参考訳(メタデータ) (2024-04-23T18:46:07Z) - Efficient Transformer Encoders for Mask2Former-style models [57.54752243522298]
ECO-M2Fは、入力画像上に条件付きエンコーダ内の隠蔽層数を自己選択する戦略である。
提案手法は、性能を維持しながら、予測エンコーダの計算コストを削減する。
アーキテクチャ構成では柔軟性があり、セグメンテーションタスクを超えてオブジェクト検出まで拡張できる。
論文 参考訳(メタデータ) (2024-04-23T17:26:34Z) - Progressive Token Length Scaling in Transformer Encoders for Efficient Universal Segmentation [67.85309547416155]
ユニバーサルセグメンテーションのための強力なアーキテクチャは、マルチスケールの画像特徴を符号化し、オブジェクトクエリをマスク予測にデコードするトランスフォーマーに依存している。
Mask2Formerはその計算の50%をトランスフォーマーエンコーダでのみ使用する。
これは、エンコーダ層ごとにすべてのバックボーン機能スケールのトークンレベルの完全な表現が保持されているためである。
本稿では,パフォーマンスの犠牲を最小限に抑えながら,計算量を大幅に削減するPro-SCALEを提案する。
論文 参考訳(メタデータ) (2024-04-23T01:34:20Z) - U-MixFormer: UNet-like Transformer with Mix-Attention for Efficient
Semantic Segmentation [0.0]
CNNベースのU-Netは、高解像度の医療画像とリモートセンシングにおいて大きな進歩を遂げている。
この2つの成功は、両方の長所をマージするきっかけとなり、U-Netベースの視覚変換器デコーダが誕生しました。
本稿では,U-Net構造上に構築され,効率的なセマンティックセグメンテーションのために設計された新しいトランスフォーマデコーダU-MixFormerを提案する。
論文 参考訳(メタデータ) (2023-12-11T10:19:42Z) - Dynamic Grained Encoder for Vision Transformers [150.02797954201424]
本稿では,自然画像の空間的冗長性を生かした視覚変換器のスパースクエリを提案する。
本研究では,各空間領域に適切なクエリ数を適応的に割り当てる動的変換器を提案する。
我々のエンコーダにより、最先端のビジョン変換器は、画像分類において同等の性能を維持しながら、計算複雑性を40%から60%削減できる。
論文 参考訳(メタデータ) (2023-01-10T07:55:29Z) - Cats: Complementary CNN and Transformer Encoders for Segmentation [13.288195115791758]
生体医用画像分割のための二重エンコーダを用いたモデルを提案する。
畳み込みエンコーダと変換器の情報を融合してデコーダに渡して結果を得る。
提案手法は,各タスクにトランスフォーマーと非変換器を併用した最先端モデルと比較して,ボード全体のDiceスコアを高くする。
論文 参考訳(メタデータ) (2022-08-24T14:25:11Z) - Dynamic Neural Representational Decoders for High-Resolution Semantic
Segmentation [98.05643473345474]
動的ニューラル表現デコーダ(NRD)と呼ばれる新しいデコーダを提案する。
エンコーダの出力上の各位置がセマンティックラベルの局所的なパッチに対応するので、この研究では、これらの局所的なパッチをコンパクトなニューラルネットワークで表現する。
このニューラル表現により、意味ラベル空間に先行する滑らかさを活用することができ、デコーダをより効率的にすることができる。
論文 参考訳(メタデータ) (2021-07-30T04:50:56Z) - Swin-Unet: Unet-like Pure Transformer for Medical Image Segmentation [63.46694853953092]
Swin-Unetは、医用画像セグメンテーション用のUnetライクなトランスフォーマーである。
トークン化されたイメージパッチは、TransformerベースのU字型デコーダデコーダアーキテクチャに供給される。
論文 参考訳(メタデータ) (2021-05-12T09:30:26Z) - Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective
with Transformers [149.78470371525754]
セマンティックセグメンテーションをシーケンスからシーケンスへの予測タスクとして扱う。
具体的には、イメージをパッチのシーケンスとしてエンコードするために純粋なトランスをデプロイします。
トランスのすべての層でモデル化されたグローバルコンテキストにより、このエンコーダは、SETR(SEgmentation TRansformer)と呼ばれる強力なセグメンテーションモデルを提供するための単純なデコーダと組み合わせることができる。
SETRはADE20K(50.28% mIoU)、Pascal Context(55.83% mIoU)、およびCityscapesの競争力のある結果に関する最新技術を達成している。
論文 参考訳(メタデータ) (2020-12-31T18:55:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。