論文の概要: UperFormer: A Multi-scale Transformer-based Decoder for Semantic
Segmentation
- arxiv url: http://arxiv.org/abs/2211.13928v1
- Date: Fri, 25 Nov 2022 06:51:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-28 17:04:48.720201
- Title: UperFormer: A Multi-scale Transformer-based Decoder for Semantic
Segmentation
- Title(参考訳): UperFormer: セマンティックセグメンテーションのためのマルチスケールトランスフォーマーベースのデコーダ
- Authors: Jing Xu, Wentao Shi, Pan Gao, Zhengwei Wang, Qizhu Li
- Abstract要約: そこで我々はUperFormerと呼ばれるトランスフォーマーベースのデコーダを提案する。
UperFormerは階層エンコーダ用のプラグイン・アンド・プレイであり、エンコーダアーキテクチャに関係なく高品質なセグメンテーション結果が得られる。
我々の最良のモデルは、50.18のシングルスケールmIoUと、現在の最先端モデルと同等の51.8のマルチスケールmIoUが得られる。
- 参考スコア(独自算出の注目度): 12.712880544703332
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While a large number of recent works on semantic segmentation focus on
designing and incorporating a transformer-based encoder, much less attention
and vigor have been devoted to transformer-based decoders. For such a task
whose hallmark quest is pixel-accurate prediction, we argue that the decoder
stage is just as crucial as that of the encoder in achieving superior
segmentation performance, by disentangling and refining the high-level cues and
working out object boundaries with pixel-level precision. In this paper, we
propose a novel transformer-based decoder called UperFormer, which is
plug-and-play for hierarchical encoders and attains high quality segmentation
results regardless of encoder architecture. UperFormer is equipped with
carefully designed multi-head skip attention units and novel upsampling
operations. Multi-head skip attention is able to fuse multi-scale features from
backbones with those in decoders. The upsampling operation, which incorporates
feature from encoder, can be more friendly for object localization. It brings a
0.4% to 3.2% increase compared with traditional upsampling methods. By
combining UperFormer with Swin Transformer (Swin-T), a fully transformer-based
symmetric network is formed for semantic segmentation tasks. Extensive
experiments show that our proposed approach is highly effective and
computationally efficient. On Cityscapes dataset, we achieve state-of-the-art
performance. On the more challenging ADE20K dataset, our best model yields a
single-scale mIoU of 50.18, and a multi-scale mIoU of 51.8, which is on-par
with the current state-of-art model, while we drastically cut the number of
FLOPs by 53.5%. Our source code and models are publicly available at:
https://github.com/shiwt03/UperFormer
- Abstract(参考訳): セマンティクスセグメンテーションに関する最近の多くの研究はトランスフォーマベースのエンコーダの設計と実装に重点を置いているが、トランスフォーマベースのデコーダにはあまり注目されていない。
符号探索が画素精度予測であるようなタスクに対しては,高レベルなキューを切り離し,画素レベルの精度でオブジェクト境界を作業させることで,エンコーダの段差が優れたセグメンテーション性能を達成する上で,デコーダの段差と同等に重要であると論じる。
本稿では,階層型エンコーダのプラグアンドプレイであり,エンコーダアーキテクチャによらず高品質なセグメンテーション結果が得られるUperFormerというトランスフォーマベースのデコーダを提案する。
UperFormerは、慎重に設計されたマルチヘッドスキップアテンションユニットと、新しいアップサンプリング操作を備えている。
マルチヘッドスキップの注意は、バックボーンからデコーダの機能を融合することができる。
エンコーダの機能を組み込んだアップサンプリング操作は、オブジェクトのローカライゼーションに適しています。
従来のアップサンプリング法に比べて0.4%から3.2%増加する。
UperFormerとSwin Transformer(Swin-T)を組み合わせることで、セマンティックセグメンテーションタスクのための完全なトランスフォーマーベースの対称ネットワークが形成される。
広範な実験により,提案手法は高い効率と計算効率を示す。
cityscapesデータセットでは、最先端のパフォーマンスを実現します。
より困難なADE20Kデータセットでは、私たちの最高のモデルでは、50.18のシングルスケールmIoUと、現在の最先端モデルと同等の51.8のマルチスケールmIoUが得られます。
私たちのソースコードとモデルは、https://github.com/shiwt03/uperformerで公開されています。
関連論文リスト
- U-MixFormer: UNet-like Transformer with Mix-Attention for Efficient
Semantic Segmentation [0.0]
CNNベースのU-Netは、高解像度の医療画像とリモートセンシングにおいて大きな進歩を遂げている。
この2つの成功は、両方の長所をマージするきっかけとなり、U-Netベースの視覚変換器デコーダが誕生しました。
本稿では,U-Net構造上に構築され,効率的なセマンティックセグメンテーションのために設計された新しいトランスフォーマデコーダU-MixFormerを提案する。
論文 参考訳(メタデータ) (2023-12-11T10:19:42Z) - DEED: Dynamic Early Exit on Decoder for Accelerating Encoder-Decoder
Transformer Models [22.276574156358084]
我々は,各デコーダ層が妥当な予測を生成できるように,深層監視で訓練されたマルチエキシット・エンコーダ・デコーダ・トランスフォーマモデルを構築した。
提案手法は,ベースラインに比べて精度が向上し,全体の推論遅延を30%から60%削減できることを示す。
論文 参考訳(メタデータ) (2023-11-15T01:01:02Z) - MaxViT-UNet: Multi-Axis Attention for Medical Image Segmentation [0.5439020425819]
MaxViT-UNetは医療画像セグメンテーションのためのハイブリッドビジョントランス (CNN-Transformer) である。
提案したデコーダブロックは数回繰り返して核領域を段階的に分割する。
我々のMaxViT-UNetは、従来のCNNベース(UNet)とTransformerベース(Swin-UNet)の技術を、両方の標準データセットに対してかなりの差で上回りました。
論文 参考訳(メタデータ) (2023-05-15T07:23:54Z) - Dynamic Grained Encoder for Vision Transformers [150.02797954201424]
本稿では,自然画像の空間的冗長性を生かした視覚変換器のスパースクエリを提案する。
本研究では,各空間領域に適切なクエリ数を適応的に割り当てる動的変換器を提案する。
我々のエンコーダにより、最先端のビジョン変換器は、画像分類において同等の性能を維持しながら、計算複雑性を40%から60%削減できる。
論文 参考訳(メタデータ) (2023-01-10T07:55:29Z) - Cats: Complementary CNN and Transformer Encoders for Segmentation [13.288195115791758]
生体医用画像分割のための二重エンコーダを用いたモデルを提案する。
畳み込みエンコーダと変換器の情報を融合してデコーダに渡して結果を得る。
提案手法は,各タスクにトランスフォーマーと非変換器を併用した最先端モデルと比較して,ボード全体のDiceスコアを高くする。
論文 参考訳(メタデータ) (2022-08-24T14:25:11Z) - Dynamic Neural Representational Decoders for High-Resolution Semantic
Segmentation [98.05643473345474]
動的ニューラル表現デコーダ(NRD)と呼ばれる新しいデコーダを提案する。
エンコーダの出力上の各位置がセマンティックラベルの局所的なパッチに対応するので、この研究では、これらの局所的なパッチをコンパクトなニューラルネットワークで表現する。
このニューラル表現により、意味ラベル空間に先行する滑らかさを活用することができ、デコーダをより効率的にすることができる。
論文 参考訳(メタデータ) (2021-07-30T04:50:56Z) - SegFormer: Simple and Efficient Design for Semantic Segmentation with
Transformers [79.646577541655]
我々は,トランスフォーマーを軽量多層認識(MLP)デコーダと統合するセマンティックセグメンテーションフレームワークであるSegFormerを提案する。
SegFormerは、マルチスケール機能を出力する、新しく構造化されたエンコーダで構成されている。
提案するデコーダは,異なるレイヤからの情報を集約し,局所的な注意とグローバルな注意の両方を強力な表現に結合する。
論文 参考訳(メタデータ) (2021-05-31T17:59:51Z) - Swin-Unet: Unet-like Pure Transformer for Medical Image Segmentation [63.46694853953092]
Swin-Unetは、医用画像セグメンテーション用のUnetライクなトランスフォーマーである。
トークン化されたイメージパッチは、TransformerベースのU字型デコーダデコーダアーキテクチャに供給される。
論文 参考訳(メタデータ) (2021-05-12T09:30:26Z) - Thinking Fast and Slow: Efficient Text-to-Visual Retrieval with
Transformers [115.90778814368703]
目的は,大規模画像とビデオデータセットの言語検索である。
このタスクでは、独立してテキストとビジョンを共同埋め込み空間 a.k.a にマッピングする。
デュアルエンコーダは 検索スケールとして魅力的です
視覚テキスト変換器をクロスアテンションで使用する別のアプローチは、関節埋め込みよりも精度が大幅に向上する。
論文 参考訳(メタデータ) (2021-03-30T17:57:08Z) - Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective
with Transformers [149.78470371525754]
セマンティックセグメンテーションをシーケンスからシーケンスへの予測タスクとして扱う。
具体的には、イメージをパッチのシーケンスとしてエンコードするために純粋なトランスをデプロイします。
トランスのすべての層でモデル化されたグローバルコンテキストにより、このエンコーダは、SETR(SEgmentation TRansformer)と呼ばれる強力なセグメンテーションモデルを提供するための単純なデコーダと組み合わせることができる。
SETRはADE20K(50.28% mIoU)、Pascal Context(55.83% mIoU)、およびCityscapesの競争力のある結果に関する最新技術を達成している。
論文 参考訳(メタデータ) (2020-12-31T18:55:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。