論文の概要: UperFormer: A Multi-scale Transformer-based Decoder for Semantic
Segmentation
- arxiv url: http://arxiv.org/abs/2211.13928v1
- Date: Fri, 25 Nov 2022 06:51:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-28 17:04:48.720201
- Title: UperFormer: A Multi-scale Transformer-based Decoder for Semantic
Segmentation
- Title(参考訳): UperFormer: セマンティックセグメンテーションのためのマルチスケールトランスフォーマーベースのデコーダ
- Authors: Jing Xu, Wentao Shi, Pan Gao, Zhengwei Wang, Qizhu Li
- Abstract要約: そこで我々はUperFormerと呼ばれるトランスフォーマーベースのデコーダを提案する。
UperFormerは階層エンコーダ用のプラグイン・アンド・プレイであり、エンコーダアーキテクチャに関係なく高品質なセグメンテーション結果が得られる。
我々の最良のモデルは、50.18のシングルスケールmIoUと、現在の最先端モデルと同等の51.8のマルチスケールmIoUが得られる。
- 参考スコア(独自算出の注目度): 12.712880544703332
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While a large number of recent works on semantic segmentation focus on
designing and incorporating a transformer-based encoder, much less attention
and vigor have been devoted to transformer-based decoders. For such a task
whose hallmark quest is pixel-accurate prediction, we argue that the decoder
stage is just as crucial as that of the encoder in achieving superior
segmentation performance, by disentangling and refining the high-level cues and
working out object boundaries with pixel-level precision. In this paper, we
propose a novel transformer-based decoder called UperFormer, which is
plug-and-play for hierarchical encoders and attains high quality segmentation
results regardless of encoder architecture. UperFormer is equipped with
carefully designed multi-head skip attention units and novel upsampling
operations. Multi-head skip attention is able to fuse multi-scale features from
backbones with those in decoders. The upsampling operation, which incorporates
feature from encoder, can be more friendly for object localization. It brings a
0.4% to 3.2% increase compared with traditional upsampling methods. By
combining UperFormer with Swin Transformer (Swin-T), a fully transformer-based
symmetric network is formed for semantic segmentation tasks. Extensive
experiments show that our proposed approach is highly effective and
computationally efficient. On Cityscapes dataset, we achieve state-of-the-art
performance. On the more challenging ADE20K dataset, our best model yields a
single-scale mIoU of 50.18, and a multi-scale mIoU of 51.8, which is on-par
with the current state-of-art model, while we drastically cut the number of
FLOPs by 53.5%. Our source code and models are publicly available at:
https://github.com/shiwt03/UperFormer
- Abstract(参考訳): セマンティクスセグメンテーションに関する最近の多くの研究はトランスフォーマベースのエンコーダの設計と実装に重点を置いているが、トランスフォーマベースのデコーダにはあまり注目されていない。
符号探索が画素精度予測であるようなタスクに対しては,高レベルなキューを切り離し,画素レベルの精度でオブジェクト境界を作業させることで,エンコーダの段差が優れたセグメンテーション性能を達成する上で,デコーダの段差と同等に重要であると論じる。
本稿では,階層型エンコーダのプラグアンドプレイであり,エンコーダアーキテクチャによらず高品質なセグメンテーション結果が得られるUperFormerというトランスフォーマベースのデコーダを提案する。
UperFormerは、慎重に設計されたマルチヘッドスキップアテンションユニットと、新しいアップサンプリング操作を備えている。
マルチヘッドスキップの注意は、バックボーンからデコーダの機能を融合することができる。
エンコーダの機能を組み込んだアップサンプリング操作は、オブジェクトのローカライゼーションに適しています。
従来のアップサンプリング法に比べて0.4%から3.2%増加する。
UperFormerとSwin Transformer(Swin-T)を組み合わせることで、セマンティックセグメンテーションタスクのための完全なトランスフォーマーベースの対称ネットワークが形成される。
広範な実験により,提案手法は高い効率と計算効率を示す。
cityscapesデータセットでは、最先端のパフォーマンスを実現します。
より困難なADE20Kデータセットでは、私たちの最高のモデルでは、50.18のシングルスケールmIoUと、現在の最先端モデルと同等の51.8のマルチスケールmIoUが得られます。
私たちのソースコードとモデルは、https://github.com/shiwt03/uperformerで公開されています。
関連論文リスト
- CFPFormer: Feature-pyramid like Transformer Decoder for Segmentation and Detection [1.837431956557716]
特徴ピラミッドは、医療画像のセグメンテーションやオブジェクト検出といったタスクのために、畳み込みニューラルネットワーク(CNN)やトランスフォーマーで広く採用されている。
本稿では,特徴ピラミッドと変圧器を統合したデコーダブロックを提案する。
本モデルでは,既存手法と比較して,小型物体の検出性能が向上する。
論文 参考訳(メタデータ) (2024-04-23T18:46:07Z) - Progressive Token Length Scaling in Transformer Encoders for Efficient Universal Segmentation [67.85309547416155]
ユニバーサルセグメンテーションのための強力なアーキテクチャは、マルチスケールの画像特徴を符号化し、オブジェクトクエリをマスク予測にデコードするトランスフォーマーに依存している。
Mask2Formerはその計算の50%をトランスフォーマーエンコーダでのみ使用する。
これは、エンコーダ層ごとにすべてのバックボーン機能スケールのトークンレベルの完全な表現が保持されているためである。
本稿では,パフォーマンスの犠牲を最小限に抑えながら,計算量を大幅に削減するPro-SCALEを提案する。
論文 参考訳(メタデータ) (2024-04-23T01:34:20Z) - Efficient Encoder-Decoder Transformer Decoding for Decomposable Tasks [53.550782959908524]
エンコーダ・デコーダモデルのための新しい構成を導入し、構造化された出力と分解可能なタスクの効率を改善する。
提案手法は,インプットを一度エンコードして並列にデコードすることで,トレーニングと推論の効率を向上する。
論文 参考訳(メタデータ) (2024-03-19T19:27:23Z) - U-MixFormer: UNet-like Transformer with Mix-Attention for Efficient
Semantic Segmentation [0.0]
CNNベースのU-Netは、高解像度の医療画像とリモートセンシングにおいて大きな進歩を遂げている。
この2つの成功は、両方の長所をマージするきっかけとなり、U-Netベースの視覚変換器デコーダが誕生しました。
本稿では,U-Net構造上に構築され,効率的なセマンティックセグメンテーションのために設計された新しいトランスフォーマデコーダU-MixFormerを提案する。
論文 参考訳(メタデータ) (2023-12-11T10:19:42Z) - MIST: Medical Image Segmentation Transformer with Convolutional
Attention Mixing (CAM) Decoder [0.0]
本稿では,CAMデコーダを組み込んだ医用画像変換器(MIST)を提案する。
MISTには2つの部分がある: 事前訓練された多軸視覚変換器(MaxViT)をエンコーダとして使用し、符号化された特徴表現をCAMデコーダに渡して画像のセグメンテーションを行う。
空間情報ゲインを高めるため、特徴抽出及び受容野拡大に深部及び浅部畳み込みを用いる。
論文 参考訳(メタデータ) (2023-10-30T18:07:57Z) - Medical Image Segmentation via Sparse Coding Decoder [3.9633192172709975]
トランスフォーマーは、長距離依存関係をキャプチャする能力のため、医療画像のセグメンテーションにおいて大きな成功を収めた。
これまでの研究では、変換器のエンコーダモジュールに畳み込み層が組み込まれていたため、ピクセル間の局所的な関係を学習する能力が向上した。
しかし、変換器はデコーダの空間的回復能力に乏しいため、限定的な一般化能力とロバスト性に悩まされる可能性がある。
論文 参考訳(メタデータ) (2023-10-17T03:08:35Z) - More complex encoder is not all you need [0.882348769487259]
我々は,強力なデコーダを構築するために,新しいサブピクセル・コンボリューションを組み込んだneU-Net(複雑なエンコーダではないU-Net)を導入する。
我々のモデル設計は、SynapseとACDCの両方のデータセット上で、最先端の手法を上回る優れた結果が得られる。
論文 参考訳(メタデータ) (2023-09-20T08:34:38Z) - SegViTv2: Exploring Efficient and Continual Semantic Segmentation with
Plain Vision Transformers [76.13755422671822]
本稿では,エンコーダ・デコーダ・フレームワークを用いた意味的セグメンテーションのためのプレーンビジョン変換器(ViT)の能力について検討する。
Intention-to-Mask(atm)モジュールを導入し、平易なViTに有効な軽量デコーダを設計する。
我々のデコーダは、様々なViTバックボーンを使用して人気のあるデコーダUPerNetより優れ、計算コストの5%程度しか消費しない。
論文 参考訳(メタデータ) (2023-06-09T22:29:56Z) - Inception Transformer [151.939077819196]
インセプショントランスフォーマー(iFormer)は、視覚データ中の高周波数情報と低周波情報の両方で包括的特徴を学習する。
我々は、iFormerを一連の視覚タスクでベンチマークし、画像分類、COCO検出、ADE20Kセグメンテーションにおいて優れた性能を発揮することを示した。
論文 参考訳(メタデータ) (2022-05-25T17:59:54Z) - Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective
with Transformers [149.78470371525754]
セマンティックセグメンテーションをシーケンスからシーケンスへの予測タスクとして扱う。
具体的には、イメージをパッチのシーケンスとしてエンコードするために純粋なトランスをデプロイします。
トランスのすべての層でモデル化されたグローバルコンテキストにより、このエンコーダは、SETR(SEgmentation TRansformer)と呼ばれる強力なセグメンテーションモデルを提供するための単純なデコーダと組み合わせることができる。
SETRはADE20K(50.28% mIoU)、Pascal Context(55.83% mIoU)、およびCityscapesの競争力のある結果に関する最新技術を達成している。
論文 参考訳(メタデータ) (2020-12-31T18:55:57Z) - Motion-Attentive Transition for Zero-Shot Video Object Segmentation [99.44383412488703]
ゼロショットオブジェクトセグメンテーションのためのモーション・アテンタティブ・トランジション・ネットワーク(MATNet)を提案する。
モーション・アテンティブ・トランジション (MAT) と呼ばれる非対称のアテンションブロックは、2ストリームエンコーダ内に設計されている。
このように、エンコーダは深く相互に作用し、物体の動きと外観の間の密な階層的な相互作用を可能にする。
論文 参考訳(メタデータ) (2020-03-09T16:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。