Fugu-MT 論文翻訳(概要): UperFormer: A Multi-scale Transformer-based Decoder for Semantic Segmentation

論文の概要: UperFormer: A Multi-scale Transformer-based Decoder for Semantic Segmentation

arxiv url: http://arxiv.org/abs/2211.13928v1
Date: Fri, 25 Nov 2022 06:51:07 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-28 17:04:48.720201
Title: UperFormer: A Multi-scale Transformer-based Decoder for Semantic Segmentation
Title（参考訳）: UperFormer: セマンティックセグメンテーションのためのマルチスケールトランスフォーマーベースのデコーダ
Authors: Jing Xu, Wentao Shi, Pan Gao, Zhengwei Wang, Qizhu Li
Abstract要約: そこで我々はUperFormerと呼ばれるトランスフォーマーベースのデコーダを提案する。 UperFormerは階層エンコーダ用のプラグイン・アンド・プレイであり、エンコーダアーキテクチャに関係なく高品質なセグメンテーション結果が得られる。我々の最良のモデルは、50.18のシングルスケールmIoUと、現在の最先端モデルと同等の51.8のマルチスケールmIoUが得られる。
参考スコア（独自算出の注目度）: 12.712880544703332
License: http://creativecommons.org/licenses/by/4.0/
Abstract: While a large number of recent works on semantic segmentation focus on designing and incorporating a transformer-based encoder, much less attention and vigor have been devoted to transformer-based decoders. For such a task whose hallmark quest is pixel-accurate prediction, we argue that the decoder stage is just as crucial as that of the encoder in achieving superior segmentation performance, by disentangling and refining the high-level cues and working out object boundaries with pixel-level precision. In this paper, we propose a novel transformer-based decoder called UperFormer, which is plug-and-play for hierarchical encoders and attains high quality segmentation results regardless of encoder architecture. UperFormer is equipped with carefully designed multi-head skip attention units and novel upsampling operations. Multi-head skip attention is able to fuse multi-scale features from backbones with those in decoders. The upsampling operation, which incorporates feature from encoder, can be more friendly for object localization. It brings a 0.4% to 3.2% increase compared with traditional upsampling methods. By combining UperFormer with Swin Transformer (Swin-T), a fully transformer-based symmetric network is formed for semantic segmentation tasks. Extensive experiments show that our proposed approach is highly effective and computationally efficient. On Cityscapes dataset, we achieve state-of-the-art performance. On the more challenging ADE20K dataset, our best model yields a single-scale mIoU of 50.18, and a multi-scale mIoU of 51.8, which is on-par with the current state-of-art model, while we drastically cut the number of FLOPs by 53.5%. Our source code and models are publicly available at: https://github.com/shiwt03/UperFormer
Abstract（参考訳）: セマンティクスセグメンテーションに関する最近の多くの研究はトランスフォーマベースのエンコーダの設計と実装に重点を置いているが、トランスフォーマベースのデコーダにはあまり注目されていない。符号探索が画素精度予測であるようなタスクに対しては,高レベルなキューを切り離し,画素レベルの精度でオブジェクト境界を作業させることで,エンコーダの段差が優れたセグメンテーション性能を達成する上で,デコーダの段差と同等に重要であると論じる。本稿では,階層型エンコーダのプラグアンドプレイであり,エンコーダアーキテクチャによらず高品質なセグメンテーション結果が得られるUperFormerというトランスフォーマベースのデコーダを提案する。 UperFormerは、慎重に設計されたマルチヘッドスキップアテンションユニットと、新しいアップサンプリング操作を備えている。マルチヘッドスキップの注意は、バックボーンからデコーダの機能を融合することができる。エンコーダの機能を組み込んだアップサンプリング操作は、オブジェクトのローカライゼーションに適しています。従来のアップサンプリング法に比べて0.4%から3.2%増加する。 UperFormerとSwin Transformer(Swin-T)を組み合わせることで、セマンティックセグメンテーションタスクのための完全なトランスフォーマーベースの対称ネットワークが形成される。広範な実験により,提案手法は高い効率と計算効率を示す。 cityscapesデータセットでは、最先端のパフォーマンスを実現します。より困難なADE20Kデータセットでは、私たちの最高のモデルでは、50.18のシングルスケールmIoUと、現在の最先端モデルと同等の51.8のマルチスケールmIoUが得られます。私たちのソースコードとモデルは、https://github.com/shiwt03/uperformerで公開されています。

関連論文リスト

Semi-supervised Semantic Segmentation with Multi-Constraint Consistency Learning [81.02648336552421]
本稿では,エンコーダとデコーダの段階的拡張を容易にするためのマルチ制約一貫性学習手法を提案する。自己適応型特徴マスキングとノイズ注入は、デコーダの堅牢な学習のための特徴を摂動させるために、インスタンス固有の方法で設計されている。 Pascal VOC2012およびCityscapesデータセットの実験結果から,提案したMCCLが新たな最先端性能を実現することを示す。
論文参考訳（メタデータ） (2025-03-23T03:21:33Z)
CFPFormer: Feature-pyramid like Transformer Decoder for Segmentation and Detection [1.837431956557716]
特徴ピラミッドは、医療画像のセグメンテーションやオブジェクト検出といったタスクのために、畳み込みニューラルネットワーク(CNN)やトランスフォーマーで広く採用されている。本稿では,特徴ピラミッドと変圧器を統合したデコーダブロックを提案する。本モデルでは,既存手法と比較して,小型物体の検出性能が向上する。
論文参考訳（メタデータ） (2024-04-23T18:46:07Z)
Progressive Token Length Scaling in Transformer Encoders for Efficient Universal Segmentation [67.85309547416155]
ユニバーサルセグメンテーションのための強力なアーキテクチャは、マルチスケールの画像特徴を符号化し、オブジェクトクエリをマスク予測にデコードするトランスフォーマーに依存している。 Mask2Formerはその計算の50%をトランスフォーマーエンコーダでのみ使用する。これは、エンコーダ層ごとにすべてのバックボーン機能スケールのトークンレベルの完全な表現が保持されているためである。本稿では,パフォーマンスの犠牲を最小限に抑えながら,計算量を大幅に削減するPro-SCALEを提案する。
論文参考訳（メタデータ） (2024-04-23T01:34:20Z)
Efficient Encoder-Decoder Transformer Decoding for Decomposable Tasks [53.550782959908524]
エンコーダ・デコーダモデルのための新しい構成を導入し、構造化された出力と分解可能なタスクの効率を改善する。提案手法は,インプットを一度エンコードして並列にデコードすることで,トレーニングと推論の効率を向上する。
論文参考訳（メタデータ） (2024-03-19T19:27:23Z)
MOSformer: Momentum encoder-based inter-slice fusion transformer for medical image segmentation [12.14244839074157]
この問題を解決するために,新しいモーメントエンコーダを用いたスライス間核融合トランス (MOSformer) を提案する。 MOSformerは3つのベンチマークデータセット(Synapse、ACDC、AMOS)で評価され、それぞれ85.63%、92.19%、85.43%の新たな最先端のDSCを達成する。
論文参考訳（メタデータ） (2024-01-22T11:25:59Z)
U-MixFormer: UNet-like Transformer with Mix-Attention for Efficient Semantic Segmentation [0.0]
CNNベースのU-Netは、高解像度の医療画像とリモートセンシングにおいて大きな進歩を遂げている。この2つの成功は、両方の長所をマージするきっかけとなり、U-Netベースの視覚変換器デコーダが誕生しました。本稿では,U-Net構造上に構築され,効率的なセマンティックセグメンテーションのために設計された新しいトランスフォーマデコーダU-MixFormerを提案する。
論文参考訳（メタデータ） (2023-12-11T10:19:42Z)
DEED: Dynamic Early Exit on Decoder for Accelerating Encoder-Decoder Transformer Models [22.276574156358084]
我々は,各デコーダ層が妥当な予測を生成できるように,深層監視で訓練されたマルチエキシット・エンコーダ・デコーダ・トランスフォーマモデルを構築した。提案手法は,ベースラインに比べて精度が向上し,全体の推論遅延を30%から60%削減できることを示す。
論文参考訳（メタデータ） (2023-11-15T01:01:02Z)
MIST: Medical Image Segmentation Transformer with Convolutional Attention Mixing (CAM) Decoder [0.0]
本稿では,CAMデコーダを組み込んだ医用画像変換器(MIST)を提案する。 MISTには2つの部分がある: 事前訓練された多軸視覚変換器(MaxViT)をエンコーダとして使用し、符号化された特徴表現をCAMデコーダに渡して画像のセグメンテーションを行う。空間情報ゲインを高めるため、特徴抽出及び受容野拡大に深部及び浅部畳み込みを用いる。
論文参考訳（メタデータ） (2023-10-30T18:07:57Z)
Medical Image Segmentation via Sparse Coding Decoder [3.9633192172709975]
トランスフォーマーは、長距離依存関係をキャプチャする能力のため、医療画像のセグメンテーションにおいて大きな成功を収めた。これまでの研究では、変換器のエンコーダモジュールに畳み込み層が組み込まれていたため、ピクセル間の局所的な関係を学習する能力が向上した。しかし、変換器はデコーダの空間的回復能力に乏しいため、限定的な一般化能力とロバスト性に悩まされる可能性がある。
論文参考訳（メタデータ） (2023-10-17T03:08:35Z)
More complex encoder is not all you need [0.882348769487259]
我々は,強力なデコーダを構築するために,新しいサブピクセル・コンボリューションを組み込んだneU-Net(複雑なエンコーダではないU-Net)を導入する。我々のモデル設計は、SynapseとACDCの両方のデータセット上で、最先端の手法を上回る優れた結果が得られる。
論文参考訳（メタデータ） (2023-09-20T08:34:38Z)
SegViTv2: Exploring Efficient and Continual Semantic Segmentation with Plain Vision Transformers [76.13755422671822]
本稿では,エンコーダ・デコーダ・フレームワークを用いた意味的セグメンテーションのためのプレーンビジョン変換器(ViT)の能力について検討する。 Intention-to-Mask(atm)モジュールを導入し、平易なViTに有効な軽量デコーダを設計する。我々のデコーダは、様々なViTバックボーンを使用して人気のあるデコーダUPerNetより優れ、計算コストの5%程度しか消費しない。
論文参考訳（メタデータ） (2023-06-09T22:29:56Z)
Inception Transformer [151.939077819196]
インセプショントランスフォーマー(iFormer)は、視覚データ中の高周波数情報と低周波情報の両方で包括的特徴を学習する。我々は、iFormerを一連の視覚タスクでベンチマークし、画像分類、COCO検出、ADE20Kセグメンテーションにおいて優れた性能を発揮することを示した。
論文参考訳（メタデータ） (2022-05-25T17:59:54Z)
Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective with Transformers [149.78470371525754]
セマンティックセグメンテーションをシーケンスからシーケンスへの予測タスクとして扱う。具体的には、イメージをパッチのシーケンスとしてエンコードするために純粋なトランスをデプロイします。トランスのすべての層でモデル化されたグローバルコンテキストにより、このエンコーダは、SETR(SEgmentation TRansformer)と呼ばれる強力なセグメンテーションモデルを提供するための単純なデコーダと組み合わせることができる。 SETRはADE20K(50.28% mIoU)、Pascal Context(55.83% mIoU)、およびCityscapesの競争力のある結果に関する最新技術を達成している。
論文参考訳（メタデータ） (2020-12-31T18:55:57Z)
Motion-Attentive Transition for Zero-Shot Video Object Segmentation [99.44383412488703]
ゼロショットオブジェクトセグメンテーションのためのモーション・アテンタティブ・トランジション・ネットワーク(MATNet)を提案する。モーション・アテンティブ・トランジション (MAT) と呼ばれる非対称のアテンションブロックは、2ストリームエンコーダ内に設計されている。このように、エンコーダは深く相互に作用し、物体の動きと外観の間の密な階層的な相互作用を可能にする。
論文参考訳（メタデータ） (2020-03-09T16:58:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。