論文の概要: U-MixFormer: UNet-like Transformer with Mix-Attention for Efficient
Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2312.06272v1
- Date: Mon, 11 Dec 2023 10:19:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 16:05:07.186896
- Title: U-MixFormer: UNet-like Transformer with Mix-Attention for Efficient
Semantic Segmentation
- Title(参考訳): U-MixFormer:効率的なセマンティックセグメンテーションのための混合注意付きUNetライクな変換器
- Authors: Seul-Ki Yeom and Julian von Klitzing
- Abstract要約: CNNベースのU-Netは、高解像度の医療画像とリモートセンシングにおいて大きな進歩を遂げている。
この2つの成功は、両方の長所をマージするきっかけとなり、U-Netベースの視覚変換器デコーダが誕生しました。
本稿では,U-Net構造上に構築され,効率的なセマンティックセグメンテーションのために設計された新しいトランスフォーマデコーダU-MixFormerを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Semantic segmentation has witnessed remarkable advancements with the
adaptation of the Transformer architecture. Parallel to the strides made by the
Transformer, CNN-based U-Net has seen significant progress, especially in
high-resolution medical imaging and remote sensing. This dual success inspired
us to merge the strengths of both, leading to the inception of a U-Net-based
vision transformer decoder tailored for efficient contextual encoding. Here, we
propose a novel transformer decoder, U-MixFormer, built upon the U-Net
structure, designed for efficient semantic segmentation. Our approach
distinguishes itself from the previous transformer methods by leveraging
lateral connections between the encoder and decoder stages as feature queries
for the attention modules, apart from the traditional reliance on skip
connections. Moreover, we innovatively mix hierarchical feature maps from
various encoder and decoder stages to form a unified representation for keys
and values, giving rise to our unique mix-attention module. Our approach
demonstrates state-of-the-art performance across various configurations.
Extensive experiments show that U-MixFormer outperforms SegFormer, FeedFormer,
and SegNeXt by a large margin. For example, U-MixFormer-B0 surpasses
SegFormer-B0 and FeedFormer-B0 with 3.8% and 2.0% higher mIoU and 27.3% and
21.8% less computation and outperforms SegNext with 3.3% higher mIoU with
MSCAN-T encoder on ADE20K. Code available at
https://github.com/julian-klitzing/u-mixformer.
- Abstract(参考訳): セマンティックセグメンテーションはトランスフォーマーアーキテクチャの適応によって顕著な進歩をみせた。
Transformerと並行して、CNNベースのU-Netは特に高解像度の医療画像とリモートセンシングにおいて大きな進歩を遂げている。
この2つの成功は、両方の長所をマージするきっかけとなり、効率的なコンテキストエンコーディングに適したU-Netベースの視覚変換器デコーダが誕生した。
本稿では,効率的なセマンティックセグメンテーションのために設計されたU-Net構造上に構築された新しいトランスフォーマデコーダU-MixFormerを提案する。
提案手法は,従来のスキップ接続への依存とは別に,エンコーダとデコーダステージ間の横接続をアテンションモジュールの機能クエリとして活用することで,従来のトランスフォーマー手法と区別する。
さらに,様々なエンコーダステージとデコーダステージの階層的特徴マップを革新的に混合し,キーと値の統一表現を形成し,独自のmix-attentionモジュールを生み出した。
提案手法は,各種構成における最先端性能を示す。
大規模な実験によると、U-MixFormerはSegFormer、FeedFormer、SegNeXtを大きく上回っている。
例えば、U-MixFormer-B0はSegFormer-B0を3.8%、FeedFormer-B0を2.0%、mIoUが27.3%、21.8%、SegNextが3.3%、MSCAN-TエンコーダがADE20Kを上回っている。
コードはhttps://github.com/julian-klitzing/u-mixformerで入手できる。
関連論文リスト
- TransXNet: Learning Both Global and Local Dynamics with a Dual Dynamic
Token Mixer for Visual Recognition [71.6546914957701]
本稿では,グローバルな情報と局所的な詳細を入力依存の方法で集約する軽量なDual Dynamic Token Mixer (D-Mixer)を提案する。
我々は、新しいハイブリッドCNN-TransformerビジョンバックボーンネットワークであるTransXNetを設計するために、基本的なビルディングブロックとしてD-Mixerを使用している。
ImageNet-1Kの画像分類タスクでは、TransXNet-TはSwing-Tを0.3%上回り、計算コストの半分以下である。
論文 参考訳(メタデータ) (2023-10-30T09:35:56Z) - SegViTv2: Exploring Efficient and Continual Semantic Segmentation with
Plain Vision Transformers [76.13755422671822]
本稿では,エンコーダ・デコーダ・フレームワークを用いた意味的セグメンテーションのためのプレーンビジョン変換器(ViT)の能力について検討する。
Intention-to-Mask(atm)モジュールを導入し、平易なViTに有効な軽量デコーダを設計する。
我々のデコーダは、様々なViTバックボーンを使用して人気のあるデコーダUPerNetより優れ、計算コストの5%程度しか消費しない。
論文 参考訳(メタデータ) (2023-06-09T22:29:56Z) - Enhancing Medical Image Segmentation with TransCeption: A Multi-Scale
Feature Fusion Approach [3.9548535445908928]
CNNベースの手法は、その有望な性能と堅牢性のために、医用画像セグメンテーションの基盤となっている。
グローバルな文脈相関をモデル化するために受信フィールドを拡大するため,トランスフォーマーベースのアプローチが普及している。
本稿では,トランスセグメンテーション(TransCeption for Medical Image segmentation)を提案する。
論文 参考訳(メタデータ) (2023-01-25T22:09:07Z) - MUSTER: A Multi-scale Transformer-based Decoder for Semantic Segmentation [19.83103856355554]
MUSTERはトランスフォーマーベースのデコーダで、階層エンコーダとシームレスに統合される。
MSKAユニットはエンコーダとデコーダからのマルチスケール機能の融合を可能にし、包括的な情報統合を容易にする。
ADE20Kデータセットでは,50.23の単一スケールmIoUと51.88のマルチスケールmIoUを達成する。
論文 参考訳(メタデータ) (2022-11-25T06:51:07Z) - Fcaformer: Forward Cross Attention in Hybrid Vision Transformer [29.09883780571206]
ハイブリッド・ビジョン・トランス(FcaFormer)のための前方クロスアテンションを提案する。
私たちのFcaFormerは1630万のパラメータと約36億のMACでImagenetの83.1%のトップ-1の精度を実現しています。
これにより、ほぼ半分のパラメータといくつかの計算コストを節約し、蒸留されたEfficientFormerよりも0.7%高い精度を達成できる。
論文 参考訳(メタデータ) (2022-11-14T08:43:44Z) - Adaptive Split-Fusion Transformer [90.04885335911729]
本稿では,適応重みによる畳み込みと注目の分岐を異なる方法で扱うための適応分割変換器(ASF-former)を提案する。
ImageNet-1Kのような標準ベンチマークの実験では、我々のASFフォーマーはCNN、トランスフォーマー、ハイブリッドパイロットを精度で上回っている。
論文 参考訳(メタデータ) (2022-04-26T10:00:28Z) - SegFormer: Simple and Efficient Design for Semantic Segmentation with
Transformers [79.646577541655]
我々は,トランスフォーマーを軽量多層認識(MLP)デコーダと統合するセマンティックセグメンテーションフレームワークであるSegFormerを提案する。
SegFormerは、マルチスケール機能を出力する、新しく構造化されたエンコーダで構成されている。
提案するデコーダは,異なるレイヤからの情報を集約し,局所的な注意とグローバルな注意の両方を強力な表現に結合する。
論文 参考訳(メタデータ) (2021-05-31T17:59:51Z) - Swin-Unet: Unet-like Pure Transformer for Medical Image Segmentation [63.46694853953092]
Swin-Unetは、医用画像セグメンテーション用のUnetライクなトランスフォーマーである。
トークン化されたイメージパッチは、TransformerベースのU字型デコーダデコーダアーキテクチャに供給される。
論文 参考訳(メタデータ) (2021-05-12T09:30:26Z) - Multi-Encoder Learning and Stream Fusion for Transformer-Based
End-to-End Automatic Speech Recognition [30.941564693248512]
トランスと呼ばれるオールアテンテンション型エンコーダデコーダアーキテクチャの様々な融合技術について検討する。
トレーニング中にのみ2つのエンコーダデコーダマルチヘッドアテンション出力の重み付き組み合わせを実行する新しいマルチエンコーダ学習方法を紹介します。
ウォールストリートジャーナルのトランスベースモデルの最先端のパフォーマンスを実現し、現在のベンチマークアプローチと比較して19%のWER削減を実現しました。
論文 参考訳(メタデータ) (2021-03-31T21:07:43Z) - Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective
with Transformers [149.78470371525754]
セマンティックセグメンテーションをシーケンスからシーケンスへの予測タスクとして扱う。
具体的には、イメージをパッチのシーケンスとしてエンコードするために純粋なトランスをデプロイします。
トランスのすべての層でモデル化されたグローバルコンテキストにより、このエンコーダは、SETR(SEgmentation TRansformer)と呼ばれる強力なセグメンテーションモデルを提供するための単純なデコーダと組み合わせることができる。
SETRはADE20K(50.28% mIoU)、Pascal Context(55.83% mIoU)、およびCityscapesの競争力のある結果に関する最新技術を達成している。
論文 参考訳(メタデータ) (2020-12-31T18:55:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。