論文の概要: MaxViT-UNet: Multi-Axis Attention for Medical Image Segmentation
- arxiv url: http://arxiv.org/abs/2305.08396v4
- Date: Thu, 31 Aug 2023 09:43:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-01 20:09:09.398255
- Title: MaxViT-UNet: Multi-Axis Attention for Medical Image Segmentation
- Title(参考訳): MaxViT-UNet:医療画像セグメンテーションのためのマルチ軸注意
- Authors: Abdul Rehman Khan, Asifullah Khan
- Abstract要約: MaxViT-UNetは医療画像セグメンテーションのためのハイブリッドビジョントランス (CNN-Transformer) である。
提案したデコーダブロックは数回繰り返して核領域を段階的に分割する。
我々のMaxViT-UNetは、従来のCNNベース(UNet)とTransformerベース(Swin-UNet)の技術を、両方の標準データセットに対してかなりの差で上回りました。
- 参考スコア(独自算出の注目度): 0.5439020425819
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we present MaxViT-UNet, an Encoder-Decoder based hybrid vision
transformer (CNN-Transformer) for medical image segmentation. The proposed
Hybrid Decoder, based on MaxViT-block, is designed to harness the power of both
the convolution and self-attention mechanisms at each decoding stage with a
nominal memory and computational burden. The inclusion of multi-axis
self-attention, within each decoder stage, significantly enhances the
discriminating capacity between the object and background regions, thereby
helping in improving the segmentation efficiency. In the Hybrid Decoder block,
the fusion process commences by integrating the upsampled lower-level decoder
features, obtained through transpose convolution, with the skip-connection
features derived from the hybrid encoder. Subsequently, the fused features
undergo refinement through the utilization of a multi-axis attention mechanism.
The proposed decoder block is repeated multiple times to progressively segment
the nuclei regions. Experimental results on MoNuSeg18 and MoNuSAC20 dataset
demonstrates the effectiveness of the proposed technique. Our MaxViT-UNet
outperformed the previous CNN-based (UNet) and Transformer-based (Swin-UNet)
techniques by a considerable margin on both of the standard datasets. The
following github (https://github.com/PRLAB21/MaxViT-UNet) contains the
implementation and trained weights.
- Abstract(参考訳): 本稿では,医療用画像分割用エンコーダデコーダ型ハイブリッドビジョントランスフォーマ(cnn-transformer)maxvit-unetを提案する。
maxvit-blockに基づくハイブリッドデコーダは,各デコーダ段の畳み込み機構と自己アテンション機構の両方のパワーを,名目記憶と計算負荷で活用するように設計されている。
復号器の各段階における多軸自己アテンションの導入は、対象領域と背景領域の識別能力を大幅に向上させ、セグメンテーション効率の向上に寄与する。
ハイブリッドデコーダブロックでは、変換畳み込みにより得られるアップサンプリングされた低レベルデコーダ特徴とハイブリッドエンコーダから導出されるスキップ接続特徴とを統合して融合プロセスを開始する。
その後、多軸アテンション機構の利用により、融合した特徴が洗練される。
提案したデコーダブロックは数回繰り返して核領域を段階的に分割する。
MoNuSeg18とMoNuSAC20データセットの実験結果から,提案手法の有効性が示された。
我々のMaxViT-UNetは、従来のCNNベース(UNet)とTransformerベース(Swin-UNet)の技術を、両方の標準データセットに対してかなりの差で上回りました。
以下のgithub (https://github.com/PRLAB21/MaxViT-UNet) には実装と訓練された重みが含まれている。
関連論文リスト
- ParaTransCNN: Parallelized TransCNN Encoder for Medical Image
Segmentation [7.955518153976858]
本稿では,畳み込みニューラルネットワークとトランスフォーマーアーキテクチャを組み合わせた2次元特徴抽出手法を提案する。
特に小臓器では, セグメンテーションの精度が向上した。
論文 参考訳(メタデータ) (2024-01-27T05:58:36Z) - MIST: Medical Image Segmentation Transformer with Convolutional
Attention Mixing (CAM) Decoder [0.0]
本稿では,CAMデコーダを組み込んだ医用画像変換器(MIST)を提案する。
MISTには2つの部分がある: 事前訓練された多軸視覚変換器(MaxViT)をエンコーダとして使用し、符号化された特徴表現をCAMデコーダに渡して画像のセグメンテーションを行う。
空間情報ゲインを高めるため、特徴抽出及び受容野拡大に深部及び浅部畳み込みを用いる。
論文 参考訳(メタデータ) (2023-10-30T18:07:57Z) - Enhancing Medical Image Segmentation with TransCeption: A Multi-Scale
Feature Fusion Approach [3.9548535445908928]
CNNベースの手法は、その有望な性能と堅牢性のために、医用画像セグメンテーションの基盤となっている。
グローバルな文脈相関をモデル化するために受信フィールドを拡大するため,トランスフォーマーベースのアプローチが普及している。
本稿では,トランスセグメンテーション(TransCeption for Medical Image segmentation)を提案する。
論文 参考訳(メタデータ) (2023-01-25T22:09:07Z) - CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for
Multi-Modality Image Fusion [138.40422469153145]
本稿では,CDDFuse(Relationed-Driven Feature Decomposition Fusion)ネットワークを提案する。
近赤外可視画像融合や医用画像融合など,複数の融合タスクにおいてCDDFuseが有望な結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-11-26T02:40:28Z) - UperFormer: A Multi-scale Transformer-based Decoder for Semantic
Segmentation [12.712880544703332]
そこで我々はUperFormerと呼ばれるトランスフォーマーベースのデコーダを提案する。
UperFormerは階層エンコーダ用のプラグイン・アンド・プレイであり、エンコーダアーキテクチャに関係なく高品質なセグメンテーション結果が得られる。
我々の最良のモデルは、50.18のシングルスケールmIoUと、現在の最先端モデルと同等の51.8のマルチスケールmIoUが得られる。
論文 参考訳(メタデータ) (2022-11-25T06:51:07Z) - String-based Molecule Generation via Multi-decoder VAE [56.465033997245776]
可変オートエンコーダ(VAE)による文字列型分子生成の問題点について検討する。
本稿では,そのタスクに対するVAEの性能を改善するための,シンプルで効果的なアイデアを提案する。
実験では,提案するVAEモデルを用いて,領域外分布からサンプルを生成する。
論文 参考訳(メタデータ) (2022-08-23T03:56:30Z) - MISSU: 3D Medical Image Segmentation via Self-distilling TransUNet [55.16833099336073]
医用画像セグメンテーションのためのトランスフォーマーベースUNetを提案する。
グローバルな意味情報と局所的な空間的詳細特徴を同時に学習する。
MISSUは従来の最先端手法よりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2022-06-02T07:38:53Z) - Swin-Unet: Unet-like Pure Transformer for Medical Image Segmentation [63.46694853953092]
Swin-Unetは、医用画像セグメンテーション用のUnetライクなトランスフォーマーである。
トークン化されたイメージパッチは、TransformerベースのU字型デコーダデコーダアーキテクチャに供給される。
論文 参考訳(メタデータ) (2021-05-12T09:30:26Z) - Deep ensembles based on Stochastic Activation Selection for Polyp
Segmentation [82.61182037130406]
本研究は,大腸内視鏡検査における画像分割,特に正確なポリープ検出とセグメンテーションを扱う。
イメージセグメンテーションの基本アーキテクチャはエンコーダとデコーダで構成されている。
我々はデコーダのバックボーンを変更することで得られるDeepLabアーキテクチャのバリエーションを比較した。
論文 参考訳(メタデータ) (2021-04-02T02:07:37Z) - Multi-Encoder Learning and Stream Fusion for Transformer-Based
End-to-End Automatic Speech Recognition [30.941564693248512]
トランスと呼ばれるオールアテンテンション型エンコーダデコーダアーキテクチャの様々な融合技術について検討する。
トレーニング中にのみ2つのエンコーダデコーダマルチヘッドアテンション出力の重み付き組み合わせを実行する新しいマルチエンコーダ学習方法を紹介します。
ウォールストリートジャーナルのトランスベースモデルの最先端のパフォーマンスを実現し、現在のベンチマークアプローチと比較して19%のWER削減を実現しました。
論文 参考訳(メタデータ) (2021-03-31T21:07:43Z) - Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective
with Transformers [149.78470371525754]
セマンティックセグメンテーションをシーケンスからシーケンスへの予測タスクとして扱う。
具体的には、イメージをパッチのシーケンスとしてエンコードするために純粋なトランスをデプロイします。
トランスのすべての層でモデル化されたグローバルコンテキストにより、このエンコーダは、SETR(SEgmentation TRansformer)と呼ばれる強力なセグメンテーションモデルを提供するための単純なデコーダと組み合わせることができる。
SETRはADE20K(50.28% mIoU)、Pascal Context(55.83% mIoU)、およびCityscapesの競争力のある結果に関する最新技術を達成している。
論文 参考訳(メタデータ) (2020-12-31T18:55:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。