論文の概要: Optimizing Medical Image Segmentation with Advanced Decoder Design
- arxiv url: http://arxiv.org/abs/2410.04128v1
- Date: Sat, 5 Oct 2024 11:47:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 14:01:04.082999
- Title: Optimizing Medical Image Segmentation with Advanced Decoder Design
- Title(参考訳): 先進デコーダ設計による医用画像分割の最適化
- Authors: Weibin Yang, Zhiqi Dong, Mingyuan Xu, Longwei Xu, Dehua Geng, Yusong Li, Pengwei Wang,
- Abstract要約: U-Netは、シンプルで柔軟なアーキテクチャ設計のため、医用画像のセグメンテーションで広く使われている。
提案するSwin DER(Swin UNETR Decoder Enhanced and Refined)は,これらの3つのコンポーネントの設計を最適化する。
我々のモデル設計は、SynapseとMSDの脳腫瘍セグメント化タスクの両方において、最先端の手法を超越して優れた結果が得られる。
- 参考スコア(独自算出の注目度): 0.8402155549849591
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: U-Net is widely used in medical image segmentation due to its simple and flexible architecture design. To address the challenges of scale and complexity in medical tasks, several variants of U-Net have been proposed. In particular, methods based on Vision Transformer (ViT), represented by Swin UNETR, have gained widespread attention in recent years. However, these improvements often focus on the encoder, overlooking the crucial role of the decoder in optimizing segmentation details. This design imbalance limits the potential for further enhancing segmentation performance. To address this issue, we analyze the roles of various decoder components, including upsampling method, skip connection, and feature extraction module, as well as the shortcomings of existing methods. Consequently, we propose Swin DER (i.e., Swin UNETR Decoder Enhanced and Refined) by specifically optimizing the design of these three components. Swin DER performs upsampling using learnable interpolation algorithm called offset coordinate neighborhood weighted up sampling (Onsampling) and replaces traditional skip connection with spatial-channel parallel attention gate (SCP AG). Additionally, Swin DER introduces deformable convolution along with attention mechanism in the feature extraction module of the decoder. Our model design achieves excellent results, surpassing other state-of-the-art methods on both the Synapse and the MSD brain tumor segmentation task. Code is available at: https://github.com/WillBeanYang/Swin-DER
- Abstract(参考訳): U-Netは、シンプルで柔軟なアーキテクチャ設計のため、医用画像のセグメンテーションで広く使われている。
医療タスクにおけるスケールと複雑性の課題に対処するために、いくつかの変種U-Netが提案されている。
特に、近年、Swin UNETRで代表されるビジョントランスフォーマー(ViT)に基づく手法が注目されている。
しかしながら、これらの改善はしばしばエンコーダに焦点を当て、セグメンテーションの詳細を最適化するデコーダの重要な役割を見下ろしている。
この設計の不均衡は、セグメンテーション性能をさらに強化する可能性を制限する。
この問題に対処するために、アップサンプリング方法、スキップ接続、特徴抽出モジュール、既存手法の欠点など、様々なデコーダコンポーネントの役割を分析する。
その結果,Swin DER (Swin UNETR Decoder Enhanced and Refined) を提案する。
Swin DERは、オフセット座標近傍重み付けサンプリング(Onsampling)と呼ばれる学習可能な補間アルゴリズムを用いてアップサンプリングを行い、従来のスキップ接続を空間チャネル並列注意ゲート(SCP AG)に置き換える。
さらに、Swin DERはデコーダの機能抽出モジュールに注意機構とともに変形可能な畳み込みを導入している。
我々のモデル設計は、SynapseとMSDの脳腫瘍セグメント化タスクの両方において、最先端の手法を超越して優れた結果が得られる。
コードは、https://github.com/WillBeanYang/Swin-DERで入手できる。
関連論文リスト
- AFFSegNet: Adaptive Feature Fusion Segmentation Network for Microtumors and Multi-Organ Segmentation [31.97835089989928]
医用画像のセグメンテーションは、コンピュータビジョンにおいて重要な課題であり、診断、治療計画、疾患モニタリングにおける臨床医を支援する。
本稿では,局所的特徴とグローバルな特徴を効果的に統合し,正確な医用画像分割を実現するトランスフォーマアーキテクチャである適応意味ネットワーク(ASSNet)を提案する。
多臓器、肝腫瘍、膀胱腫瘍の分節を含む様々な医療画像の分節タスクに関するテストは、ATSNetが最先端の結果を達成することを実証している。
論文 参考訳(メタデータ) (2024-09-12T06:25:44Z) - ParaTransCNN: Parallelized TransCNN Encoder for Medical Image
Segmentation [7.955518153976858]
本稿では,畳み込みニューラルネットワークとトランスフォーマーアーキテクチャを組み合わせた2次元特徴抽出手法を提案する。
特に小臓器では, セグメンテーションの精度が向上した。
論文 参考訳(メタデータ) (2024-01-27T05:58:36Z) - Medical Image Segmentation via Sparse Coding Decoder [3.9633192172709975]
トランスフォーマーは、長距離依存関係をキャプチャする能力のため、医療画像のセグメンテーションにおいて大きな成功を収めた。
これまでの研究では、変換器のエンコーダモジュールに畳み込み層が組み込まれていたため、ピクセル間の局所的な関係を学習する能力が向上した。
しかし、変換器はデコーダの空間的回復能力に乏しいため、限定的な一般化能力とロバスト性に悩まされる可能性がある。
論文 参考訳(メタデータ) (2023-10-17T03:08:35Z) - Locality-Aware Generalizable Implicit Neural Representation [54.93702310461174]
一般化可能な暗黙的ニューラル表現(INR)は、単一の連続関数が複数のデータインスタンスを表現することを可能にする。
本稿では、変換器エンコーダと局所性を考慮したINRデコーダを組み合わせた一般化可能なINRのための新しいフレームワークを提案する。
我々のフレームワークは、従来の一般化可能なINRよりも大幅に優れており、下流タスクにおける局所性を考慮した潜在能力の有効性を検証している。
論文 参考訳(メタデータ) (2023-10-09T11:26:58Z) - MISSU: 3D Medical Image Segmentation via Self-distilling TransUNet [55.16833099336073]
医用画像セグメンテーションのためのトランスフォーマーベースUNetを提案する。
グローバルな意味情報と局所的な空間的詳細特徴を同時に学習する。
MISSUは従来の最先端手法よりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2022-06-02T07:38:53Z) - Dynamic Neural Representational Decoders for High-Resolution Semantic
Segmentation [98.05643473345474]
動的ニューラル表現デコーダ(NRD)と呼ばれる新しいデコーダを提案する。
エンコーダの出力上の各位置がセマンティックラベルの局所的なパッチに対応するので、この研究では、これらの局所的なパッチをコンパクトなニューラルネットワークで表現する。
このニューラル表現により、意味ラベル空間に先行する滑らかさを活用することができ、デコーダをより効率的にすることができる。
論文 参考訳(メタデータ) (2021-07-30T04:50:56Z) - Swin-Unet: Unet-like Pure Transformer for Medical Image Segmentation [63.46694853953092]
Swin-Unetは、医用画像セグメンテーション用のUnetライクなトランスフォーマーである。
トークン化されたイメージパッチは、TransformerベースのU字型デコーダデコーダアーキテクチャに供給される。
論文 参考訳(メタデータ) (2021-05-12T09:30:26Z) - Atrous Residual Interconnected Encoder to Attention Decoder Framework
for Vertebrae Segmentation via 3D Volumetric CT Images [1.8146155083014204]
本稿では,3次元容積CT画像を用いた新しい椎骨分割法を提案する。
提案モデルは,ミニバッチトレーニング性能の最適化にレイヤ正規化を用いた,エンコーダからデコーダへの構造に基づく。
実験の結果,本モデルは他の医学的意味セグメンテーション法と比較して競争力が得られた。
論文 参考訳(メタデータ) (2021-04-08T12:09:16Z) - UNETR: Transformers for 3D Medical Image Segmentation [8.59571749685388]
UNEt TRansformers(UNETR)と呼ばれる新しいアーキテクチャを導入し、純粋なトランスフォーマーをエンコーダとして入力ボリュームのシーケンス表現を学習します。
提案モデルの性能を様々なイメージング手法で広く検証しています。
論文 参考訳(メタデータ) (2021-03-18T20:17:15Z) - TransUNet: Transformers Make Strong Encoders for Medical Image
Segmentation [78.01570371790669]
医用画像のセグメンテーションは医療システムの開発に必須の前提条件である。
様々な医療画像セグメンテーションタスクにおいて、U-Netとして知られるu字型アーキテクチャがデファクトスタンダードとなっている。
医用画像セグメンテーションの強力な代替手段として,トランスフォーマーとU-Netの両方を有効活用するTransUNetを提案する。
論文 参考訳(メタデータ) (2021-02-08T16:10:50Z) - Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective
with Transformers [149.78470371525754]
セマンティックセグメンテーションをシーケンスからシーケンスへの予測タスクとして扱う。
具体的には、イメージをパッチのシーケンスとしてエンコードするために純粋なトランスをデプロイします。
トランスのすべての層でモデル化されたグローバルコンテキストにより、このエンコーダは、SETR(SEgmentation TRansformer)と呼ばれる強力なセグメンテーションモデルを提供するための単純なデコーダと組み合わせることができる。
SETRはADE20K(50.28% mIoU)、Pascal Context(55.83% mIoU)、およびCityscapesの競争力のある結果に関する最新技術を達成している。
論文 参考訳(メタデータ) (2020-12-31T18:55:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。