論文の概要: CATS v2: Hybrid encoders for robust medical segmentation
- arxiv url: http://arxiv.org/abs/2308.06377v3
- Date: Wed, 31 Jan 2024 22:57:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-02 19:26:22.773281
- Title: CATS v2: Hybrid encoders for robust medical segmentation
- Title(参考訳): CATS v2: 堅牢な医療セグメント化のためのハイブリッドエンコーダ
- Authors: Hao Li, Han Liu, Dewei Hu, Xing Yao, Jiacheng Wang, Ipek Oguz
- Abstract要約: 畳み込みニューラルネットワーク(CNN)は、医用画像分割タスクにおいて強力な性能を示した。
しかし、畳み込みカーネルの視野が限られているため、CNNがグローバル情報を完全に表現することは困難である。
ローカル情報とグローバル情報の両方を活用するハイブリッドエンコーダを用いたCATS v2を提案する。
- 参考スコア(独自算出の注目度): 12.194439938007672
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Convolutional Neural Networks (CNNs) have exhibited strong performance in
medical image segmentation tasks by capturing high-level (local) information,
such as edges and textures. However, due to the limited field of view of
convolution kernel, it is hard for CNNs to fully represent global information.
Recently, transformers have shown good performance for medical image
segmentation due to their ability to better model long-range dependencies.
Nevertheless, transformers struggle to capture high-level spatial features as
effectively as CNNs. A good segmentation model should learn a better
representation from local and global features to be both precise and
semantically accurate. In our previous work, we proposed CATS, which is a
U-shaped segmentation network augmented with transformer encoder. In this work,
we further extend this model and propose CATS v2 with hybrid encoders.
Specifically, hybrid encoders consist of a CNN-based encoder path paralleled to
a transformer path with a shifted window, which better leverage both local and
global information to produce robust 3D medical image segmentation. We fuse the
information from the convolutional encoder and the transformer at the skip
connections of different resolutions to form the final segmentation. The
proposed method is evaluated on three public challenge datasets: Beyond the
Cranial Vault (BTCV), Cross-Modality Domain Adaptation (CrossMoDA) and task 5
of Medical Segmentation Decathlon (MSD-5), to segment abdominal organs,
vestibular schwannoma (VS) and prostate, respectively. Compared with the
state-of-the-art methods, our approach demonstrates superior performance in
terms of higher Dice scores. Our code is publicly available at
https://github.com/MedICL-VU/CATS.
- Abstract(参考訳): 畳み込みニューラルネットワーク(CNN)は、エッジやテクスチャといった高レベルな(ローカルな)情報をキャプチャすることで、医用画像セグメンテーションタスクにおいて強力なパフォーマンスを示した。
しかし、畳み込みカーネルの視野が限られているため、CNNがグローバル情報を完全に表現することは困難である。
近年,医療画像のセグメンテーションにおいて,長距離依存関係をモデル化する能力により,トランスフォーマーの性能が向上している。
それでもトランスフォーマーはcnnのような高レベルな空間的特徴を効果的に捉えるのに苦労している。
優れたセグメンテーションモデルは、ローカル機能とグローバル機能の両方が正確かつセマンティックに正確であるように、より良い表現を学ぶべきです。
本稿では,トランスエンコーダを付加したU字型セグメンテーションネットワークであるCATSを提案する。
本研究では,このモデルをさらに拡張し,ハイブリッドエンコーダを用いたCATS v2を提案する。
特に、ハイブリッドエンコーダは、CNNベースのエンコーダパスからなり、シフトウィンドウを持つトランスフォーマーパスに平行して、ローカル情報とグローバル情報の両方を利用して、堅牢な3次元医用画像セグメンテーションを生成する。
我々は、異なる解像度のスキップ接続で畳み込みエンコーダとトランスから情報を融合し、最終的なセグメンテーションを形成する。
提案手法は, Cranial Vault(BTCV), Cross-Modality Domain Adaptation(CrossMoDA), Task 5 of Medical Segmentation Decathlon(MSD-5), Task 5 of abdominal organs(VS)とpreibular schwannoma(VS)の3つの公開課題データセットで評価した。
提案手法は最先端の手法と比較して高いDiceスコアの点で優れた性能を示す。
私たちのコードはhttps://github.com/MedICL-VU/CATS.comで公開されています。
関連論文リスト
- ParaTransCNN: Parallelized TransCNN Encoder for Medical Image
Segmentation [7.955518153976858]
本稿では,畳み込みニューラルネットワークとトランスフォーマーアーキテクチャを組み合わせた2次元特徴抽出手法を提案する。
特に小臓器では, セグメンテーションの精度が向上した。
論文 参考訳(メタデータ) (2024-01-27T05:58:36Z) - ConvFormer: Plug-and-Play CNN-Style Transformers for Improving Medical
Image Segmentation [10.727162449071155]
我々はCNNスタイルのトランスフォーマー(ConvFormer)を構築し、より注意収束を促進し、セグメンテーション性能を向上させる。
位置埋め込みとトークン化とは対照的に、ConvFormerは2D畳み込みと最大プーリングを採用して位置情報の保存と特徴サイズの縮小を実現している。
論文 参考訳(メタデータ) (2023-09-09T02:18:17Z) - ConvTransSeg: A Multi-resolution Convolution-Transformer Network for
Medical Image Segmentation [14.485482467748113]
ハイブリッドエンコーダ/デコーダセグメンテーションモデル(ConvTransSeg)を提案する。
特徴学習用エンコーダとして多層CNNと,セグメンテーション予測用デコーダとして対応する多層トランスフォーマーから構成される。
本手法は,モデル複雑度とメモリ消費率の低いDice係数と平均対称表面距離の測定値で最高の性能を実現する。
論文 参考訳(メタデータ) (2022-10-13T14:59:23Z) - Cats: Complementary CNN and Transformer Encoders for Segmentation [13.288195115791758]
生体医用画像分割のための二重エンコーダを用いたモデルを提案する。
畳み込みエンコーダと変換器の情報を融合してデコーダに渡して結果を得る。
提案手法は,各タスクにトランスフォーマーと非変換器を併用した最先端モデルと比較して,ボード全体のDiceスコアを高くする。
論文 参考訳(メタデータ) (2022-08-24T14:25:11Z) - HiFormer: Hierarchical Multi-scale Representations Using Transformers
for Medical Image Segmentation [3.478921293603811]
HiFormerは、医用画像セグメンテーションのためのCNNとトランスフォーマーを効率的にブリッジする新しい方法である。
グローバルな特徴とローカルな特徴の微細融合を確保するため,エンコーダ・デコーダ構造のスキップ接続におけるDouble-Level Fusion (DLF)モジュールを提案する。
論文 参考訳(メタデータ) (2022-07-18T11:30:06Z) - MISSU: 3D Medical Image Segmentation via Self-distilling TransUNet [55.16833099336073]
医用画像セグメンテーションのためのトランスフォーマーベースUNetを提案する。
グローバルな意味情報と局所的な空間的詳細特徴を同時に学習する。
MISSUは従来の最先端手法よりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2022-06-02T07:38:53Z) - nnFormer: Interleaved Transformer for Volumetric Segmentation [50.10441845967601]
本稿では,自己意図と畳み込みを実証的に組み合わせた,インターリーブアーキテクチャを備えた強力なセグメンテーションモデルであるnnFormerを紹介する。
nnFormerは、SynapseとACDCの2つの一般的なデータセットで、以前のTransformerベースのメソッドよりも大幅に改善されている。
論文 参考訳(メタデータ) (2021-09-07T17:08:24Z) - Swin-Unet: Unet-like Pure Transformer for Medical Image Segmentation [63.46694853953092]
Swin-Unetは、医用画像セグメンテーション用のUnetライクなトランスフォーマーである。
トークン化されたイメージパッチは、TransformerベースのU字型デコーダデコーダアーキテクチャに供給される。
論文 参考訳(メタデータ) (2021-05-12T09:30:26Z) - CoTr: Efficiently Bridging CNN and Transformer for 3D Medical Image
Segmentation [95.51455777713092]
畳み込みニューラルネットワーク(CNN)は、現代の3D医療画像セグメンテーションのデファクトスタンダードとなっている。
本稿では,bf畳み込みニューラルネットワークとbfトランスbf(cotr)を効率良く橋渡しし,正確な3次元医用画像分割を実現する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2021-03-04T13:34:22Z) - TransUNet: Transformers Make Strong Encoders for Medical Image
Segmentation [78.01570371790669]
医用画像のセグメンテーションは医療システムの開発に必須の前提条件である。
様々な医療画像セグメンテーションタスクにおいて、U-Netとして知られるu字型アーキテクチャがデファクトスタンダードとなっている。
医用画像セグメンテーションの強力な代替手段として,トランスフォーマーとU-Netの両方を有効活用するTransUNetを提案する。
論文 参考訳(メタデータ) (2021-02-08T16:10:50Z) - Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective
with Transformers [149.78470371525754]
セマンティックセグメンテーションをシーケンスからシーケンスへの予測タスクとして扱う。
具体的には、イメージをパッチのシーケンスとしてエンコードするために純粋なトランスをデプロイします。
トランスのすべての層でモデル化されたグローバルコンテキストにより、このエンコーダは、SETR(SEgmentation TRansformer)と呼ばれる強力なセグメンテーションモデルを提供するための単純なデコーダと組み合わせることができる。
SETRはADE20K(50.28% mIoU)、Pascal Context(55.83% mIoU)、およびCityscapesの競争力のある結果に関する最新技術を達成している。
論文 参考訳(メタデータ) (2020-12-31T18:55:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。