論文の概要: Cats: Complementary CNN and Transformer Encoders for Segmentation
- arxiv url: http://arxiv.org/abs/2208.11572v1
- Date: Wed, 24 Aug 2022 14:25:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-25 13:16:47.878664
- Title: Cats: Complementary CNN and Transformer Encoders for Segmentation
- Title(参考訳): 猫:セグメンテーションのための相補的cnnおよびトランスエンコーダ
- Authors: Hao Li, Dewei Hu, Han Liu, Jiacheng Wang, Ipek Oguz
- Abstract要約: 生体医用画像分割のための二重エンコーダを用いたモデルを提案する。
畳み込みエンコーダと変換器の情報を融合してデコーダに渡して結果を得る。
提案手法は,各タスクにトランスフォーマーと非変換器を併用した最先端モデルと比較して,ボード全体のDiceスコアを高くする。
- 参考スコア(独自算出の注目度): 13.288195115791758
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, deep learning methods have achieved state-of-the-art performance in
many medical image segmentation tasks. Many of these are based on convolutional
neural networks (CNNs). For such methods, the encoder is the key part for
global and local information extraction from input images; the extracted
features are then passed to the decoder for predicting the segmentations. In
contrast, several recent works show a superior performance with the use of
transformers, which can better model long-range spatial dependencies and
capture low-level details. However, transformer as sole encoder underperforms
for some tasks where it cannot efficiently replace the convolution based
encoder. In this paper, we propose a model with double encoders for 3D
biomedical image segmentation. Our model is a U-shaped CNN augmented with an
independent transformer encoder. We fuse the information from the convolutional
encoder and the transformer, and pass it to the decoder to obtain the results.
We evaluate our methods on three public datasets from three different
challenges: BTCV, MoDA and Decathlon. Compared to the state-of-the-art models
with and without transformers on each task, our proposed method obtains higher
Dice scores across the board.
- Abstract(参考訳): 近年,多くの医用画像セグメンテーションタスクにおいて,深層学習が最先端のパフォーマンスを実現している。
これらの多くは畳み込みニューラルネットワーク(CNN)に基づいている。
このような方法では、エンコーダは入力画像からグローバルおよびローカル情報を抽出する鍵となる部分であり、抽出された特徴をデコーダに渡してセグメンテーションを予測する。
対照的に、最近のいくつかの作品は、長距離空間依存をモデル化し、低レベルの詳細をキャプチャできるトランスフォーマーの使用により優れた性能を示している。
しかし、コンボリューションベースのエンコーダを効率的に置き換えることができないタスクでは、唯一のエンコーダとしてのトランスフォーマーは性能が低い。
本稿では,生体医用画像分割のための二重エンコーダを用いたモデルを提案する。
我々のモデルは独立トランスエンコーダを備えたU字型CNNである。
畳み込みエンコーダと変換器の情報を融合してデコーダに渡して結果を得る。
BTCV, MoDA, Decathlonの3つの課題から, 提案手法の評価を行った。
各タスクにおける変圧器の有無と最先端のモデルと比較して,提案手法はボード全体で高いディススコアを得る。
関連論文リスト
- Efficient Transformer Encoders for Mask2Former-style models [57.54752243522298]
ECO-M2Fは、入力画像上に条件付きエンコーダ内の隠蔽層数を自己選択する戦略である。
提案手法は、性能を維持しながら、予測エンコーダの計算コストを削減する。
アーキテクチャ構成では柔軟性があり、セグメンテーションタスクを超えてオブジェクト検出まで拡張できる。
論文 参考訳(メタデータ) (2024-04-23T17:26:34Z) - ParaTransCNN: Parallelized TransCNN Encoder for Medical Image
Segmentation [7.955518153976858]
本稿では,畳み込みニューラルネットワークとトランスフォーマーアーキテクチャを組み合わせた2次元特徴抽出手法を提案する。
特に小臓器では, セグメンテーションの精度が向上した。
論文 参考訳(メタデータ) (2024-01-27T05:58:36Z) - CATS v2: Hybrid encoders for robust medical segmentation [12.194439938007672]
畳み込みニューラルネットワーク(CNN)は、医用画像分割タスクにおいて強力な性能を示した。
しかし、畳み込みカーネルの視野が限られているため、CNNがグローバル情報を完全に表現することは困難である。
ローカル情報とグローバル情報の両方を活用するハイブリッドエンコーダを用いたCATS v2を提案する。
論文 参考訳(メタデータ) (2023-08-11T20:21:54Z) - ConvTransSeg: A Multi-resolution Convolution-Transformer Network for
Medical Image Segmentation [14.485482467748113]
ハイブリッドエンコーダ/デコーダセグメンテーションモデル(ConvTransSeg)を提案する。
特徴学習用エンコーダとして多層CNNと,セグメンテーション予測用デコーダとして対応する多層トランスフォーマーから構成される。
本手法は,モデル複雑度とメモリ消費率の低いDice係数と平均対称表面距離の測定値で最高の性能を実現する。
論文 参考訳(メタデータ) (2022-10-13T14:59:23Z) - MISSU: 3D Medical Image Segmentation via Self-distilling TransUNet [55.16833099336073]
医用画像セグメンテーションのためのトランスフォーマーベースUNetを提案する。
グローバルな意味情報と局所的な空間的詳細特徴を同時に学習する。
MISSUは従来の最先端手法よりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2022-06-02T07:38:53Z) - ViTBIS: Vision Transformer for Biomedical Image Segmentation [0.0]
バイオメディカルイメージのためのビジョントランスフォーマー(ViTBIS)という新しいネットワークを提案する。
当社のネットワークでは,入力機能マップを3つのパートに分割して,エンコーダとデコーダの両方で1時間1ドル,3時間3ドル,5ドル5セントの畳み込みを行う。
論文 参考訳(メタデータ) (2022-01-15T20:44:45Z) - Dynamic Neural Representational Decoders for High-Resolution Semantic
Segmentation [98.05643473345474]
動的ニューラル表現デコーダ(NRD)と呼ばれる新しいデコーダを提案する。
エンコーダの出力上の各位置がセマンティックラベルの局所的なパッチに対応するので、この研究では、これらの局所的なパッチをコンパクトなニューラルネットワークで表現する。
このニューラル表現により、意味ラベル空間に先行する滑らかさを活用することができ、デコーダをより効率的にすることができる。
論文 参考訳(メタデータ) (2021-07-30T04:50:56Z) - Swin-Unet: Unet-like Pure Transformer for Medical Image Segmentation [63.46694853953092]
Swin-Unetは、医用画像セグメンテーション用のUnetライクなトランスフォーマーである。
トークン化されたイメージパッチは、TransformerベースのU字型デコーダデコーダアーキテクチャに供給される。
論文 参考訳(メタデータ) (2021-05-12T09:30:26Z) - UNETR: Transformers for 3D Medical Image Segmentation [8.59571749685388]
UNEt TRansformers(UNETR)と呼ばれる新しいアーキテクチャを導入し、純粋なトランスフォーマーをエンコーダとして入力ボリュームのシーケンス表現を学習します。
提案モデルの性能を様々なイメージング手法で広く検証しています。
論文 参考訳(メタデータ) (2021-03-18T20:17:15Z) - CoTr: Efficiently Bridging CNN and Transformer for 3D Medical Image
Segmentation [95.51455777713092]
畳み込みニューラルネットワーク(CNN)は、現代の3D医療画像セグメンテーションのデファクトスタンダードとなっている。
本稿では,bf畳み込みニューラルネットワークとbfトランスbf(cotr)を効率良く橋渡しし,正確な3次元医用画像分割を実現する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2021-03-04T13:34:22Z) - Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective
with Transformers [149.78470371525754]
セマンティックセグメンテーションをシーケンスからシーケンスへの予測タスクとして扱う。
具体的には、イメージをパッチのシーケンスとしてエンコードするために純粋なトランスをデプロイします。
トランスのすべての層でモデル化されたグローバルコンテキストにより、このエンコーダは、SETR(SEgmentation TRansformer)と呼ばれる強力なセグメンテーションモデルを提供するための単純なデコーダと組み合わせることができる。
SETRはADE20K(50.28% mIoU)、Pascal Context(55.83% mIoU)、およびCityscapesの競争力のある結果に関する最新技術を達成している。
論文 参考訳(メタデータ) (2020-12-31T18:55:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。