論文の概要: LeViT-UNet: Make Faster Encoders with Transformer for Medical Image
Segmentation
- arxiv url: http://arxiv.org/abs/2107.08623v1
- Date: Mon, 19 Jul 2021 05:48:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-20 14:58:02.973791
- Title: LeViT-UNet: Make Faster Encoders with Transformer for Medical Image
Segmentation
- Title(参考訳): LeViT-UNet: 医療画像セグメンテーションのためのトランスフォーマーによるより高速なエンコーダ
- Authors: Guoping Xu, Xingrong Wu, Xuan Zhang, Xinwei He
- Abstract要約: 本稿では,LeViT TransformerモジュールをU-Netアーキテクチャに統合したLeViT-UNetを提案する。
具体的には、LeViT-UNetのエンコーダとしてLeViTを使用し、Transformerブロックの精度と効率をよりよくトレードオフする。
- 参考スコア(独自算出の注目度): 6.2059756782278965
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Medical image segmentation plays an essential role in developing
computer-assisted diagnosis and therapy systems, yet still faces many
challenges. In the past few years, the popular encoder-decoder architectures
based on CNNs (e.g., U-Net) have been successfully applied in the task of
medical image segmentation. However, due to the locality of convolution
operations, they demonstrate limitations in learning global context and
long-range spatial relations. Recently, several researchers try to introduce
transformers to both the encoder and decoder components with promising results,
but the efficiency requires further improvement due to the high computational
complexity of transformers. In this paper, we propose LeViT-UNet, which
integrates a LeViT Transformer module into the U-Net architecture, for fast and
accurate medical image segmentation. Specifically, we use LeViT as the encoder
of the LeViT-UNet, which better trades off the accuracy and efficiency of the
Transformer block. Moreover, multi-scale feature maps from transformer blocks
and convolutional blocks of LeViT are passed into the decoder via
skip-connection, which can effectively reuse the spatial information of the
feature maps. Our experiments indicate that the proposed LeViT-UNet achieves
better performance comparing to various competing methods on several
challenging medical image segmentation benchmarks including Synapse and ACDC.
Code and models will be publicly available at
https://github.com/apple1986/LeViT_UNet.
- Abstract(参考訳): 医療画像セグメンテーションはコンピュータによる診断・治療システムの開発において重要な役割を担っているが、多くの課題に直面している。
ここ数年、CNN(例えばU-Net)に基づく一般的なエンコーダデコーダアーキテクチャは、医療画像セグメンテーションのタスクにうまく適用されてきた。
しかし、畳み込み操作の局所性から、グローバルな文脈と長距離空間関係の学習における限界を示す。
近年、数名の研究者がエンコーダとデコーダの両方のコンポーネントにトランスフォーマーを導入して有望な結果を得たが、その効率はトランスフォーマーの計算量が高いためさらなる改善が必要となる。
本稿では,u-netアーキテクチャにレビットトランスフォーマーモジュールを組み込んだ,高速かつ正確な医用画像セグメンテーションを実現するrevit-unetを提案する。
具体的には、LeViT-UNetのエンコーダとしてLeViTを使用し、Transformerブロックの精度と効率をよりよくトレードオフする。
さらに、トランスフォーマーブロックと浮揚の畳み込みブロックからのマルチスケール特徴マップをスキップ接続によりデコーダに渡すことにより、特徴マップの空間情報を効果的に再利用することができる。
提案手法は,synapse や acdc などいくつかの難解な医用画像セグメンテーションベンチマークにおいて,様々な手法と比較し,優れた性能が得られることを示す。
コードとモデルはhttps://github.com/apple 1986/LeViT_UNetで公開されている。
関連論文リスト
- 3D TransUNet: Advancing Medical Image Segmentation through Vision
Transformers [40.21263511313524]
医療画像のセグメンテーションは、疾患診断と治療計画のための医療システムの発展に重要な役割を担っている。
U-Netとして知られるU字型アーキテクチャは、様々な医療画像セグメンテーションタスクで高い成功を収めている。
これらの制限に対処するため、研究者たちはトランスフォーマー(Transformer)に転換した。
論文 参考訳(メタデータ) (2023-10-11T18:07:19Z) - Dilated-UNet: A Fast and Accurate Medical Image Segmentation Approach
using a Dilated Transformer and U-Net Architecture [0.6445605125467572]
本稿では,Dilated-UNetについて紹介する。Dilated-UNetはDilated TransformerブロックとU-Netアーキテクチャを組み合わせることで,高精度かつ高速な医用画像セグメンテーションを実現する。
実験の結果,Dilated-UNetはいくつかの挑戦的な医用画像セグメンテーションデータセットにおいて,他のモデルよりも優れていた。
論文 参考訳(メタデータ) (2023-04-22T17:20:13Z) - ConvTransSeg: A Multi-resolution Convolution-Transformer Network for
Medical Image Segmentation [14.485482467748113]
ハイブリッドエンコーダ/デコーダセグメンテーションモデル(ConvTransSeg)を提案する。
特徴学習用エンコーダとして多層CNNと,セグメンテーション予測用デコーダとして対応する多層トランスフォーマーから構成される。
本手法は,モデル複雑度とメモリ消費率の低いDice係数と平均対称表面距離の測定値で最高の性能を実現する。
論文 参考訳(メタデータ) (2022-10-13T14:59:23Z) - TransVG++: End-to-End Visual Grounding with Language Conditioned Vision
Transformer [188.00681648113223]
視覚的なグラウンド化のための、巧妙で効果的なTransformerベースのフレームワークについて検討する。
TransVGはトランスフォーマーによるマルチモーダル対応を確立し、ボックス座標を直接回帰することで参照領域をローカライズする。
視覚特徴符号化にViT(Vision Transformer)を活用することで、我々のフレームワークを純粋にトランスフォーマーベースにアップグレードする。
論文 参考訳(メタデータ) (2022-06-14T06:27:38Z) - MISSU: 3D Medical Image Segmentation via Self-distilling TransUNet [55.16833099336073]
医用画像セグメンテーションのためのトランスフォーマーベースUNetを提案する。
グローバルな意味情報と局所的な空間的詳細特徴を同時に学習する。
MISSUは従来の最先端手法よりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2022-06-02T07:38:53Z) - Swin-Unet: Unet-like Pure Transformer for Medical Image Segmentation [63.46694853953092]
Swin-Unetは、医用画像セグメンテーション用のUnetライクなトランスフォーマーである。
トークン化されたイメージパッチは、TransformerベースのU字型デコーダデコーダアーキテクチャに供給される。
論文 参考訳(メタデータ) (2021-05-12T09:30:26Z) - CoTr: Efficiently Bridging CNN and Transformer for 3D Medical Image
Segmentation [95.51455777713092]
畳み込みニューラルネットワーク(CNN)は、現代の3D医療画像セグメンテーションのデファクトスタンダードとなっている。
本稿では,bf畳み込みニューラルネットワークとbfトランスbf(cotr)を効率良く橋渡しし,正確な3次元医用画像分割を実現する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2021-03-04T13:34:22Z) - Medical Transformer: Gated Axial-Attention for Medical Image
Segmentation [73.98974074534497]
医用画像分割タスクにおけるトランスフォーマティブネットワークアーキテクチャの利用可能性について検討する。
セルフアテンションモジュールに追加の制御機構を導入することで,既存のアーキテクチャを拡張するGated Axial-Attentionモデルを提案する。
医療画像上で効果的にモデルを訓練するために,さらにパフォーマンスを向上させる局所的グローバルトレーニング戦略 (logo) を提案する。
論文 参考訳(メタデータ) (2021-02-21T18:35:14Z) - TransUNet: Transformers Make Strong Encoders for Medical Image
Segmentation [78.01570371790669]
医用画像のセグメンテーションは医療システムの開発に必須の前提条件である。
様々な医療画像セグメンテーションタスクにおいて、U-Netとして知られるu字型アーキテクチャがデファクトスタンダードとなっている。
医用画像セグメンテーションの強力な代替手段として,トランスフォーマーとU-Netの両方を有効活用するTransUNetを提案する。
論文 参考訳(メタデータ) (2021-02-08T16:10:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。