論文の概要: AFTer-UNet: Axial Fusion Transformer UNet for Medical Image Segmentation
- arxiv url: http://arxiv.org/abs/2110.10403v1
- Date: Wed, 20 Oct 2021 06:47:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-22 16:20:18.809321
- Title: AFTer-UNet: Axial Fusion Transformer UNet for Medical Image Segmentation
- Title(参考訳): AFTer-UNet:医療画像分割のための軸核融合変換器UNet
- Authors: Xiangyi Yan, Hao Tang, Shanlin Sun, Haoyu Ma, Deying Kong, Xiaohui Xie
- Abstract要約: トランスをベースとしたモデルは、医療画像セグメンテーションにおけるこれらの手法の探求に注目されている。
本稿では、畳み込み層の長周期モデリングにおける詳細特徴抽出能力と変圧器強度の両面を活かしたAxial Fusion Transformer UNet(AFTer-UNet)を提案する。
パラメータが少なく、GPUメモリのトレーニングも従来のトランスフォーマーベースのモデルよりも少ない。
- 参考スコア(独自算出の注目度): 19.53151547706724
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in transformer-based models have drawn attention to exploring
these techniques in medical image segmentation, especially in conjunction with
the U-Net model (or its variants), which has shown great success in medical
image segmentation, under both 2D and 3D settings. Current 2D based methods
either directly replace convolutional layers with pure transformers or consider
a transformer as an additional intermediate encoder between the encoder and
decoder of U-Net. However, these approaches only consider the attention
encoding within one single slice and do not utilize the axial-axis information
naturally provided by a 3D volume. In the 3D setting, convolution on volumetric
data and transformers both consume large GPU memory. One has to either
downsample the image or use cropped local patches to reduce GPU memory usage,
which limits its performance. In this paper, we propose Axial Fusion
Transformer UNet (AFTer-UNet), which takes both advantages of convolutional
layers' capability of extracting detailed features and transformers' strength
on long sequence modeling. It considers both intra-slice and inter-slice
long-range cues to guide the segmentation. Meanwhile, it has fewer parameters
and takes less GPU memory to train than the previous transformer-based models.
Extensive experiments on three multi-organ segmentation datasets demonstrate
that our method outperforms current state-of-the-art methods.
- Abstract(参考訳): 近年のトランスフォーマーモデルの発展は, 医用画像セグメンテーションにおいて, 特にU-Netモデル(またはその変種)とともに, 2次元と3次元の両方の条件下で, 医療用画像セグメンテーションにおいて大きな成功をおさめている。
現在の2Dベースの手法では、畳み込み層を直接純粋なトランスフォーマーに置き換えるか、トランスフォーマーをエンコーダとU-Netのデコーダの間の中間エンコーダとして考える。
しかし,これらの手法は1つのスライス内でのみ注意符号化を考慮し,3次元ボリュームで自然に提供される軸軸情報を利用しない。
3D設定では、ボリュームデータとトランスフォーマーの畳み込みはどちらも大きなGPUメモリを消費する。
イメージをダウンサンプルするか、トリミングされたローカルパッチを使用してGPUメモリ使用量を削減し、パフォーマンスを制限しなければならない。
本稿では、畳み込み層の長周期モデリングにおける詳細特徴の抽出と変圧器の強度の利点を両立する軸核融合変圧器UNet(AFTer-UNet)を提案する。
セグメンテーションを導くために、スライス内およびスライス間長距離キューの両方を考慮する。
一方、パラメータは少なく、トレーニングに必要なgpuメモリは以前のtransformerベースのモデルよりも少ない。
3つのマルチオーガンセグメンテーションデータセットに関する広範囲な実験により、本手法が現在の最先端手法よりも優れていることが証明された。
関連論文リスト
- Cross-domain and Cross-dimension Learning for Image-to-Graph
Transformers [50.576354045312115]
直接画像からグラフへの変換は、単一のモデルにおけるオブジェクトの検出と関係予測を解決するための課題である。
画像-グラフ変換器のクロスドメインおよびクロス次元変換学習を可能にする一連の手法を提案する。
そこで我々は,2次元の衛星画像上でモデルを事前学習し,それを2次元および3次元の異なるターゲット領域に適用する。
論文 参考訳(メタデータ) (2024-03-11T10:48:56Z) - MOSformer: Momentum encoder-based inter-slice fusion transformer for
medical image segmentation [15.94370954641629]
2.5Dベースのセグメンテーションモデルは、しばしば各スライスを等しく扱い、スライス間の情報を効果的に学習し活用することができない。
この問題を解決するために,新しいMomentumエンコーダを用いたスライス間核融合トランス (MOSformer) を提案する。
MOSformerは3つのベンチマークデータセット(Synapse、ACDC、AMOS)で評価され、それぞれ85.63%、92.19%、85.43%の新たな最先端技術を確立する。
論文 参考訳(メタデータ) (2024-01-22T11:25:59Z) - MIST: Medical Image Segmentation Transformer with Convolutional
Attention Mixing (CAM) Decoder [0.0]
本稿では,CAMデコーダを組み込んだ医用画像変換器(MIST)を提案する。
MISTには2つの部分がある: 事前訓練された多軸視覚変換器(MaxViT)をエンコーダとして使用し、符号化された特徴表現をCAMデコーダに渡して画像のセグメンテーションを行う。
空間情報ゲインを高めるため、特徴抽出及び受容野拡大に深部及び浅部畳み込みを用いる。
論文 参考訳(メタデータ) (2023-10-30T18:07:57Z) - Memory transformers for full context and high-resolution 3D Medical
Segmentation [76.93387214103863]
本稿では,この問題を克服するために,Full resolutIoN mEmory (FINE) 変換器を提案する。
FINEの基本的な考え方は、メモリトークンを学習して、フルレンジインタラクションを間接的にモデル化することだ。
BCV画像セグメンテーションデータセットの実験は、最先端のCNNやトランスフォーマーベースラインよりも優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2022-10-11T10:11:05Z) - Pix4Point: Image Pretrained Standard Transformers for 3D Point Cloud
Understanding [62.502694656615496]
本稿では、プログレッシブ・ポイント・パッチ・エンベディングと、PViTと呼ばれる新しいポイント・クラウド・トランスフォーマーモデルを提案する。
PViTはTransformerと同じバックボーンを共有しているが、データに対して空腹が少ないことが示されており、Transformerは最先端技術に匹敵するパフォーマンスを実現することができる。
我々は、イメージ領域で事前訓練されたトランスフォーマーを活用して、下流のクラウド理解を強化する、シンプルで効果的なパイプライン「Pix4Point」を定式化します。
論文 参考訳(メタデータ) (2022-08-25T17:59:29Z) - Cats: Complementary CNN and Transformer Encoders for Segmentation [13.288195115791758]
生体医用画像分割のための二重エンコーダを用いたモデルを提案する。
畳み込みエンコーダと変換器の情報を融合してデコーダに渡して結果を得る。
提案手法は,各タスクにトランスフォーマーと非変換器を併用した最先端モデルと比較して,ボード全体のDiceスコアを高くする。
論文 参考訳(メタデータ) (2022-08-24T14:25:11Z) - MISSU: 3D Medical Image Segmentation via Self-distilling TransUNet [55.16833099336073]
医用画像セグメンテーションのためのトランスフォーマーベースUNetを提案する。
グローバルな意味情報と局所的な空間的詳細特徴を同時に学習する。
MISSUは従来の最先端手法よりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2022-06-02T07:38:53Z) - Dynamic Linear Transformer for 3D Biomedical Image Segmentation [2.440109381823186]
トランスフォーマーベースのニューラルネットワークは、多くのバイオメディカルイメージセグメンテーションタスクにおいて、有望なパフォーマンスを上回っている。
3次元トランスを用いた分割法の主な課題は、自己認識機構によって引き起こされる二次的複雑性である。
本稿では,エンコーダ・デコーダ方式の線形複雑化を用いた3次元医用画像分割のためのトランスフォーマアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-06-01T21:15:01Z) - nnFormer: Interleaved Transformer for Volumetric Segmentation [50.10441845967601]
本稿では,自己意図と畳み込みを実証的に組み合わせた,インターリーブアーキテクチャを備えた強力なセグメンテーションモデルであるnnFormerを紹介する。
nnFormerは、SynapseとACDCの2つの一般的なデータセットで、以前のTransformerベースのメソッドよりも大幅に改善されている。
論文 参考訳(メタデータ) (2021-09-07T17:08:24Z) - CoTr: Efficiently Bridging CNN and Transformer for 3D Medical Image
Segmentation [95.51455777713092]
畳み込みニューラルネットワーク(CNN)は、現代の3D医療画像セグメンテーションのデファクトスタンダードとなっている。
本稿では,bf畳み込みニューラルネットワークとbfトランスbf(cotr)を効率良く橋渡しし,正確な3次元医用画像分割を実現する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2021-03-04T13:34:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。