論文の概要: Mixed Transformer U-Net For Medical Image Segmentation
- arxiv url: http://arxiv.org/abs/2111.04734v1
- Date: Mon, 8 Nov 2021 09:03:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-10 14:40:02.026725
- Title: Mixed Transformer U-Net For Medical Image Segmentation
- Title(参考訳): 医用画像分割用混合トランスu-net
- Authors: Hongyi Wang, Shiao Xie, Lanfen Lin, Yutaro Iwamoto, Xian-Hua Han,
Yen-Wei Chen, Ruofeng Tong
- Abstract要約: 本稿では,相互親和性学習と親和性学習を同時に行うためのMTMを提案する。
MTMを用いて、正確な医用画像分割のためのMixed Transformer U-Net(MT-UNet)と呼ばれるU字型モデルを構築した。
- 参考スコア(独自算出の注目度): 14.046456257175237
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Though U-Net has achieved tremendous success in medical image segmentation
tasks, it lacks the ability to explicitly model long-range dependencies.
Therefore, Vision Transformers have emerged as alternative segmentation
structures recently, for their innate ability of capturing long-range
correlations through Self-Attention (SA). However, Transformers usually rely on
large-scale pre-training and have high computational complexity. Furthermore,
SA can only model self-affinities within a single sample, ignoring the
potential correlations of the overall dataset. To address these problems, we
propose a novel Transformer module named Mixed Transformer Module (MTM) for
simultaneous inter- and intra- affinities learning. MTM first calculates
self-affinities efficiently through our well-designed Local-Global
Gaussian-Weighted Self-Attention (LGG-SA). Then, it mines inter-connections
between data samples through External Attention (EA). By using MTM, we
construct a U-shaped model named Mixed Transformer U-Net (MT-UNet) for accurate
medical image segmentation. We test our method on two different public
datasets, and the experimental results show that the proposed method achieves
better performance over other state-of-the-art methods. The code is available
at: https://github.com/Dootmaan/MT-UNet.
- Abstract(参考訳): U-Netは医療画像セグメンテーションタスクで大きな成功を収めているが、長距離依存を明示的にモデル化する能力は欠如している。
そのため、視覚トランスフォーマは自己着脱(sa)によって長距離相関を捉えることができるため、近年では代替セグメンテーション構造として登場している。
しかし、トランスフォーマーは通常、大規模な事前学習に頼り、高い計算複雑性を持つ。
さらに、SAはデータセット全体の潜在的な相関を無視し、単一のサンプル内でのみ自己親和性をモデル化できる。
そこで本稿では,この問題を解決するために,混合トランスモジュール (mtm) という新しいトランスモジュールを提案する。
mtmはまず,よく設計された局所グローバルガウス重み付きセルフアテンション (lgg-sa) を用いて,効率的な自己親和性を計算する。
そして、外部注意(EA)を通じてデータサンプル間の相互接続をマイニングする。
MTMを用いて、正確な医用画像分割のためのMixed Transformer U-Net(MT-UNet)と呼ばれるU字型モデルを構築する。
提案手法を2つの公開データセットで検証し,提案手法が他の最先端手法よりも優れた性能を実現することを示す。
コードはhttps://github.com/dootmaan/mt-unet。
関連論文リスト
- HMT-UNet: A hybird Mamba-Transformer Vision UNet for Medical Image Segmentation [1.5574423250822542]
我々はHybird Transformer Vision Mamba UNet(HTM-UNet)という医療画像分割のためのU字型アーキテクチャーモデルを提案する。
我々はISIC17、ISIC18、CVC-300、CVC-ClinicDB、Kvasir、CVC-ColonDB、ETIS-Larib PolypDBパブリックデータセット、ZD-LCI-GIMプライベートデータセットに関する包括的な実験を行う。
論文 参考訳(メタデータ) (2024-08-21T02:25:14Z) - MoEUT: Mixture-of-Experts Universal Transformers [75.96744719516813]
ユニバーサルトランスフォーマー(UT)は、合成一般化の学習において標準トランスフォーマーよりも有利である。
層共有は、同じ次元を持つ非共有モデルと比較してパラメータ数を大幅に削減する。
従来の作業では、言語モデリングのようなパラメータ数の支配的なタスクと競合する共有層トランスフォーマー設計の提案に成功しなかった。
論文 参考訳(メタデータ) (2024-05-25T03:24:32Z) - CT-MVSNet: Efficient Multi-View Stereo with Cross-scale Transformer [8.962657021133925]
クロススケールトランス(CT)プロセスは、追加計算なしで異なる段階の表現を特徴付ける。
複数のスケールで異なる対話型アテンションの組み合わせを利用する適応型マッチング認識変換器(AMT)を導入する。
また、より細かなコストボリューム構成に大まかにグローバルな意味情報を埋め込む2機能ガイドアグリゲーション(DFGA)も提案する。
論文 参考訳(メタデータ) (2023-12-14T01:33:18Z) - Isomer: Isomerous Transformer for Zero-shot Video Object Segmentation [59.91357714415056]
コンテクスト共有変換器(CST)とセマンティックガザリング散乱変換器(SGST)の2つの変種を提案する。
CSTは、軽量な計算により、画像フレーム内のグローバル共有コンテキスト情報を学習し、SGSTは、前景と背景のセマンティック相関を別々にモデル化する。
多段核融合にバニラ変換器を使用するベースラインと比較して,我々は13倍の速度向上を実現し,新しい最先端ZVOS性能を実現する。
論文 参考訳(メタデータ) (2023-08-13T06:12:00Z) - Deformable Mixer Transformer with Gating for Multi-Task Learning of
Dense Prediction [126.34551436845133]
CNNとTransformerには独自の利点があり、MTL(Multi-task Learning)の高密度予測に広く使われている。
本稿では,変形可能なCNNと問合せベースのTransformerの長所を共用したMTLモデルを提案する。
論文 参考訳(メタデータ) (2023-08-10T17:37:49Z) - TransNorm: Transformer Provides a Strong Spatial Normalization Mechanism
for a Deep Segmentation Model [4.320393382724066]
畳み込みニューラルネットワーク(CNN)は、医療画像処理時代の主流技術である。
本稿では,Transformerモジュールをエンコーダとスキップ接続の両方に統合する,新しいディープセグメンテーションフレームワークであるTrans-Normを提案する。
論文 参考訳(メタデータ) (2022-07-27T09:54:10Z) - MISSU: 3D Medical Image Segmentation via Self-distilling TransUNet [55.16833099336073]
医用画像セグメンテーションのためのトランスフォーマーベースUNetを提案する。
グローバルな意味情報と局所的な空間的詳細特徴を同時に学習する。
MISSUは従来の最先端手法よりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2022-06-02T07:38:53Z) - Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。
イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。
実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文 参考訳(メタデータ) (2021-04-25T08:24:06Z) - Mixup-Transformer: Dynamic Data Augmentation for NLP Tasks [75.69896269357005]
Mixupは、入力例と対応するラベルを線形に補間する最新のデータ拡張技術である。
本稿では,自然言語処理タスクにmixupを適用する方法について検討する。
我々は、様々なNLPタスクに対して、mixup-transformerと呼ばれる、トランスフォーマーベースの事前学習アーキテクチャにmixupを組み込んだ。
論文 参考訳(メタデータ) (2020-10-05T23:37:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。