論文の概要: A Multi-scale Transformer for Medical Image Segmentation: Architectures,
Model Efficiency, and Benchmarks
- arxiv url: http://arxiv.org/abs/2203.00131v2
- Date: Thu, 3 Mar 2022 03:22:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-04 12:57:09.315294
- Title: A Multi-scale Transformer for Medical Image Segmentation: Architectures,
Model Efficiency, and Benchmarks
- Title(参考訳): 医用画像分割のためのマルチスケール変換器:アーキテクチャ,モデル効率,ベンチマーク
- Authors: Yunhe Gao, Mu Zhou, Di Liu, Dimitris Metaxas
- Abstract要約: 本稿では,畳み込みニューラルネットワークとTransformerの強みを組み合わせた,シンプルながら強力なバックボーンモデルUTNetV2を提案する。
UTNetV2の臨界設計には3つの革新が含まれている。
UTNetV2は、大規模データセット、小規模データセット、2Dおよび3D設定など、さまざまな設定における最先端のパフォーマンスをデモした。
- 参考スコア(独自算出の注目度): 7.23165213907061
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Transformers have emerged to be successful in a number of natural language
processing and vision tasks, but their potential applications to medical
imaging remain largely unexplored due to the unique difficulties of this field.
In this study, we present UTNetV2, a simple yet powerful backbone model that
combines the strengths of the convolutional neural network and Transformer for
enhancing performance and efficiency in medical image segmentation. The
critical design of UTNetV2 includes three innovations: (1) We used a hybrid
hierarchical architecture by introducing depthwise separable convolution to
projection and feed-forward network in the Transformer block, which brings
local relationship modeling and desirable properties of CNNs (translation
invariance) to Transformer, thus eliminate the requirement of large-scale
pre-training. (2) We proposed efficient bidirectional attention (B-MHA) that
reduces the quadratic computation complexity of self-attention to linear by
introducing an adaptively updated semantic map. The efficient attention makes
it possible to capture long-range relationship and correct the fine-grained
errors in high-resolution token maps. (3) The semantic maps in the B-MHA allow
us to perform semantically and spatially global multi-scale feature fusion
without introducing much computational overhead. Furthermore, we provide a fair
comparison codebase of CNN-based and Transformer-based on various medical image
segmentation tasks to evaluate the merits and defects of both architectures.
UTNetV2 demonstrated state-of-the-art performance across various settings,
including large-scale datasets, small-scale datasets, 2D and 3D settings.
- Abstract(参考訳): トランスフォーマーは多くの自然言語処理や視覚タスクで成功しているように見えてきたが、医療画像への潜在的な応用は、この分野の独特な難しさのために、未発見のままである。
本研究では,医用画像セグメンテーションの性能と効率を向上させるために,畳み込みニューラルネットワークとTransformerの強みを組み合わせたシンプルなバックボーンモデルUTNetV2を提案する。
utnetv2のクリティカルな設計には,(1)トランスブロック内の投影とフィードフォワードネットワークに深さ分離可能な畳み込みを導入することで,cnn(translation invariance)の局所的関係モデリングと望ましい特性をトランスフォーマにもたらし,大規模事前トレーニングの必要性をなくす,ハイブリッド階層アーキテクチャを用いた3つの革新が含まれている。
2) 適応的に更新されたセマンティックマップを導入することにより, 自己注意の2次計算複雑性を線形に低減する効率的な双方向注意(B-MHA)を提案する。
効率的な注意により、高解像度のトークンマップにおける長距離関係を捕捉し、きめ細かい誤差を修正することができる。
(3)B-MHAのセマンティックマップは,計算オーバーヘッドを伴わずに,意味的かつ空間的に多スケールな機能融合を実現できる。
さらに,様々な医用画像分割タスクに基づくcnnとtransformerの比較コードベースを提供し,両アーキテクチャのメリットと欠点を評価した。
UTNetV2は、大規模データセット、小規模データセット、2Dおよび3D設定など、さまざまな設定における最先端のパフォーマンスをデモした。
関連論文リスト
- C^2M-DoT: Cross-modal consistent multi-view medical report generation
with domain transfer network [67.97926983664676]
ドメイン転送ネットワーク(C2M-DoT)を用いたクロスモーダルなマルチビュー医療レポート生成を提案する。
C2M-DoTは、すべてのメトリクスで最先端のベースラインを大幅に上回る。
論文 参考訳(メタデータ) (2023-10-09T02:31:36Z) - Customizing General-Purpose Foundation Models for Medical Report
Generation [64.31265734687182]
ラベル付き医用画像-レポートペアの不足は、ディープニューラルネットワークや大規模ニューラルネットワークの開発において大きな課題となっている。
本稿では,コンピュータビジョンと自然言語処理の基盤モデル (FM) として,市販の汎用大規模事前学習モデルのカスタマイズを提案する。
論文 参考訳(メタデータ) (2023-06-09T03:02:36Z) - Dynamic Linear Transformer for 3D Biomedical Image Segmentation [2.440109381823186]
トランスフォーマーベースのニューラルネットワークは、多くのバイオメディカルイメージセグメンテーションタスクにおいて、有望なパフォーマンスを上回っている。
3次元トランスを用いた分割法の主な課題は、自己認識機構によって引き起こされる二次的複雑性である。
本稿では,エンコーダ・デコーダ方式の線形複雑化を用いた3次元医用画像分割のためのトランスフォーマアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-06-01T21:15:01Z) - PHTrans: Parallelly Aggregating Global and Local Representations for
Medical Image Segmentation [7.140322699310487]
我々はPHTransと呼ばれる医用画像分割のための新しいハイブリッドアーキテクチャを提案する。
PHTransはTransformerとCNNを並列にハイブリッド化し、グローバルな特徴とローカルな特徴から階層的な表現を生成する。
論文 参考訳(メタデータ) (2022-03-09T08:06:56Z) - Class-Aware Generative Adversarial Transformers for Medical Image
Segmentation [39.14169989603906]
医用画像セグメンテーションのための新規な生成逆変換器CA-GANformerを提案する。
まず、ピラミッド構造を利用してマルチスケール表現を構築し、マルチスケールのバリエーションを扱う。
次に、意味構造を持つオブジェクトの識別領域をよりよく学習するために、新しいクラス対応トランスフォーマーモジュールを設計する。
論文 参考訳(メタデータ) (2022-01-26T03:50:02Z) - Transformers in Medical Imaging: A Survey [88.03790310594533]
トランスフォーマーはいくつかのコンピュータビジョン問題に適用され、最先端の結果が得られた。
医療画像はまた、局所受容野を持つCNNと比較して、グローバルな文脈を捉えられるトランスフォーマーへの関心が高まっている。
本稿では,最近提案された建築設計から未解決問題に至るまで,医療画像におけるトランスフォーマーの応用について概説する。
論文 参考訳(メタデータ) (2022-01-24T18:50:18Z) - TransMed: Transformers Advance Multi-modal Medical Image Classification [4.500880052705654]
畳み込みニューラルネットワーク(CNN)は、医療画像解析タスクで非常に競争力のあるパフォーマンスを示しています。
トランスフォーマーはコンピュータビジョンに適用され、大規模なデータセットで顕著な成功を収めた。
TransMedはCNNとトランスフォーマーの利点を組み合わせて、画像の低レベル特徴を効率的に抽出する。
論文 参考訳(メタデータ) (2021-03-10T08:57:53Z) - Medical Transformer: Gated Axial-Attention for Medical Image
Segmentation [73.98974074534497]
医用画像分割タスクにおけるトランスフォーマティブネットワークアーキテクチャの利用可能性について検討する。
セルフアテンションモジュールに追加の制御機構を導入することで,既存のアーキテクチャを拡張するGated Axial-Attentionモデルを提案する。
医療画像上で効果的にモデルを訓練するために,さらにパフォーマンスを向上させる局所的グローバルトレーニング戦略 (logo) を提案する。
論文 参考訳(メタデータ) (2021-02-21T18:35:14Z) - TransUNet: Transformers Make Strong Encoders for Medical Image
Segmentation [78.01570371790669]
医用画像のセグメンテーションは医療システムの開発に必須の前提条件である。
様々な医療画像セグメンテーションタスクにおいて、U-Netとして知られるu字型アーキテクチャがデファクトスタンダードとなっている。
医用画像セグメンテーションの強力な代替手段として,トランスフォーマーとU-Netの両方を有効活用するTransUNetを提案する。
論文 参考訳(メタデータ) (2021-02-08T16:10:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。