論文の概要: A Multi-scale Transformer for Medical Image Segmentation: Architectures,
Model Efficiency, and Benchmarks
- arxiv url: http://arxiv.org/abs/2203.00131v2
- Date: Thu, 3 Mar 2022 03:22:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-04 12:57:09.315294
- Title: A Multi-scale Transformer for Medical Image Segmentation: Architectures,
Model Efficiency, and Benchmarks
- Title(参考訳): 医用画像分割のためのマルチスケール変換器:アーキテクチャ,モデル効率,ベンチマーク
- Authors: Yunhe Gao, Mu Zhou, Di Liu, Dimitris Metaxas
- Abstract要約: 本稿では,畳み込みニューラルネットワークとTransformerの強みを組み合わせた,シンプルながら強力なバックボーンモデルUTNetV2を提案する。
UTNetV2の臨界設計には3つの革新が含まれている。
UTNetV2は、大規模データセット、小規模データセット、2Dおよび3D設定など、さまざまな設定における最先端のパフォーマンスをデモした。
- 参考スコア(独自算出の注目度): 7.23165213907061
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Transformers have emerged to be successful in a number of natural language
processing and vision tasks, but their potential applications to medical
imaging remain largely unexplored due to the unique difficulties of this field.
In this study, we present UTNetV2, a simple yet powerful backbone model that
combines the strengths of the convolutional neural network and Transformer for
enhancing performance and efficiency in medical image segmentation. The
critical design of UTNetV2 includes three innovations: (1) We used a hybrid
hierarchical architecture by introducing depthwise separable convolution to
projection and feed-forward network in the Transformer block, which brings
local relationship modeling and desirable properties of CNNs (translation
invariance) to Transformer, thus eliminate the requirement of large-scale
pre-training. (2) We proposed efficient bidirectional attention (B-MHA) that
reduces the quadratic computation complexity of self-attention to linear by
introducing an adaptively updated semantic map. The efficient attention makes
it possible to capture long-range relationship and correct the fine-grained
errors in high-resolution token maps. (3) The semantic maps in the B-MHA allow
us to perform semantically and spatially global multi-scale feature fusion
without introducing much computational overhead. Furthermore, we provide a fair
comparison codebase of CNN-based and Transformer-based on various medical image
segmentation tasks to evaluate the merits and defects of both architectures.
UTNetV2 demonstrated state-of-the-art performance across various settings,
including large-scale datasets, small-scale datasets, 2D and 3D settings.
- Abstract(参考訳): トランスフォーマーは多くの自然言語処理や視覚タスクで成功しているように見えてきたが、医療画像への潜在的な応用は、この分野の独特な難しさのために、未発見のままである。
本研究では,医用画像セグメンテーションの性能と効率を向上させるために,畳み込みニューラルネットワークとTransformerの強みを組み合わせたシンプルなバックボーンモデルUTNetV2を提案する。
utnetv2のクリティカルな設計には,(1)トランスブロック内の投影とフィードフォワードネットワークに深さ分離可能な畳み込みを導入することで,cnn(translation invariance)の局所的関係モデリングと望ましい特性をトランスフォーマにもたらし,大規模事前トレーニングの必要性をなくす,ハイブリッド階層アーキテクチャを用いた3つの革新が含まれている。
2) 適応的に更新されたセマンティックマップを導入することにより, 自己注意の2次計算複雑性を線形に低減する効率的な双方向注意(B-MHA)を提案する。
効率的な注意により、高解像度のトークンマップにおける長距離関係を捕捉し、きめ細かい誤差を修正することができる。
(3)B-MHAのセマンティックマップは,計算オーバーヘッドを伴わずに,意味的かつ空間的に多スケールな機能融合を実現できる。
さらに,様々な医用画像分割タスクに基づくcnnとtransformerの比較コードベースを提供し,両アーキテクチャのメリットと欠点を評価した。
UTNetV2は、大規模データセット、小規模データセット、2Dおよび3D設定など、さまざまな設定における最先端のパフォーマンスをデモした。
関連論文リスト
- MedVisionLlama: Leveraging Pre-Trained Large Language Model Layers to Enhance Medical Image Segmentation [0.8437187555622164]
本研究では、予め訓練されたLCMトランスブロックを統合することで、医用画像セグメンテーションのためのビジョントランス(ViT)の強化について検討する。
凍結LDM変換器ブロックをViTモデルエンコーダに組み込んだ手法により,セグメント化性能が大幅に向上した。
改良されたモデルでは、平均Diceスコアが0.74から0.79に向上し、精度、精度、ジャカード指数が向上した。
論文 参考訳(メタデータ) (2024-10-03T14:50:33Z) - MOSMOS: Multi-organ segmentation facilitated by medical report supervision [10.396987980136602]
マルチオーガンスーパービジョン(MOS)のための新しい事前学習・微調整フレームワークを提案する。
具体的には、まず、トレーニング前の段階で、医用画像とレポートのペアを合わせるために、グローバルコントラスト学習を導入する。
さらに,画像画素と臓器タグ間の意味的対応を暗黙的に学習するために,マルチラベル認識を活用する。
論文 参考訳(メタデータ) (2024-09-04T03:46:17Z) - C^2M-DoT: Cross-modal consistent multi-view medical report generation
with domain transfer network [67.97926983664676]
ドメイン転送ネットワーク(C2M-DoT)を用いたクロスモーダルなマルチビュー医療レポート生成を提案する。
C2M-DoTは、すべてのメトリクスで最先端のベースラインを大幅に上回る。
論文 参考訳(メタデータ) (2023-10-09T02:31:36Z) - Customizing General-Purpose Foundation Models for Medical Report
Generation [64.31265734687182]
ラベル付き医用画像-レポートペアの不足は、ディープニューラルネットワークや大規模ニューラルネットワークの開発において大きな課題となっている。
本稿では,コンピュータビジョンと自然言語処理の基盤モデル (FM) として,市販の汎用大規模事前学習モデルのカスタマイズを提案する。
論文 参考訳(メタデータ) (2023-06-09T03:02:36Z) - PHTrans: Parallelly Aggregating Global and Local Representations for
Medical Image Segmentation [7.140322699310487]
我々はPHTransと呼ばれる医用画像分割のための新しいハイブリッドアーキテクチャを提案する。
PHTransはTransformerとCNNを並列にハイブリッド化し、グローバルな特徴とローカルな特徴から階層的な表現を生成する。
論文 参考訳(メタデータ) (2022-03-09T08:06:56Z) - Transformers in Medical Imaging: A Survey [88.03790310594533]
トランスフォーマーはいくつかのコンピュータビジョン問題に適用され、最先端の結果が得られた。
医療画像はまた、局所受容野を持つCNNと比較して、グローバルな文脈を捉えられるトランスフォーマーへの関心が高まっている。
本稿では,最近提案された建築設計から未解決問題に至るまで,医療画像におけるトランスフォーマーの応用について概説する。
論文 参考訳(メタデータ) (2022-01-24T18:50:18Z) - TransMed: Transformers Advance Multi-modal Medical Image Classification [4.500880052705654]
畳み込みニューラルネットワーク(CNN)は、医療画像解析タスクで非常に競争力のあるパフォーマンスを示しています。
トランスフォーマーはコンピュータビジョンに適用され、大規模なデータセットで顕著な成功を収めた。
TransMedはCNNとトランスフォーマーの利点を組み合わせて、画像の低レベル特徴を効率的に抽出する。
論文 参考訳(メタデータ) (2021-03-10T08:57:53Z) - Medical Transformer: Gated Axial-Attention for Medical Image
Segmentation [73.98974074534497]
医用画像分割タスクにおけるトランスフォーマティブネットワークアーキテクチャの利用可能性について検討する。
セルフアテンションモジュールに追加の制御機構を導入することで,既存のアーキテクチャを拡張するGated Axial-Attentionモデルを提案する。
医療画像上で効果的にモデルを訓練するために,さらにパフォーマンスを向上させる局所的グローバルトレーニング戦略 (logo) を提案する。
論文 参考訳(メタデータ) (2021-02-21T18:35:14Z) - TransUNet: Transformers Make Strong Encoders for Medical Image
Segmentation [78.01570371790669]
医用画像のセグメンテーションは医療システムの開発に必須の前提条件である。
様々な医療画像セグメンテーションタスクにおいて、U-Netとして知られるu字型アーキテクチャがデファクトスタンダードとなっている。
医用画像セグメンテーションの強力な代替手段として,トランスフォーマーとU-Netの両方を有効活用するTransUNetを提案する。
論文 参考訳(メタデータ) (2021-02-08T16:10:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。