論文の概要: UNetFormer: A Unified Vision Transformer Model and Pre-Training
Framework for 3D Medical Image Segmentation
- arxiv url: http://arxiv.org/abs/2204.00631v2
- Date: Tue, 5 Apr 2022 16:41:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-06 11:53:11.217187
- Title: UNetFormer: A Unified Vision Transformer Model and Pre-Training
Framework for 3D Medical Image Segmentation
- Title(参考訳): UNetFormer: 統合ビジョントランスフォーマーモデルと3次元医用画像セグメンテーションのための事前トレーニングフレームワーク
- Authors: Ali Hatamizadeh, Ziyue Xu, Dong Yang, Wenqi Li, Holger Roth and
Daguang Xu
- Abstract要約: UNetFormerと呼ばれる2つのアーキテクチャで構成され,3D Swin TransformerベースのエンコーダとConal Neural Network(CNN)とTransformerベースのデコーダを備えている。
提案モデルでは, 5つの異なる解像度でのスキップ接続により, エンコーダをデコーダにリンクする。
本稿では,ランダムにマスクされたトークンを予測する学習を通じて,エンコーダバックボーンの自己教師付き事前学習手法を提案する。
- 参考スコア(独自算出の注目度): 14.873473285148853
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Vision Transformers (ViT)s have recently become popular due to their
outstanding modeling capabilities, in particular for capturing long-range
information, and scalability to dataset and model sizes which has led to
state-of-the-art performance in various computer vision and medical image
analysis tasks. In this work, we introduce a unified framework consisting of
two architectures, dubbed UNetFormer, with a 3D Swin Transformer-based encoder
and Convolutional Neural Network (CNN) and transformer-based decoders. In the
proposed model, the encoder is linked to the decoder via skip connections at
five different resolutions with deep supervision. The design of proposed
architecture allows for meeting a wide range of trade-off requirements between
accuracy and computational cost. In addition, we present a methodology for
self-supervised pre-training of the encoder backbone via learning to predict
randomly masked volumetric tokens using contextual information of visible
tokens. We pre-train our framework on a cohort of $5050$ CT images, gathered
from publicly available CT datasets, and present a systematic investigation of
various components such as masking ratio and patch size that affect the
representation learning capability and performance of downstream tasks. We
validate the effectiveness of our pre-training approach by fine-tuning and
testing our model on liver and liver tumor segmentation task using the Medical
Segmentation Decathlon (MSD) dataset and achieve state-of-the-art performance
in terms of various segmentation metrics. To demonstrate its generalizability,
we train and test the model on BraTS 21 dataset for brain tumor segmentation
using MRI images and outperform other methods in terms of Dice score. Code:
https://github.com/Project-MONAI/research-contributions
- Abstract(参考訳): ビジョントランスフォーマー(ViT)は、特に長距離情報をキャプチャするための優れたモデリング能力と、様々なコンピュータビジョンや医療画像解析タスクにおける最先端のパフォーマンスをもたらすデータセットやモデルサイズへのスケーラビリティにより、最近人気が高まっている。
本研究では,UNetFormerと呼ばれる2つのアーキテクチャと,3D Swin Transformerベースのエンコーダと畳み込みニューラルネットワーク(CNN)とトランスフォーマーベースのデコーダを組み合わせた統合フレームワークを導入する。
提案モデルでは,5つの異なる解像度でのスキップ接続により,エンコーダをデコーダにリンクする。
提案アーキテクチャの設計により、精度と計算コストの間の幅広いトレードオフ要件を満たすことができる。
さらに,エンコーダバックボーンの自己教師付き事前学習を学習し,可視トークンの文脈情報を用いてランダムにマスクされたボリュームトークンを予測する手法を提案する。
我々は,公開可能なctデータセットから収集した5050ドルのct画像のコホート上でフレームワークを事前学習し,マスキング比やパッチサイズなど,下流タスクの表現学習能力や性能に影響を与えるさまざまなコンポーネントの体系的調査を行った。
本研究は,MSDデータセットを用いて肝・肝腫瘍セグメンテーションタスクを微調整し,評価し,様々なセグメンテーション指標を用いて最先端のパフォーマンスを達成することによる事前トレーニングアプローチの有効性を検証する。
一般化可能性を示すために,MRI画像を用いてBraTS 21データセットを用いて,脳腫瘍セグメント化のためのモデルを訓練,試験し,Diceスコアで他の手法より優れていることを示す。
コード:https://github.com/Project-MONAI/research-contributions
関連論文リスト
- MTP: Advancing Remote Sensing Foundation Model via Multi-Task Pretraining [73.81862342673894]
ファンデーションモデルは、様々な画像解釈タスクを強化することで、リモートセンシング(RS)のランドスケープを再構築した。
事前訓練されたモデルを下流のタスクに転送することは、イメージ分類やオブジェクト識別タスクとして事前訓練の定式化によるタスクの相違に遭遇する可能性がある。
SAMRSデータセット上で、セマンティックセグメンテーション、インスタンスセグメンテーション、回転オブジェクト検出を含むマルチタスクによる事前トレーニングを行う。
我々のモデルは、シーン分類、水平・回転物体検出、セマンティックセグメンテーション、変化検出など、様々なRS下流タスクに基づいて微調整される。
論文 参考訳(メタデータ) (2024-03-20T09:17:22Z) - Promise:Prompt-driven 3D Medical Image Segmentation Using Pretrained
Image Foundation Models [13.08275555017179]
単点プロンプトのみを用いたプロンプト駆動型3次元医用画像分割モデルProMISeを提案する。
今回,大腸癌と膵腫瘍の2つの領域に分布する2つのパブリックデータセットについて検討した。
論文 参考訳(メタデータ) (2023-10-30T16:49:03Z) - SeUNet-Trans: A Simple yet Effective UNet-Transformer Model for Medical
Image Segmentation [0.0]
医用画像セグメンテーションのためのシンプルなUNet-Transformer(seUNet-Trans)モデルを提案する。
提案手法では,UNetモデルを特徴抽出器として設計し,入力画像から複数の特徴マップを生成する。
UNetアーキテクチャと自己認識機構を活用することで、我々のモデルはローカルとグローバルの両方のコンテキスト情報を保存するだけでなく、入力要素間の長距離依存関係をキャプチャできる。
論文 参考訳(メタデータ) (2023-10-16T01:13:38Z) - Attentive Symmetric Autoencoder for Brain MRI Segmentation [56.02577247523737]
視覚変換器(ViT)をベースとした3次元脳MRIセグメンテーションタスクのための新しいアテンテーティブシンメトリオートエンコーダを提案する。
事前学習の段階では、提案するオートエンコーダがより注意を払って、勾配測定値に従って情報パッチを再構築する。
実験の結果,提案手法は最先端の自己教師付き学習法や医用画像分割モデルよりも優れていた。
論文 参考訳(メタデータ) (2022-09-19T09:43:19Z) - MISSU: 3D Medical Image Segmentation via Self-distilling TransUNet [55.16833099336073]
医用画像セグメンテーションのためのトランスフォーマーベースUNetを提案する。
グローバルな意味情報と局所的な空間的詳細特徴を同時に学習する。
MISSUは従来の最先端手法よりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2022-06-02T07:38:53Z) - Two-Stream Graph Convolutional Network for Intra-oral Scanner Image
Segmentation [133.02190910009384]
本稿では,2ストリームグラフ畳み込みネットワーク(TSGCN)を提案する。
TSGCNは3次元歯(表面)セグメンテーションにおいて最先端の方法よりも優れています。
論文 参考訳(メタデータ) (2022-04-19T10:41:09Z) - Swin UNETR: Swin Transformers for Semantic Segmentation of Brain Tumors
in MRI Images [7.334185314342017]
我々はSwin UNEt TRansformers(Swin UNETR)と呼ばれる新しいセグメンテーションモデルを提案する。
このモデルは、シフトしたウィンドウを利用して、5つの異なる解像度で特徴を抽出し、自己注意を演算する。
我々は、BraTS 2021セグメンテーションチャレンジに参加し、提案したモデルは、検証フェーズにおける最も優れたアプローチの1つである。
論文 参考訳(メタデータ) (2022-01-04T18:01:34Z) - Atrous Residual Interconnected Encoder to Attention Decoder Framework
for Vertebrae Segmentation via 3D Volumetric CT Images [1.8146155083014204]
本稿では,3次元容積CT画像を用いた新しい椎骨分割法を提案する。
提案モデルは,ミニバッチトレーニング性能の最適化にレイヤ正規化を用いた,エンコーダからデコーダへの構造に基づく。
実験の結果,本モデルは他の医学的意味セグメンテーション法と比較して競争力が得られた。
論文 参考訳(メタデータ) (2021-04-08T12:09:16Z) - UNETR: Transformers for 3D Medical Image Segmentation [8.59571749685388]
UNEt TRansformers(UNETR)と呼ばれる新しいアーキテクチャを導入し、純粋なトランスフォーマーをエンコーダとして入力ボリュームのシーケンス表現を学習します。
提案モデルの性能を様々なイメージング手法で広く検証しています。
論文 参考訳(メタデータ) (2021-03-18T20:17:15Z) - Medical Transformer: Gated Axial-Attention for Medical Image
Segmentation [73.98974074534497]
医用画像分割タスクにおけるトランスフォーマティブネットワークアーキテクチャの利用可能性について検討する。
セルフアテンションモジュールに追加の制御機構を導入することで,既存のアーキテクチャを拡張するGated Axial-Attentionモデルを提案する。
医療画像上で効果的にモデルを訓練するために,さらにパフォーマンスを向上させる局所的グローバルトレーニング戦略 (logo) を提案する。
論文 参考訳(メタデータ) (2021-02-21T18:35:14Z) - TransUNet: Transformers Make Strong Encoders for Medical Image
Segmentation [78.01570371790669]
医用画像のセグメンテーションは医療システムの開発に必須の前提条件である。
様々な医療画像セグメンテーションタスクにおいて、U-Netとして知られるu字型アーキテクチャがデファクトスタンダードとなっている。
医用画像セグメンテーションの強力な代替手段として,トランスフォーマーとU-Netの両方を有効活用するTransUNetを提案する。
論文 参考訳(メタデータ) (2021-02-08T16:10:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。