論文の概要: Self-Supervised Pre-Training of Swin Transformers for 3D Medical Image
Analysis
- arxiv url: http://arxiv.org/abs/2111.14791v1
- Date: Mon, 29 Nov 2021 18:45:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-30 14:56:57.320745
- Title: Self-Supervised Pre-Training of Swin Transformers for 3D Medical Image
Analysis
- Title(参考訳): 3次元医用画像解析のためのスイム変圧器の自己監督前訓練
- Authors: Yucheng Tang, Dong Yang, Wenqi Li, Holger Roth, Bennett Landman,
Daguang Xu, Vishwesh Nath and Ali Hatamizadeh
- Abstract要約: 医用画像解析のためのプロキシタスクを調整した,新たな自己教師型学習フレームワークを提案する。
5,050個のCT画像に対して,提案手法の事前学習を成功させた。
私たちのモデルは現在、MSDとBTCV両方のデータセットの公開テストリーダーボードで最先端(すなわち第1位)です。
- 参考スコア(独自算出の注目度): 7.214195462426705
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Vision Transformers (ViT)s have shown great performance in self-supervised
learning of global and local representations that can be transferred to
downstream applications. Inspired by these results, we introduce a novel
self-supervised learning framework with tailored proxy tasks for medical image
analysis. Specifically, we propose: (i) a new 3D transformer-based model,
dubbed Swin UNEt TRansformers (Swin UNETR), with a hierarchical encoder for
self-supervised pre-training; (ii) tailored proxy tasks for learning the
underlying pattern of human anatomy. We demonstrate successful pre-training of
the proposed model on 5,050 publicly available computed tomography (CT) images
from various body organs. The effectiveness of our approach is validated by
fine-tuning the pre-trained models on the Beyond the Cranial Vault (BTCV)
Segmentation Challenge with 13 abdominal organs and segmentation tasks from the
Medical Segmentation Decathlon (MSD) dataset. Our model is currently the
state-of-the-art (i.e. ranked 1st) on the public test leaderboards of both MSD
and BTCV datasets. Code: https://monai.io/research/swin-unetr
- Abstract(参考訳): 視覚変換器(ViT)は、下流アプリケーションに転送可能なグローバルおよびローカル表現の自己教師型学習において、優れた性能を示している。
これらの結果に触発されて,医療画像解析のためのプロキシタスクをカスタマイズした自己教師付き学習フレームワークを提案する。
具体的には 提案します
(i)自己教師付き事前学習のための階層エンコーダを備えたswain unet transformers(swin unetr)と呼ばれる新しい3dトランスフォーマモデル
(ii)ヒト解剖学の基盤となるパターンを学ぶための調整されたプロキシタスク。
様々な臓器から5,050個のct画像に対して,提案モデルの事前学習が成功していることを示す。
本手法の有効性は,13の腹部臓器とMSDデータセットからのセグメンテーションタスクを用いたBTCV(Beyond the Cranial Vault)セグメンテーションチャレンジにおいて,トレーニング済みモデルの微調整により検証した。
私たちのモデルは現在、MSDとBTCV両方のデータセットの公開テストリーダーボードで最先端(すなわち第1位)です。
コード: https://monai.io/research/swin-unetr
関連論文リスト
- Self Pre-training with Topology- and Spatiality-aware Masked Autoencoders for 3D Medical Image Segmentation [16.753957522664713]
Masked Autoencoders (MAEs) は、自然および医学的な画像解析問題に対する事前訓練型ビジョントランスフォーマー (ViTs) に有効であることが示されている。
既存のMAE事前学習手法は、ViTアーキテクチャで特別に開発されたが、幾何学的形状や空間情報をキャプチャする能力は欠けていた。
本稿では,3次元医用画像セグメンテーションのための自己事前トレーニング(すなわち,同じターゲットデータセット上で事前トレーニングされたモデル)のための既知のMAEの新たな拡張を提案する。
論文 参考訳(メタデータ) (2024-06-15T06:15:17Z) - Video and Synthetic MRI Pre-training of 3D Vision Architectures for
Neuroimage Analysis [3.208731414009847]
トランスファーラーニングは、特定のタスクに適応するために、大規模なデータコーパスでディープラーニングモデルを事前訓練することを含む。
視覚変換器 (ViTs) と畳み込みニューラルネットワーク (CNNs) のベンチマークを行った。
得られた事前訓練されたモデルは、ターゲットタスクのトレーニングデータが制限されている場合でも、さまざまな下流タスクに適応することができる。
論文 参考訳(メタデータ) (2023-09-09T00:33:23Z) - Disruptive Autoencoders: Leveraging Low-level features for 3D Medical
Image Pre-training [51.16994853817024]
本研究は、3Dラジオグラフィ画像のための効果的な事前学習フレームワークの設計に焦点をあてる。
ローカルマスキングと低レベルの摂動の組み合わせによって生成された破壊から、オリジナルのイメージを再構築しようとする事前トレーニングフレームワークであるDisruptive Autoencodersを紹介する。
提案する事前トレーニングフレームワークは、複数のダウンストリームタスクでテストされ、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-07-31T17:59:42Z) - MIS-FM: 3D Medical Image Segmentation using Foundation Models Pretrained
on a Large-Scale Unannotated Dataset [14.823114726604853]
本稿では,3次元セグメンテーションモデルを事前学習するための,VF(Volume Fusion)と呼ばれる新たな自己教師型学習戦略を提案する。
VFは、手動のアノテーションなしで自己教師付きセグメンテーションタスクとして定式化される各ボクセルの融合係数を予測するようモデルを強制する。
頭部, 頸部臓器, 胸部, 腹部臓器など, 下流領域の異なる部位を対象とする実験により, 我々の事前訓練モデルがスクラッチからトレーニングに優れていたことが判明した。
論文 参考訳(メタデータ) (2023-06-29T13:22:13Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Customizing General-Purpose Foundation Models for Medical Report
Generation [64.31265734687182]
ラベル付き医用画像-レポートペアの不足は、ディープニューラルネットワークや大規模ニューラルネットワークの開発において大きな課題となっている。
本稿では,コンピュータビジョンと自然言語処理の基盤モデル (FM) として,市販の汎用大規模事前学習モデルのカスタマイズを提案する。
論文 参考訳(メタデータ) (2023-06-09T03:02:36Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - UNetFormer: A Unified Vision Transformer Model and Pre-Training
Framework for 3D Medical Image Segmentation [14.873473285148853]
UNetFormerと呼ばれる2つのアーキテクチャで構成され,3D Swin TransformerベースのエンコーダとConal Neural Network(CNN)とTransformerベースのデコーダを備えている。
提案モデルでは, 5つの異なる解像度でのスキップ接続により, エンコーダをデコーダにリンクする。
本稿では,ランダムにマスクされたトークンを予測する学習を通じて,エンコーダバックボーンの自己教師付き事前学習手法を提案する。
論文 参考訳(メタデータ) (2022-04-01T17:38:39Z) - Medical Transformer: Universal Brain Encoder for 3D MRI Analysis [1.6287500717172143]
既存の3Dベースの手法は、トレーニング済みのモデルを下流のタスクに転送している。
彼らは3D医療イメージングのためのモデルを訓練するために大量のパラメータを要求します。
本稿では,2次元画像スライス形式で3次元容積画像を効果的にモデル化する,メディカルトランスフォーマーと呼ばれる新しい伝達学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-28T08:34:21Z) - A Multi-Stage Attentive Transfer Learning Framework for Improving
COVID-19 Diagnosis [49.3704402041314]
新型コロナの診断を改善するための多段階集中移動学習フレームワークを提案する。
提案するフレームワークは、複数のソースタスクと異なるドメインのデータから知識を学習し、正確な診断モデルを訓練する3つの段階からなる。
本稿では,肺CT画像のマルチスケール表現を学習するための自己教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-01-14T01:39:19Z) - Modelling the Distribution of 3D Brain MRI using a 2D Slice VAE [66.63629641650572]
本研究では,2次元スライスVAEとガウスモデルを組み合わせた3次元MR脳の体積分布をモデル化する手法を提案する。
また,本研究では,脳解剖学に適合するセグメンテーションの精度を定量的に評価する新たなボリューム評価手法を提案する。
論文 参考訳(メタデータ) (2020-07-09T13:23:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。