論文の概要: SwinMM: Masked Multi-view with Swin Transformers for 3D Medical Image
Segmentation
- arxiv url: http://arxiv.org/abs/2307.12591v1
- Date: Mon, 24 Jul 2023 08:06:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-25 15:12:21.593010
- Title: SwinMM: Masked Multi-view with Swin Transformers for 3D Medical Image
Segmentation
- Title(参考訳): SwinMM:3次元医用画像セグメンテーションのためのスウィントランスフォーマーを用いたマルチビュー
- Authors: Yiqing Wang, Zihan Li, Jieru Mei, Zihao Wei, Li Liu, Chen Wang,
Shengtian Sang, Alan Yuille, Cihang Xie, Yuyin Zhou
- Abstract要約: 医用画像解析のための新しいマルチビューパイプラインであるSwin Transformers (SwinMM) を用いたMasked Multi-viewを提案する。
トレーニング前段階では,マスク付きマルチビュー観測を同時にトレーニングするために考案されたマスク付きマルチビューエンコーダをデプロイする。
新しいタスクは、様々な視点から予測間の一貫性を活かし、隠れた多視点情報の抽出を可能にする。
- 参考スコア(独自算出の注目度): 32.092182889440814
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in large-scale Vision Transformers have made significant
strides in improving pre-trained models for medical image segmentation.
However, these methods face a notable challenge in acquiring a substantial
amount of pre-training data, particularly within the medical field. To address
this limitation, we present Masked Multi-view with Swin Transformers (SwinMM),
a novel multi-view pipeline for enabling accurate and data-efficient
self-supervised medical image analysis. Our strategy harnesses the potential of
multi-view information by incorporating two principal components. In the
pre-training phase, we deploy a masked multi-view encoder devised to
concurrently train masked multi-view observations through a range of diverse
proxy tasks. These tasks span image reconstruction, rotation, contrastive
learning, and a novel task that employs a mutual learning paradigm. This new
task capitalizes on the consistency between predictions from various
perspectives, enabling the extraction of hidden multi-view information from 3D
medical data. In the fine-tuning stage, a cross-view decoder is developed to
aggregate the multi-view information through a cross-attention block. Compared
with the previous state-of-the-art self-supervised learning method Swin UNETR,
SwinMM demonstrates a notable advantage on several medical image segmentation
tasks. It allows for a smooth integration of multi-view information,
significantly boosting both the accuracy and data-efficiency of the model. Code
and models are available at https://github.com/UCSC-VLAA/SwinMM/.
- Abstract(参考訳): 近年の大規模視覚変換器の進歩は, 医用画像分割のための訓練済みモデルの改善に大きく貢献している。
しかし、これらの手法は、特に医療分野において、かなりの量の事前学習データを取得する上で、顕著な課題に直面している。
そこで本研究では,swinトランスフォーマ(swinmm)を用いたマスク型マルチビューシステムを提案する。
我々の戦略は2つの主成分を組み込むことで多視点情報の可能性を活用する。
プレトレーニングフェーズでは,マスク付きマルチビューエンコーダを,さまざまなプロキシタスクを通じて,マスク付きマルチビュー観察を同時にトレーニングするように考案した。
これらのタスクは、画像再構成、回転、コントラスト学習、そして相互学習パラダイムを用いた新しいタスクにまたがる。
このタスクは,様々な観点からの予測の整合性に着目し,医用データから隠れた多視点情報の抽出を可能にする。
微調整段階では、クロスビューデコーダを開発し、クロスアテンションブロックを介してマルチビュー情報を集約する。
従来の最先端の自己教師型学習手法であるSwin UNETRと比較して、SwinMMはいくつかの医療画像セグメンテーションタスクにおいて顕著な優位性を示している。
マルチビュー情報のスムーズな統合を可能にし、モデルの正確性とデータ効率の両方を大幅に向上させる。
コードとモデルはhttps://github.com/UCSC-VLAA/SwinMM/で入手できる。
関連論文リスト
- MOSMOS: Multi-organ segmentation facilitated by medical report supervision [10.396987980136602]
マルチオーガンスーパービジョン(MOS)のための新しい事前学習・微調整フレームワークを提案する。
具体的には、まず、トレーニング前の段階で、医用画像とレポートのペアを合わせるために、グローバルコントラスト学習を導入する。
さらに,画像画素と臓器タグ間の意味的対応を暗黙的に学習するために,マルチラベル認識を活用する。
論文 参考訳(メタデータ) (2024-09-04T03:46:17Z) - MiM: Mask in Mask Self-Supervised Pre-Training for 3D Medical Image Analysis [9.472502717128556]
Masked AutoEncoder (MAE) for feature pre-trainingは、様々な医療ビジョンタスクにViTの可能性を解き放つことができる。
本研究では,3次元医用画像の事前学習フレームワークであるMask in Mask(MiM)を提案する。
論文 参考訳(メタデータ) (2024-04-24T01:14:33Z) - Enhancing Weakly Supervised 3D Medical Image Segmentation through
Probabilistic-aware Learning [52.249748801637196]
3次元医用画像のセグメンテーションは、疾患の診断と治療計画に重要な意味を持つ課題である。
近年の深層学習の進歩は、完全に教師付き医療画像のセグメンテーションを著しく強化している。
本稿では,3次元医用画像に特化して設計された,確率的適応型弱教師付き学習パイプラインを提案する。
論文 参考訳(メタデータ) (2024-03-05T00:46:53Z) - MV-Swin-T: Mammogram Classification with Multi-view Swin Transformer [0.257133335028485]
マンモグラフィ画像分類における課題に対処するために,トランスフォーマーに基づく革新的なマルチビューネットワークを提案する。
提案手法では,ウィンドウベースの動的アテンションブロックを導入し,マルチビュー情報の効果的な統合を容易にする。
論文 参考訳(メタデータ) (2024-02-26T04:41:04Z) - Joint Depth Prediction and Semantic Segmentation with Multi-View SAM [59.99496827912684]
我々は,Segment Anything Model(SAM)のリッチなセマンティック特徴を利用した深度予測のためのマルチビューステレオ(MVS)手法を提案する。
この拡張深度予測は、Transformerベースのセマンティックセグメンテーションデコーダのプロンプトとして役立ちます。
論文 参考訳(メタデータ) (2023-10-31T20:15:40Z) - Disruptive Autoencoders: Leveraging Low-level features for 3D Medical
Image Pre-training [51.16994853817024]
本研究は、3Dラジオグラフィ画像のための効果的な事前学習フレームワークの設計に焦点をあてる。
ローカルマスキングと低レベルの摂動の組み合わせによって生成された破壊から、オリジナルのイメージを再構築しようとする事前トレーニングフレームワークであるDisruptive Autoencodersを紹介する。
提案する事前トレーニングフレームワークは、複数のダウンストリームタスクでテストされ、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-07-31T17:59:42Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - MvCo-DoT:Multi-View Contrastive Domain Transfer Network for Medical
Report Generation [42.804058630251305]
本稿では,MvCo-DoTと呼ばれるマルチビュー医療レポート生成モデルを提案する。
MvCo-DoTはまず,多視点入力の整合性を利用する深層強化学習モデルを支援するために,多視点コントラスト学習(MvCo)戦略を提案する。
IU X-Rayの公開データセットに対する大規模な実験により、MvCo-DoTはすべての指標においてSOTAの医療レポート生成ベースラインを上回っていることが示された。
論文 参考訳(メタデータ) (2023-04-15T03:42:26Z) - Multi-Modal Masked Autoencoders for Medical Vision-and-Language
Pre-Training [62.215025958347105]
マルチモーダルマスク付きオートエンコーダを用いた自己教師型学習パラダイムを提案する。
我々は、ランダムにマスキングされた画像やテキストから欠落したピクセルやトークンを再構成することで、クロスモーダルなドメイン知識を学習する。
論文 参考訳(メタデータ) (2022-09-15T07:26:43Z) - Multimodal Masked Autoencoders Learn Transferable Representations [127.35955819874063]
単純でスケーラブルなネットワークアーキテクチャであるM3AE(Multimodal Masked Autoencoder)を提案する。
M3AEは、マスク付きトークン予測により、視覚と言語データの両方の統一エンコーダを学習する。
我々は,大規模な画像テキストデータセット上で訓練されたM3AEについて実証的研究を行い,M3AEが下流タスクによく伝達される一般化可能な表現を学習できることを見出した。
論文 参考訳(メタデータ) (2022-05-27T19:09:42Z) - UNetFormer: A Unified Vision Transformer Model and Pre-Training
Framework for 3D Medical Image Segmentation [14.873473285148853]
UNetFormerと呼ばれる2つのアーキテクチャで構成され,3D Swin TransformerベースのエンコーダとConal Neural Network(CNN)とTransformerベースのデコーダを備えている。
提案モデルでは, 5つの異なる解像度でのスキップ接続により, エンコーダをデコーダにリンクする。
本稿では,ランダムにマスクされたトークンを予測する学習を通じて,エンコーダバックボーンの自己教師付き事前学習手法を提案する。
論文 参考訳(メタデータ) (2022-04-01T17:38:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。