論文の概要: Unified 2D and 3D Pre-training for Medical Image classification and
Segmentation
- arxiv url: http://arxiv.org/abs/2112.09356v1
- Date: Fri, 17 Dec 2021 07:27:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-20 16:04:58.156155
- Title: Unified 2D and 3D Pre-training for Medical Image classification and
Segmentation
- Title(参考訳): 医用画像分類とセグメンテーションのための統一2次元および3次元事前訓練
- Authors: Yutong Xie, Jianpeng Zhang, Yong Xia, Qi Wu
- Abstract要約: 学生-教師パラダイムに基づくユニバーサル・セルフ・スーパーバイザ・トランスフォーマ(USST)フレームワークを提案する。
USSTは、多次元の膨大なラベルのない医療データを活用して、豊かな表現を学ぶことを目的としている。
6つの2D/3D医療画像分類とセグメンテーションタスクに関する有望な結果を提供する。
- 参考スコア(独自算出の注目度): 40.01443481859121
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Self-supervised learning (SSL) opens up huge opportunities for better
utilizing unlabeled data. It is essential for medical image analysis that is
generally known for its lack of annotations. However, when we attempt to use as
many as possible unlabeled medical images in SSL, breaking the dimension
barrier (\ie, making it possible to jointly use both 2D and 3D images) becomes
a must. In this paper, we propose a Universal Self-Supervised Transformer
(USST) framework based on the student-teacher paradigm, aiming to leverage a
huge of unlabeled medical data with multiple dimensions to learn rich
representations. To achieve this, we design a Pyramid Transformer U-Net (PTU)
as the backbone, which is composed of switchable patch embedding (SPE) layers
and Transformer layers. The SPE layer switches to either 2D or 3D patch
embedding depending on the input dimension. After that, the images are
converted to a sequence regardless of their original dimensions. The
Transformer layer then models the long-term dependencies in a
sequence-to-sequence manner, thus enabling USST to learn representations from
both 2D and 3D images. USST has two obvious merits compared to current
dimension-specific SSL: (1) \textbf{more effective} - can learn representations
from more and diverse data; and (2) \textbf{more versatile} - can be
transferred to various downstream tasks. The results show that USST provides
promising results on six 2D/3D medical image classification and segmentation
tasks, outperforming the supervised ImageNet pre-training and advanced SSL
counterparts substantially.
- Abstract(参考訳): 自己教師付き学習(SSL)は、ラベルのないデータを活用するための大きな機会を開く。
アノテーションの欠如で一般的に知られている医用画像解析には不可欠である。
しかし、SSLで可能な限り多くの未ラベルの医療画像を利用しようとすると、次元障壁を破り(2D画像と3D画像の両方を共同で使用できるようにするため)、必須となる。
本稿では,多次元のラベルのない膨大な医療データを活用し,リッチ表現を学習することを目的とした,学生・教師パラダイムに基づくusst(universal self-supervised transformer)フレームワークを提案する。
これを実現するために我々は,切替可能なパッチ埋め込み(spe)層とトランスフォーマー層からなるバックボーンとしてピラミッドトランスフォーマーu-net(ptu)を設計した。
SPE層は入力寸法に応じて2Dまたは3Dパッチの埋め込みに切り替える。
その後、画像は元の寸法に関係なくシーケンスに変換される。
Transformer層は、シーケンス・ツー・シーケンス方式で長期依存関係をモデル化し、USSTが2D画像と3D画像の両方から表現を学習できるようにする。
1) \textbf{more effective} - より多様なデータから表現を学習でき、(2) \textbf{more versatile} - 様々な下流タスクに転送できる。
その結果、USSTは、6つの2D/3D医療画像分類とセグメンテーションタスクに対して有望な結果をもたらし、教師付きImageNet事前学習と高度なSSL処理を著しく上回った。
関連論文リスト
- Cross-Dimensional Medical Self-Supervised Representation Learning Based on a Pseudo-3D Transformation [68.60747298865394]
擬似3D変換(CDSSL-P3D)に基づく新しい三次元SSLフレームワークを提案する。
具体的には、2D画像を3Dデータに整合したフォーマットに変換するim2colアルゴリズムに基づく画像変換を提案する。
この変換は2次元および3次元データのシームレスな統合を可能にし、3次元医用画像解析のための相互教師あり学習を容易にする。
論文 参考訳(メタデータ) (2024-06-03T02:57:25Z) - Med3DInsight: Enhancing 3D Medical Image Understanding with 2D
Multi-Modal Large Language Models [1.64647940449869]
既存の3D畳み込みとトランスフォーマーベースの手法は、画像ボリュームのセマンティックな理解が限られている。
既存の3D画像エンコーダを2D MLLMでマージし,PSAT(Plane-Slice-Aware Transformer)モジュールを介してブリッジするMed3DInsightを提案する。
論文 参考訳(メタデータ) (2024-03-08T08:15:53Z) - Promise:Prompt-driven 3D Medical Image Segmentation Using Pretrained
Image Foundation Models [13.08275555017179]
単点プロンプトのみを用いたプロンプト駆動型3次元医用画像分割モデルProMISeを提案する。
今回,大腸癌と膵腫瘍の2つの領域に分布する2つのパブリックデータセットについて検討した。
論文 参考訳(メタデータ) (2023-10-30T16:49:03Z) - Multi-View Vertebra Localization and Identification from CT Images [57.56509107412658]
我々は,CT画像からの多視点椎体局在と同定を提案する。
本研究では,3次元問題を異なる視点における2次元局所化および識別タスクに変換する。
本手法は,多視点グローバル情報を自然に学習することができる。
論文 参考訳(メタデータ) (2023-07-24T14:43:07Z) - M$^{2}$SNet: Multi-scale in Multi-scale Subtraction Network for Medical
Image Segmentation [73.10707675345253]
医用画像から多様なセグメンテーションを仕上げるマルチスケールサブトラクションネットワーク(M$2$SNet)を提案する。
本手法は,4つの異なる医用画像セグメンテーションタスクの11つのデータセットに対して,異なる評価基準の下で,ほとんどの最先端手法に対して好意的に機能する。
論文 参考訳(メタデータ) (2023-03-20T06:26:49Z) - PCRLv2: A Unified Visual Information Preservation Framework for
Self-supervised Pre-training in Medical Image Analysis [56.63327669853693]
本稿では,ピクセルレベルの情報を高レベルなセマンティクスに明示的にエンコードするための画素復元タスクを提案する。
また,画像理解を支援する強力なツールであるスケール情報の保存についても検討する。
提案されている統合SSLフレームワークは、さまざまなタスクで自己管理されたフレームワークを超越している。
論文 参考訳(メタデータ) (2023-01-02T17:47:27Z) - Joint Self-Supervised Image-Volume Representation Learning with
Intra-Inter Contrastive Clustering [31.52291149830299]
自己教師付き学習は、ラベル付きデータから特徴表現を学習することで、ラベル付きトレーニングサンプルの欠如を克服することができる。
現在の医療分野におけるSSL技術のほとんどは、2D画像または3Dボリュームのために設計されている。
本研究では2次元および3次元データモダリティの教師なし共同学習のための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-04T18:57:44Z) - Two-Stream Graph Convolutional Network for Intra-oral Scanner Image
Segmentation [133.02190910009384]
本稿では,2ストリームグラフ畳み込みネットワーク(TSGCN)を提案する。
TSGCNは3次元歯(表面)セグメンテーションにおいて最先端の方法よりも優れています。
論文 参考訳(メタデータ) (2022-04-19T10:41:09Z) - Uni4Eye: Unified 2D and 3D Self-supervised Pre-training via Masked Image
Modeling Transformer for Ophthalmic Image Classification [1.2250035750661867]
眼科画像に埋め込まれた領域固有の特徴を捉えるために,Uni4Eyeという,汎用的な自己教師型トランスフォーマーフレームワークを提案する。
Uni4Eyeはグローバルな機能抽出器として機能し、ビジョントランスフォーマーアーキテクチャを備えたMasked Image Modelingタスクに基づいてベースを構築することができる。
We use a Unified Patch Embedding module to replaced the origin patch embedded module in ViT for jointly processing both 2D and 3D input images。
論文 参考訳(メタデータ) (2022-03-09T10:02:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。