論文の概要: Pre-trained Universal Medical Image Transformer
- arxiv url: http://arxiv.org/abs/2312.07630v1
- Date: Tue, 12 Dec 2023 08:33:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-14 18:00:42.028866
- Title: Pre-trained Universal Medical Image Transformer
- Title(参考訳): トレーニング済みユニバーサル医用画像変換器
- Authors: Lingxiao Luo, Xuanzhong Chen, Bingda Tang, Xinsheng Chen, Chengpeng
Hu, Yujiang Li, Rong Han, Ting Chen
- Abstract要約: 視覚トークン再構成によるマスク付き画像モデリング(MIM)は,汎用コンピュータビジョン(CV)領域において有望な結果を示した。
入力画像のボクセル間隔に基づいて畳み込みパラメータを適応的に調整する空間適応畳み込み(SAC)モジュールを提案する。
我々は、幅広い医療画像を効果的に処理できるユニバーサル・ビジュアル・トークンーザとユニバーサル・ビジョン・トランスフォーマー(ViT)を構築した。
- 参考スコア(独自算出の注目度): 5.661631789478932
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervised learning has emerged as a viable method to leverage the
abundance of unlabeled medical imaging data, addressing the challenge of
labeled data scarcity in medical image analysis. In particular, masked image
modeling (MIM) with visual token reconstruction has shown promising results in
the general computer vision (CV) domain and serves as a candidate for medical
image analysis. However, the presence of heterogeneous 2D and 3D medical images
often limits the volume and diversity of training data that can be effectively
used for a single model structure. In this work, we propose a spatially
adaptive convolution (SAC) module, which adaptively adjusts convolution
parameters based on the voxel spacing of the input images. Employing this SAC
module, we build a universal visual tokenizer and a universal Vision
Transformer (ViT) capable of effectively processing a wide range of medical
images with various imaging modalities and spatial properties. Moreover, in
order to enhance the robustness of the visual tokenizer's reconstruction
objective for MIM, we suggest to generalize the discrete token output of the
visual tokenizer to a probabilistic soft token. We show that the generalized
soft token representation can be effectively integrated with the prior
distribution regularization through a constructive interpretation. As a result,
we pre-train a universal visual tokenizer followed by a universal ViT via
visual token reconstruction on 55 public medical image datasets, comprising
over 9 million 2D slices (including over 48,000 3D images). This represents the
largest, most comprehensive, and diverse dataset for pre-training 3D medical
image models to our knowledge. Experimental results on downstream medical image
classification and segmentation tasks demonstrate the superior performance of
our model and improved label efficiency.
- Abstract(参考訳): 自己教師付き学習は,医療画像解析におけるラベル付きデータ不足の課題に対処するために,ラベル付き医療画像データの豊富さを活用するための有効な方法として登場した。
特に、視覚トークン再構成を伴うマスク画像モデリング(mim)は、一般コンピュータビジョン(cv)領域において有望な結果を示し、医用画像解析の候補となっている。
しかし、異種な2dおよび3d医療画像の存在は、単一のモデル構造に効果的に使用できるトレーニングデータの量と多様性を制限することが多い。
本研究では,入力画像のボクセル間隔に基づいて畳み込みパラメータを適応的に調整する空間適応畳み込み(sac)モジュールを提案する。
このSACモジュールを用いることで、様々な画像モダリティと空間特性を用いて、幅広い医療画像を効果的に処理できるユニバーサルビジュアルトークンライザとユニバーサルビジョントランスフォーマー(ViT)を構築する。
さらに、MIMに対する視覚トークン化者の再構成目標の堅牢性を高めるため、視覚トークン化者の離散トークン出力を確率的ソフトトークンに一般化することを提案する。
一般化されたソフトトークン表現は, 構成的解釈により, 事前分布正規化と効果的に統合できることを示す。
その結果、55の公開医用画像データセットで、900万枚以上の2Dスライス(48,000枚以上の3D画像を含む)からなる視覚トークン再構成により、ユニバーサルな視覚トークン化装置を事前訓練した。
これは、私たちの知識に3D医療画像モデルを事前訓練するための、最大で、最も包括的で多様なデータセットである。
下流の医用画像分類とセグメンテーションタスクの実験結果から, モデルの性能が向上し, ラベル効率が向上した。
関連論文リスト
- Universal Medical Imaging Model for Domain Generalization with Data Privacy [2.8727695958743364]
本稿では,複数の局所モデルからグローバルモデルへ知識を伝達するフェデレート学習手法を提案する。
主な目的は、幅広い医療画像タスクを実行できるグローバルモデルを訓練することである。
論文 参考訳(メタデータ) (2024-07-20T01:24:15Z) - Boosting Medical Image Segmentation Performance with Adaptive Convolution Layer [6.887244952811574]
UCTransNetのような先進的なディープラーニングモデルに先立つ適応層を提案する。
我々のアプローチは、多様な解剖学的構造と微妙な画像の詳細を扱うネットワークの能力を高める。
従来のCNNよりも、同じ数のパラメータで固定されたカーネルサイズで一貫してパフォーマンスが向上している。
論文 参考訳(メタデータ) (2024-04-17T13:18:39Z) - Generative Medical Segmentation [5.4613210257624605]
生成医療 (Generative Medical, GMS) は、生成モデルを利用して画像セグメンテーションを行う新しいアプローチである。
GMSは、画像とそれに対応する接地真実マスクの潜在表現を抽出するために、頑健な事前訓練された視覚基盤モデルを採用している。
GMSの設計により、モデルのトレーニング可能なパラメータが少なくなり、オーバーフィットのリスクが軽減され、その能力が向上する。
論文 参考訳(メタデータ) (2024-03-27T02:16:04Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Learnable Weight Initialization for Volumetric Medical Image Segmentation [66.3030435676252]
本稿では,学習可能な重みに基づくハイブリッド医療画像セグメンテーション手法を提案する。
我々のアプローチはどんなハイブリッドモデルにも簡単に統合でき、外部のトレーニングデータを必要としない。
多臓器・肺がんセグメンテーションタスクの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2023-06-15T17:55:05Z) - AMIGO: Sparse Multi-Modal Graph Transformer with Shared-Context
Processing for Representation Learning of Giga-pixel Images [53.29794593104923]
本稿では,スライド病理像全体に対する共有コンテキスト処理の新たな概念を提案する。
AMIGOは、組織内のセルラーグラフを使用して、患者に単一の表現を提供する。
我々のモデルは、データの20%以下で同じ性能を達成できる程度に、欠落した情報に対して強い堅牢性を示す。
論文 参考訳(メタデータ) (2023-03-01T23:37:45Z) - Enhancing MR Image Segmentation with Realistic Adversarial Data
Augmentation [17.539828821476224]
本稿では,学習データの利用効率を向上させるために,逆データ拡張手法を提案する。
本稿では,データ拡張モデルとセグメンテーションネットワークを協調的に最適化する汎用的なタスク駆動学習フレームワークを提案する。
提案した逆データ拡張は生成ネットワークに依存しず,汎用セグメンテーションネットワークのプラグインモジュールとして使用できる。
論文 参考訳(メタデータ) (2021-08-07T11:32:37Z) - Medical Transformer: Gated Axial-Attention for Medical Image
Segmentation [73.98974074534497]
医用画像分割タスクにおけるトランスフォーマティブネットワークアーキテクチャの利用可能性について検討する。
セルフアテンションモジュールに追加の制御機構を導入することで,既存のアーキテクチャを拡張するGated Axial-Attentionモデルを提案する。
医療画像上で効果的にモデルを訓練するために,さらにパフォーマンスを向上させる局所的グローバルトレーニング戦略 (logo) を提案する。
論文 参考訳(メタデータ) (2021-02-21T18:35:14Z) - DoFE: Domain-oriented Feature Embedding for Generalizable Fundus Image
Segmentation on Unseen Datasets [96.92018649136217]
対象ドメインに対するCNNの一般化能力を向上させるために,新しいドメイン指向特徴埋め込み(DoFE)フレームワークを提案する。
私たちのDoFEフレームワークは、マルチソースドメインから学んだ追加のドメイン事前知識で、画像機能を動的に強化します。
本フレームワークは、未確認データセットのセグメンテーション結果を満足して生成し、他の領域の一般化やネットワークの正規化手法を超越する。
論文 参考訳(メタデータ) (2020-10-13T07:28:39Z) - Realistic Adversarial Data Augmentation for MR Image Segmentation [17.951034264146138]
医用画像セグメンテーションのためのニューラルネットワークのトレーニングのための逆データ拡張手法を提案する。
このモデルでは,MR画像における共通の種類のアーチファクトによって生じる強度不均一性,すなわちバイアス場をモデル化する。
このような手法により,モデルの一般化と堅牢性の向上が図られ,低データシナリオにおける大幅な改善が期待できる。
論文 参考訳(メタデータ) (2020-06-23T20:43:18Z) - Pathological Retinal Region Segmentation From OCT Images Using Geometric
Relation Based Augmentation [84.7571086566595]
本稿では,幾何学と形状の内在的関係を共同で符号化することで,従来のGANベースの医用画像合成法よりも優れた手法を提案する。
提案手法は,取得手順の異なる画像を有する公開RETOUCHデータセット上で,最先端のセグメンテーション手法より優れている。
論文 参考訳(メタデータ) (2020-03-31T11:50:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。