論文の概要: Large-Scale 3D Medical Image Pre-training with Geometric Context Priors
- arxiv url: http://arxiv.org/abs/2410.09890v1
- Date: Sun, 13 Oct 2024 15:59:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 04:23:08.560396
- Title: Large-Scale 3D Medical Image Pre-training with Geometric Context Priors
- Title(参考訳): 幾何学的文脈を用いた大規模3次元医用画像事前トレーニング
- Authors: Linshan Wu, Jiaxin Zhuang, Hao Chen,
- Abstract要約: アノテーションの不足は、医用画像解析において重要な課題となっている。
大規模事前学習は有望なラベル効率のソリューションとして登場した。
医療用事前トレーニングデータセットのPreCT-160Kについて紹介する。
- 参考スコア(独自算出の注目度): 6.365251751181189
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The scarcity of annotations poses a significant challenge in medical image analysis. Large-scale pre-training has emerged as a promising label-efficient solution, owing to the utilization of large-scale data, large models, and advanced pre-training techniques. However, its development in medical images remains underexplored. The primary challenge lies in harnessing large-scale unlabeled data and learning high-level semantics without annotations. We observe that 3D medical images exhibit consistent geometric context, i.e., consistent geometric relations between different organs, which leads to a promising way for learning consistent representations. Motivated by this, we introduce a simple-yet-effective Volume Contrast (VoCo) framework to leverage geometric context priors for self-supervision. Given an input volume, we extract base crops from different regions to construct positive and negative pairs for contrastive learning. Then we predict the contextual position of a random crop by contrasting its similarity to the base crops. In this way, VoCo encodes the inherent geometric context into model representations, facilitating high-level semantic learning without annotations. Specifically, we (1) introduce the largest medical pre-training dataset PreCT-160K; (2) investigate scaling laws and propose guidelines for tailoring different model sizes to various medical tasks; (3) build a benchmark encompassing 48 medical tasks. Extensive experiments highlight the superiority of VoCo. Codes at https://github.com/Luffy03/Large-Scale-Medical.
- Abstract(参考訳): アノテーションの不足は、医用画像解析において重要な課題となっている。
大規模事前学習は、大規模データ、大規模モデル、高度な事前学習技術の利用により、有望なラベル効率のソリューションとして登場した。
しかし、医用画像の発達は未解明のままである。
主な課題は、大規模にラベル付けされていないデータを活用することと、アノテーションなしで高度なセマンティクスを学ぶことである。
3次元の医用画像は、一貫した幾何学的文脈、すなわち、異なる臓器間の一貫した幾何学的関係を示すことが観察され、一貫した表現を学習するための有望な方法をもたらす。
これに触発された我々は,自己監督のための幾何学的文脈事前の活用を目的とした,単純なyet- Effective Volume Contrast (VoCo) フレームワークを導入する。
入力体積が与えられた場合、異なる領域から基本作物を抽出し、比較学習のための正と負のペアを構築する。
次に, 基本作物との類似性を対比することにより, ランダムな作物の文脈的位置を推定する。
このように、VoCoは固有の幾何学的コンテキストをモデル表現にエンコードし、アノテーションなしで高度な意味学習を容易にする。
具体的には,(1)最大の医療前トレーニングデータセットであるPreCT-160Kを導入し,(2)スケーリング法を調査し,異なるモデルサイズを様々な医療タスクに合わせるためのガイドラインを提案し,(3)48の医療タスクを含むベンチマークを構築した。
大規模な実験は、VoCoの優位性を強調している。
https://github.com/Luffy03/Large-Scale-Medical.com
関連論文リスト
- LoGra-Med: Long Context Multi-Graph Alignment for Medical Vision-Language Model [55.80651780294357]
最新の医療用マルチモーダル大規模言語モデル(med-MLLM)は、事前訓練において命令追従データを活用する。
LoGra-Medは新しいマルチグラフアライメントアルゴリズムで、画像のモダリティ、会話ベースの記述、拡張キャプション間でのトリプルト相関を強制する。
以上の結果から,LoGra-Medは医療用VQAの600K画像テキスト対に対してLAVA-Medと一致し,その10%でトレーニングした場合に有意に優れていた。
論文 参考訳(メタデータ) (2024-10-03T15:52:03Z) - Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。
特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。
また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文 参考訳(メタデータ) (2024-04-27T05:03:42Z) - MedContext: Learning Contextual Cues for Efficient Volumetric Medical Segmentation [25.74088298769155]
医用3次元セグメンテーションのためのユニバーサルトレーニングフレームワークMedContextを提案する。
本手法は,教師付きボクセルセグメンテーションタスクと協調して,自己教師付きコンテキストキューを効果的に学習する。
MedContextの有効性は、複数の3D医療データセットと4つの最先端モデルアーキテクチャで検証されている。
論文 参考訳(メタデータ) (2024-02-27T17:58:05Z) - Promise:Prompt-driven 3D Medical Image Segmentation Using Pretrained
Image Foundation Models [13.08275555017179]
単点プロンプトのみを用いたプロンプト駆動型3次元医用画像分割モデルProMISeを提案する。
今回,大腸癌と膵腫瘍の2つの領域に分布する2つのパブリックデータセットについて検討した。
論文 参考訳(メタデータ) (2023-10-30T16:49:03Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Mine yOur owN Anatomy: Revisiting Medical Image Segmentation with Extremely Limited Labels [54.58539616385138]
我々は、Mine yOur owN Anatomy (MONA) と呼ばれる、新しい半教師付き2次元医用画像セグメンテーションフレームワークを紹介する。
まず、先行研究では、すべてのピクセルがモデルトレーニングに等しく重要であると論じており、我々はこの1つだけで意味のある解剖学的特徴を定義できないことを経験的に観察している。
第2に,医療画像を解剖学的特徴の集合に分解できるモデルを構築する。
論文 参考訳(メタデータ) (2022-09-27T15:50:31Z) - One-shot Weakly-Supervised Segmentation in Medical Images [12.184590794655517]
ワンショットおよび弱教師付き設定による3次元医用画像セグメンテーションの革新的枠組みを提案する。
注釈付きボリュームからラベルなしの3D画像へスクリブルを投影するために,伝搬再構成ネットワークを提案する。
デュアルレベルの特徴記述モジュールは、解剖学的およびピクセルレベルの特徴に基づいて、スクリブルを洗練させるように設計されている。
論文 参考訳(メタデータ) (2021-11-21T09:14:13Z) - Fed-Sim: Federated Simulation for Medical Imaging [131.56325440976207]
本稿では、2つの学習可能なニューラルモジュールからなる物理駆動型生成手法を提案する。
データ合成フレームワークは、複数のデータセットの下流セグメンテーション性能を改善する。
論文 参考訳(メタデータ) (2020-09-01T19:17:46Z) - Shape-aware Semi-supervised 3D Semantic Segmentation for Medical Images [24.216869988183092]
本稿では,豊富なラベルのないデータを活用し,セグメント化出力に幾何学的形状制約を課す,形状認識型半教師付きセグメンテーション戦略を提案する。
物体表面のセマンティックセグメンテーションと符号付き距離マップDMを共同で予測するマルチタスクディープネットワークを開発した。
実験の結果,提案手法は形状推定を改良し,最先端の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-21T11:44:52Z) - Pathological Retinal Region Segmentation From OCT Images Using Geometric
Relation Based Augmentation [84.7571086566595]
本稿では,幾何学と形状の内在的関係を共同で符号化することで,従来のGANベースの医用画像合成法よりも優れた手法を提案する。
提案手法は,取得手順の異なる画像を有する公開RETOUCHデータセット上で,最先端のセグメンテーション手法より優れている。
論文 参考訳(メタデータ) (2020-03-31T11:50:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。