論文の概要: Multi-modal Vision Pre-training for Medical Image Analysis
- arxiv url: http://arxiv.org/abs/2410.10604v2
- Date: Fri, 14 Mar 2025 14:32:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 22:04:28.908272
- Title: Multi-modal Vision Pre-training for Medical Image Analysis
- Title(参考訳): 医用画像解析のためのマルチモーダルビジョン事前トレーニング
- Authors: Shaohao Rui, Lingzhi Chen, Zhenyu Tang, Lilong Wang, Mianxin Liu, Shaoting Zhang, Xiaosong Wang,
- Abstract要約: 自己教師型学習は、実世界のアプリケーションに対するトレーニングデータ要求を抑えることにより、医療画像解析を大いに促進してきた。
我々は,3つの代用タスクによる新しいマルチモーダル画像事前学習を行い,相互モダリティ表現と相関の学習を容易にする。
Dice Scoreは6つのセグメンテーションベンチマークで0.28%-14.47%改善し、4つの画像分類タスクで0.65%-18.07%向上した。
- 参考スコア(独自算出の注目度): 11.569448567735435
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised learning has greatly facilitated medical image analysis by suppressing the training data requirement for real-world applications. Current paradigms predominantly rely on self-supervision within uni-modal image data, thereby neglecting the inter-modal correlations essential for effective learning of cross-modal image representations. This limitation is particularly significant for naturally grouped multi-modal data, e.g., multi-parametric MRI scans for a patient undergoing various functional imaging protocols in the same study. To bridge this gap, we conduct a novel multi-modal image pre-training with three proxy tasks to facilitate the learning of cross-modality representations and correlations using multi-modal brain MRI scans (over 2.4 million images in 16,022 scans of 3,755 patients), i.e., cross-modal image reconstruction, modality-aware contrastive learning, and modality template distillation. To demonstrate the generalizability of our pre-trained model, we conduct extensive experiments on various benchmarks with ten downstream tasks. The superior performance of our method is reported in comparison to state-of-the-art pre-training methods, with Dice Score improvement of 0.28\%-14.47\% across six segmentation benchmarks and a consistent accuracy boost of 0.65\%-18.07\% in four individual image classification tasks.
- Abstract(参考訳): 自己教師型学習は、実世界のアプリケーションに対するトレーニングデータ要求を抑えることにより、医療画像解析を大いに促進してきた。
現在のパラダイムは、一様画像データの自己超越に大きく依存しているため、クロスモーダル画像表現の効果的な学習に不可欠なモーダル間相関は無視される。
この制限は、自然にグループ化されたマルチモーダルデータ、例えば、同じ研究で様々な機能的イメージングプロトコルを実行している患者に対するマルチパラメトリックMRIスキャンにおいて特に重要である。
このギャップを埋めるために、我々は、3つのプロキシタスクによる新しいマルチモーダル画像事前トレーニングを行い、マルチモーダル脳MRIスキャン(3,755人の16,022人のスキャンで240万枚以上の画像)、すなわち、クロスモーダル画像再構成、モーダル対応コントラスト学習、モダリティテンプレート蒸留を用いて、クロスモーダル表現と相関の学習を容易にする。
事前学習したモデルの一般化性を実証するために,10の下流タスクを伴う様々なベンチマークで広範な実験を行った。
Dice Score は6つのセグメンテーションベンチマークで 0.28 %-14.47 % 改善し、4つの画像分類タスクで 0.65 %-18.07 % の精度向上を実現した。
関連論文リスト
- ProVision: Programmatically Scaling Vision-centric Instruction Data for Multimodal Language Models [103.25208095165486]
既存のプラクティスは命令データを生成するために、強力だが高価な言語モデル(LLM)やマルチモーダル言語モデル(MLM)に依存している。
本稿では,シーングラフを画像のシンボル表現として利用し,視覚中心の命令データを体系的に合成するプログラムを提案する。
提案手法は,データ生成プロセスの解釈可能性と制御性を保証し,実際の精度を維持しながら効率よくスケールする。
論文 参考訳(メタデータ) (2024-12-09T21:44:02Z) - A Self-Supervised Model for Multi-modal Stroke Risk Prediction [0.1671198589006117]
脳卒中リスクの予測は、様々な臨床的に利用可能なデータモダリティを統合することで強化される複雑な課題である。
本研究では3次元脳画像、臨床データ、画像から得られる特徴を組み合わせて、発症前の脳卒中リスク予測を改善する自己教師型マルチモーダルフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-14T22:00:37Z) - Towards a vision foundation model for comprehensive assessment of Cardiac MRI [11.838157772803282]
心臓磁気共鳴画像(CMR)評価のための視覚基礎モデルを提案する。
CMRワークフローに典型的な9つの臨床的タスクについて、教師付き方法でモデルを微調整する。
すべてのタスクにおいて、ラベル付きデータセットサイズの範囲で、精度と堅牢性が改善されたことを実証する。
論文 参考訳(メタデータ) (2024-10-02T15:32:01Z) - Autoregressive Sequence Modeling for 3D Medical Image Representation [48.706230961589924]
本稿では, 自己回帰シーケンス事前学習フレームワークを用いて, 3次元医用画像表現を学習するための先駆的手法を提案する。
我々は,空間的,コントラスト的,意味的相関に基づく様々な3次元医用画像にアプローチし,トークンシーケンス内の相互接続された視覚トークンとして扱う。
論文 参考訳(メタデータ) (2024-09-13T10:19:10Z) - NeuroPictor: Refining fMRI-to-Image Reconstruction via Multi-individual Pretraining and Multi-level Modulation [55.51412454263856]
本稿では,fMRI信号を用いた拡散モデル生成過程を直接変調することを提案する。
様々な個人から約67,000 fMRI-imageペアのトレーニングを行うことで,fMRI-to-imageデコーディング能力に優れたモデルが得られた。
論文 参考訳(メタデータ) (2024-03-27T02:42:52Z) - Parkinson's Disease Classification Using Contrastive Graph Cross-View Learning with Multimodal Fusion of SPECT Images and Clinical Features [5.660131312162423]
パーキンソン病(PD)は世界中の何百万もの人に影響を与え、運動に影響を与えている。
以前の研究では、ディープラーニングをPD予測に利用し、主に医療画像に焦点を当て、データの基盤となる多様体構造を無視した。
本研究では,画像特徴と非画像特徴の両方を包含するマルチモーダルアプローチを提案し,PD分類にコントラッシブなクロスビューグラフ融合を利用する。
論文 参考訳(メタデータ) (2023-11-25T02:32:46Z) - fMRI-PTE: A Large-scale fMRI Pretrained Transformer Encoder for
Multi-Subject Brain Activity Decoding [54.17776744076334]
本稿では,fMRI事前学習のための革新的オートエンコーダであるfMRI-PTEを提案する。
我々のアプローチでは、fMRI信号を統合された2次元表現に変換し、次元の整合性を確保し、脳の活動パターンを保存する。
コントリビューションには、fMRI-PTEの導入、革新的なデータ変換、効率的なトレーニング、新しい学習戦略、そして我々のアプローチの普遍的な適用性が含まれる。
論文 参考訳(メタデータ) (2023-11-01T07:24:22Z) - MUSCLE: Multi-task Self-supervised Continual Learning to Pre-train Deep
Models for X-ray Images of Multiple Body Parts [63.30352394004674]
MUSCLE(Multi-task Self-super-vised Continual Learning)は、医用画像処理タスクのための、新しい自己教師付き事前学習パイプラインである。
MUSCLEは、複数の身体部分から収集したX線を集約して表現学習を行い、よく設計された連続学習手順を採用する。
肺炎分類,骨格異常分類,肺セグメンテーション,結核(TB)検出など,9つの実世界のX線データセットを用いてMUSCLEを評価する。
論文 参考訳(メタデータ) (2023-10-03T12:19:19Z) - Multi-modal Graph Neural Network for Early Diagnosis of Alzheimer's
Disease from sMRI and PET Scans [11.420077093805382]
我々は,非ユークリッド領域の問題に対処するためのグラフニューラルネットワーク(GNN)を提案する。
本研究では,sMRIやPET画像から脳ネットワークを生成可能であることを示す。
次に、各モーダルが独自のGNNの分岐を持つマルチモーダルGNNフレームワークを提案し、その多モーダルデータを組み合わせる手法を提案する。
論文 参考訳(メタデータ) (2023-07-31T02:04:05Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - GraVIS: Grouping Augmented Views from Independent Sources for
Dermatology Analysis [52.04899592688968]
皮膚科画像から自己教師付き特徴を学習するために特に最適化されたGraVISを提案する。
GraVISは、病変のセグメンテーションと疾患分類のタスクにおいて、転送学習と自己教師型学習を著しく上回っている。
論文 参考訳(メタデータ) (2023-01-11T11:38:37Z) - Uncertainty-Aware Multi-Parametric Magnetic Resonance Image Information
Fusion for 3D Object Segmentation [12.361668672097753]
拡張された3次元画像セグメンテーションのための情報を完全に活用するために,不確実性を考慮したマルチパラメトリックMR画像特徴融合法を提案する。
提案手法は,既存モデルと比較してセグメンテーション性能が向上する。
論文 参考訳(メタデータ) (2022-11-16T09:16:52Z) - DIGEST: Deeply supervIsed knowledGE tranSfer neTwork learning for brain
tumor segmentation with incomplete multi-modal MRI scans [16.93394669748461]
多モードMRI(Multi-modal magnetic resonance imaging)に基づく脳腫瘍の分節化は、脳腫瘍の診断、治療、術後の評価を支援する重要な役割を担っている。
既存の自動セグメンテーション法によって達成されたインスピレーション性能にもかかわらず、マルチモーダルMRIデータは実際の臨床応用では利用できない。
そこで本研究では,異なる条件下で正確な脳腫瘍セグメント化を実現するDIGEST(Deeply SupervIsed KnowledGE tranSfer neTwork)を提案する。
論文 参考訳(メタデータ) (2022-11-15T09:01:14Z) - Model-Guided Multi-Contrast Deep Unfolding Network for MRI
Super-resolution Reconstruction [68.80715727288514]
MRI観察行列を用いて,反復型MGDUNアルゴリズムを新しいモデル誘導深部展開ネットワークに展開する方法を示す。
本稿では,医療画像SR再構成のためのモデルガイド型解釈可能なDeep Unfolding Network(MGDUN)を提案する。
論文 参考訳(メタデータ) (2022-09-15T03:58:30Z) - FAST-AID Brain: Fast and Accurate Segmentation Tool using Artificial
Intelligence Developed for Brain [0.8376091455761259]
ヒト脳の132領域への高速かつ正確なセグメンテーションのための新しい深層学習法を提案する。
提案モデルは、効率的なU-Netライクなネットワークと、異なるビューと階層関係の交差点の利点を利用する。
提案手法は,画像の事前処理や性能低下を伴わずに頭蓋骨や他の人工物を含む脳MRIデータに適用することができる。
論文 参考訳(メタデータ) (2022-08-30T16:06:07Z) - Metadata-enhanced contrastive learning from retinal optical coherence tomography images [7.932410831191909]
従来のコントラストフレームワークを新しいメタデータ強化戦略で拡張する。
本手法では,画像間のコントラスト関係の真のセットを近似するために,患者メタデータを広く活用する。
提案手法は、6つの画像レベル下流タスクのうち5つにおいて、標準コントラスト法と網膜画像基盤モデルの両方に優れる。
論文 参考訳(メタデータ) (2022-08-04T08:53:15Z) - Cross-Modality Deep Feature Learning for Brain Tumor Segmentation [158.8192041981564]
本稿では, マルチモーダルMRIデータから脳腫瘍を抽出するクロスモーダルディープ・フィーチャーラーニング・フレームワークを提案する。
中心となる考え方は、不十分なデータスケールを補うために、マルチモダリティデータにまたがる豊富なパターンをマイニングすることだ。
on the BraTS benchmarks, this proposed cross-modality deep feature learning framework could effective improve the brain tumor segmentation performance。
論文 参考訳(メタデータ) (2022-01-07T07:46:01Z) - Self-supervised Learning from 100 Million Medical Images [13.958840691105992]
コントラスト学習とオンライン特徴クラスタリングに基づく,リッチな画像特徴の自己教師付き学習手法を提案する。
我々は,X線撮影,CT,MRI,超音波など,様々なモードの医療画像10万枚を超える大規模なトレーニングデータセットを活用している。
本稿では,X線撮影,CT,MRにおける画像評価の課題に対して,この戦略の多くの利点を強調した。
論文 参考訳(メタデータ) (2022-01-04T18:27:04Z) - Multi-modal Aggregation Network for Fast MR Imaging [85.25000133194762]
我々は,完全サンプル化された補助モダリティから補完表現を発見できる,MANetという新しいマルチモーダル・アグリゲーション・ネットワークを提案する。
我々のMANetでは,完全サンプリングされた補助的およびアンアンサンプされた目標モダリティの表現は,特定のネットワークを介して独立に学習される。
私たちのMANetは、$k$-spaceドメインの周波数信号を同時に回復できるハイブリッドドメイン学習フレームワークに従います。
論文 参考訳(メタデータ) (2021-10-15T13:16:59Z) - Modality Completion via Gaussian Process Prior Variational Autoencoders
for Multi-Modal Glioma Segmentation [75.58395328700821]
本稿では,患者スキャンに欠落するサブモダリティを1つ以上のインプットするために,MGP-VAE(Multi-modal Gaussian Process Prior Variational Autoencoder)を提案する。
MGP-VAEは、変分オートエンコーダ(VAE)に先立ってガウス過程(GP)を利用して、被験者/患者およびサブモダリティ相関を利用することができる。
4つのサブモダリティのうち2つ、または3つが欠落している脳腫瘍に対するMGP-VAEの適用性を示す。
論文 参考訳(メタデータ) (2021-07-07T19:06:34Z) - Latent Correlation Representation Learning for Brain Tumor Segmentation
with Missing MRI Modalities [2.867517731896504]
MR画像から正確な脳腫瘍を抽出することが臨床診断と治療計画の鍵となる。
臨床におけるいくつかのイメージングモダリティを見逃すのが一般的です。
本稿では,新しい脳腫瘍分割アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-04-13T14:21:09Z) - A Multi-Stage Attentive Transfer Learning Framework for Improving
COVID-19 Diagnosis [49.3704402041314]
新型コロナの診断を改善するための多段階集中移動学習フレームワークを提案する。
提案するフレームワークは、複数のソースタスクと異なるドメインのデータから知識を学習し、正確な診断モデルを訓練する3つの段階からなる。
本稿では,肺CT画像のマルチスケール表現を学習するための自己教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-01-14T01:39:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。