論文の概要: Multimodal Masked Autoencoder Pre-training for 3D MRI-Based Brain Tumor Analysis with Missing Modalities
- arxiv url: http://arxiv.org/abs/2505.00568v1
- Date: Thu, 01 May 2025 14:51:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:55.339002
- Title: Multimodal Masked Autoencoder Pre-training for 3D MRI-Based Brain Tumor Analysis with Missing Modalities
- Title(参考訳): 3次元MRI脳腫瘍解析のためのマルチモーダルマスクオートエンコーダの事前トレーニング
- Authors: Lucas Robinet, Ahmad Berjaoui, Elizabeth Cohen-Jonathan Moyal,
- Abstract要約: BM-MAEはマルチモーダルMRIデータに適したマスク付き画像モデリング事前学習戦略である。
利用可能なモダリティの組み合わせにシームレスに適応し、モダリティ内情報とモダリティ間情報の両方をキャプチャするリッチな表現を抽出する。
欠落したモダリティを迅速かつ効率的に再構築し、その実用的価値を強調します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Multimodal magnetic resonance imaging (MRI) constitutes the first line of investigation for clinicians in the care of brain tumors, providing crucial insights for surgery planning, treatment monitoring, and biomarker identification. Pre-training on large datasets have been shown to help models learn transferable representations and adapt with minimal labeled data. This behavior is especially valuable in medical imaging, where annotations are often scarce. However, applying this paradigm to multimodal medical data introduces a challenge: most existing approaches assume that all imaging modalities are available during both pre-training and fine-tuning. In practice, missing modalities often occur due to acquisition issues, specialist unavailability, or specific experimental designs on small in-house datasets. Consequently, a common approach involves training a separate model for each desired modality combination, making the process both resource-intensive and impractical for clinical use. Therefore, we introduce BM-MAE, a masked image modeling pre-training strategy tailored for multimodal MRI data. The same pre-trained model seamlessly adapts to any combination of available modalities, extracting rich representations that capture both intra- and inter-modal information. This allows fine-tuning on any subset of modalities without requiring architectural changes, while still benefiting from a model pre-trained on the full set of modalities. Extensive experiments show that the proposed pre-training strategy outperforms or remains competitive with baselines that require separate pre-training for each modality subset, while substantially surpassing training from scratch on several downstream tasks. Additionally, it can quickly and efficiently reconstruct missing modalities, highlighting its practical value. Code and trained models are available at: https://github.com/Lucas-rbnt/bmmae
- Abstract(参考訳): マルチモーダルMRI(Multimodal magnetic resonance imaging)は、脳腫瘍治療における臨床研究の第一線であり、手術計画、治療監視、バイオマーカーの同定において重要な知見を提供する。
大規模なデータセットでの事前トレーニングは、モデルが転送可能な表現を学習し、最小限のラベル付きデータで適応するのに役立ちます。
この行動は、しばしばアノテーションが不足している医療画像において特に有用である。
しかし、このパラダイムをマルチモーダル医療データに適用することは、多くの既存のアプローチでは、事前トレーニングと微調整の両方で、すべての画像モダリティが利用できると仮定している。
実際には、取得の問題、専門家の可用性の欠如、あるいは小さな社内データセットに関する特定の実験的な設計によって、モダリティが欠落することが多い。
その結果、共通のアプローチでは、望ましいモダリティの組み合わせごとに個別のモデルをトレーニングし、そのプロセスはリソース集約的であり、臨床的使用には非現実的である。
そこで,マルチモーダルMRIデータに適したマスク付き画像モデリング事前学習戦略BM-MAEを提案する。
同じ事前訓練されたモデルは利用可能なモダリティの組み合わせにシームレスに対応し、モダリティ内情報とモダリティ間情報の両方をキャプチャするリッチな表現を抽出する。
これにより、アーキテクチャ上の変更を必要とせずに、すべてのモダリティのサブセットを微調整できると同時に、完全なモダリティセットで事前トレーニングされたモデルの恩恵を受けることができる。
大規模な実験により、提案した事前学習戦略は、各モードサブセットに対して個別の事前学習を必要とするベースラインよりも優れ、また、いくつかの下流タスクにおいて、スクラッチからのトレーニングを大幅に上回っていることが明らかとなった。
さらに、欠落したモダリティを迅速かつ効率的に再構築し、その実用的価値を強調します。
コードとトレーニングされたモデルは、https://github.com/Lucas-rbnt/bmmae.comで入手できる。
関連論文リスト
- MIND: Modality-Informed Knowledge Distillation Framework for Multimodal Clinical Prediction Tasks [50.98856172702256]
マルチモーダルモデル圧縮手法である MIND (Modality-Informed Knowledge Distillation) フレームワークを提案する。
MINDは、様々なサイズの事前訓練されたディープニューラルネットワークのアンサンブルから、より小さなマルチモーダルの学生に知識を伝達する。
時系列データと胸部X線画像を用いた2値および複数ラベルの臨床予測タスクにおけるMINDの評価を行った。
論文 参考訳(メタデータ) (2025-02-03T08:50:00Z) - AMM-Diff: Adaptive Multi-Modality Diffusion Network for Missing Modality Imputation [2.8498944632323755]
臨床実践において、フルイメージングは必ずしも実現可能ではなく、多くの場合、複雑な取得プロトコル、厳格なプライバシ規則、特定の臨床ニーズのためである。
有望な解決策は、利用可能なものから欠落したモダリティが生成されるデータ計算の欠如である。
適応多モード拡散ネットワーク (AMM-Diff) を提案する。
論文 参考訳(メタデータ) (2025-01-22T12:29:33Z) - MedMAP: Promoting Incomplete Multi-modal Brain Tumor Segmentation with Alignment [20.358300924109162]
臨床ではMRIの特定のモダリティが欠如している可能性があるため、より困難なシナリオが提示される。
知識蒸留、ドメイン適応、共有潜在空間は一般的に有望な戦略として現れている。
本稿では,事前学習モデルの置換として,係わるモダリティの潜在的特徴を適切に定義された分布アンカーに整合させる新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2024-08-18T13:16:30Z) - Enhancing Incomplete Multi-modal Brain Tumor Segmentation with Intra-modal Asymmetry and Inter-modal Dependency [31.047259264831947]
現実の一般的な問題は、様々なスキャンプロトコルや患者の状態によって、いくつかのモダリティが利用できないことである。
従来の手法では、アクセス可能なマルチモーダルの特徴を融合させ、注意機構を活用し、欠落したモダリティを合成することで、この問題に対処しようと試みてきた。
本稿では,2つの視点から深層学習に基づく脳腫瘍セグメンテーションモデルを提案する。
論文 参考訳(メタデータ) (2024-06-14T16:54:53Z) - Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation [113.5002649181103]
オープンソースの小型マルチモーダルモデル(SMM)を訓練し、放射線学における未測定臨床ニーズに対する能力ギャップを埋める。
トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。
評価のために,GPT-4に基づく実測値CheXpromptを提案する。
LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文 参考訳(メタデータ) (2024-03-12T18:12:02Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Learnable Weight Initialization for Volumetric Medical Image Segmentation [66.3030435676252]
本稿では,学習可能な重みに基づくハイブリッド医療画像セグメンテーション手法を提案する。
我々のアプローチはどんなハイブリッドモデルにも簡単に統合でき、外部のトレーニングデータを必要としない。
多臓器・肺がんセグメンテーションタスクの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2023-06-15T17:55:05Z) - DIGEST: Deeply supervIsed knowledGE tranSfer neTwork learning for brain
tumor segmentation with incomplete multi-modal MRI scans [16.93394669748461]
多モードMRI(Multi-modal magnetic resonance imaging)に基づく脳腫瘍の分節化は、脳腫瘍の診断、治療、術後の評価を支援する重要な役割を担っている。
既存の自動セグメンテーション法によって達成されたインスピレーション性能にもかかわらず、マルチモーダルMRIデータは実際の臨床応用では利用できない。
そこで本研究では,異なる条件下で正確な脳腫瘍セグメント化を実現するDIGEST(Deeply SupervIsed KnowledGE tranSfer neTwork)を提案する。
論文 参考訳(メタデータ) (2022-11-15T09:01:14Z) - A Learnable Variational Model for Joint Multimodal MRI Reconstruction
and Synthesis [4.056490719080639]
マルチモーダルMRIの関節再構成と合成のための新しいディープラーニングモデルを提案する。
本モデルの出力は、ソースのモダリティの再構成画像と、ターゲットのモダリティで合成された高品質な画像を含む。
論文 参考訳(メタデータ) (2022-04-08T01:35:19Z) - Modality Completion via Gaussian Process Prior Variational Autoencoders
for Multi-Modal Glioma Segmentation [75.58395328700821]
本稿では,患者スキャンに欠落するサブモダリティを1つ以上のインプットするために,MGP-VAE(Multi-modal Gaussian Process Prior Variational Autoencoder)を提案する。
MGP-VAEは、変分オートエンコーダ(VAE)に先立ってガウス過程(GP)を利用して、被験者/患者およびサブモダリティ相関を利用することができる。
4つのサブモダリティのうち2つ、または3つが欠落している脳腫瘍に対するMGP-VAEの適用性を示す。
論文 参考訳(メタデータ) (2021-07-07T19:06:34Z) - Cross-Modal Information Maximization for Medical Imaging: CMIM [62.28852442561818]
病院では、同じ情報を異なるモダリティの下で利用できるようにする特定の情報システムにデータがサイロ化される。
これは、テスト時に常に利用できないかもしれない同じ情報の複数のビューを列車で取得し、使用するためのユニークな機会を提供する。
テスト時にモダリティの低下に耐性を持つマルチモーダル入力の優れた表現を学習することで、利用可能なデータを最大限活用する革新的なフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-20T20:05:35Z) - MS-Net: Multi-Site Network for Improving Prostate Segmentation with
Heterogeneous MRI Data [75.73881040581767]
本稿では,ロバスト表現を学習し,前立腺のセグメンテーションを改善するための新しいマルチサイトネットワーク(MS-Net)を提案する。
当社のMS-Netは,すべてのデータセットのパフォーマンスを一貫して改善し,マルチサイト学習における最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2020-02-09T14:11:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。