論文の概要: MultiMAE for Brain MRIs: Robustness to Missing Inputs Using Multi-Modal Masked Autoencoder
- arxiv url: http://arxiv.org/abs/2509.11442v1
- Date: Sun, 14 Sep 2025 21:33:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:23.08353
- Title: MultiMAE for Brain MRIs: Robustness to Missing Inputs Using Multi-Modal Masked Autoencoder
- Title(参考訳): 脳MRI用MultiMAE:マルチモーダルマスクオートエンコーダを用いた入力の欠落に対するロバスト性
- Authors: Ayhan Can Erdur, Christian Beischl, Daniel Scholz, Jiazhen Pan, Benedikt Wiestler, Daniel Rueckert, Jan C Peeken,
- Abstract要約: 医療画像データでは、入力シーケンスの欠落が一般的であり、完全な入力データに依存するディープラーニングモデルの課題となっている。
脳MRIを用いた3次元医療画像におけるマルチモーダル・マルチタスク学習のためのマスク付きオートエンコーダ(MAE)パラダイムを開発した。
- 参考スコア(独自算出の注目度): 18.774351784192266
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Missing input sequences are common in medical imaging data, posing a challenge for deep learning models reliant on complete input data. In this work, inspired by MultiMAE [2], we develop a masked autoencoder (MAE) paradigm for multi-modal, multi-task learning in 3D medical imaging with brain MRIs. Our method treats each MRI sequence as a separate input modality, leveraging a late-fusion-style transformer encoder to integrate multi-sequence information (multi-modal) and individual decoder streams for each modality for multi-task reconstruction. This pretraining strategy guides the model to learn rich representations per modality while also equipping it to handle missing inputs through cross-sequence reasoning. The result is a flexible and generalizable encoder for brain MRIs that infers missing sequences from available inputs and can be adapted to various downstream applications. We demonstrate the performance and robustness of our method against an MAE-ViT baseline in downstream segmentation and classification tasks, showing absolute improvement of $10.1$ overall Dice score and $0.46$ MCC over the baselines with missing input sequences. Our experiments demonstrate the strength of this pretraining strategy. The implementation is made available.
- Abstract(参考訳): 医療画像データでは、入力シーケンスの欠落が一般的であり、完全な入力データに依存するディープラーニングモデルの課題となっている。
この研究は、MultiMAE [2]に触発され、脳MRIを用いた3次元医療画像におけるマルチモーダル・マルチタスク学習のためのマスク付きオートエンコーダ(MAE)パラダイムを開発した。
提案手法は,各MRIシーケンスを個別の入力モダリティとして扱い,マルチシーケンス情報(マルチモーダル)と個別デコーダストリームを統合するために,レイトフュージョン方式のトランスフォーマーエンコーダを利用する。
この事前学習戦略は、モード毎の豊かな表現を学習すると同時に、クロスシーケンス推論を通じて欠落した入力を処理するための装備をモデルに導く。
結果は柔軟で一般化可能な脳MRIエンコーダで、利用可能な入力から欠落したシーケンスを推測し、様々な下流アプリケーションに適応することができる。
ダウンストリームセグメンテーションおよび分類タスクにおけるMAE-ViTベースラインに対する本手法の性能とロバスト性を実証し,Diceスコアが10.1ドル,入力シーケンスが欠落したベースラインに対して0.46ドルのMCCを絶対的に改善したことを示す。
我々の実験はこの事前学習戦略の強みを実証した。
実装は利用可能です。
関連論文リスト
- Multimodal Masked Autoencoder Pre-training for 3D MRI-Based Brain Tumor Analysis with Missing Modalities [0.0]
BM-MAEはマルチモーダルMRIデータに適したマスク付き画像モデリング事前学習戦略である。
利用可能なモダリティの組み合わせにシームレスに適応し、モダリティ内情報とモダリティ間情報の両方をキャプチャするリッチな表現を抽出する。
欠落したモダリティを迅速かつ効率的に再構築し、その実用的価値を強調します。
論文 参考訳(メタデータ) (2025-05-01T14:51:30Z) - Hi-End-MAE: Hierarchical encoder-driven masked autoencoders are stronger vision learners for medical image segmentation [21.183229457060634]
10KCTの大規模データセットでHi-End-MAEを事前訓練し、7つの公開医用画像セグメンテーションベンチマークでその性能を評価する。
Hi-End-MAEは、様々な下流タスクにまたがる優れた伝達学習能力を実現し、医用画像の応用におけるViTの可能性を明らかにする。
論文 参考訳(メタデータ) (2025-02-12T12:14:02Z) - Large Language Models for Multimodal Deformable Image Registration [50.91473745610945]
そこで本研究では,様々な医用画像からの深い特徴の整合を図るために,新しい粗いMDIRフレームワークLLM-Morphを提案する。
具体的には、まずCNNエンコーダを用いて、クロスモーダル画像ペアから深い視覚的特徴を抽出し、次に、最初のアダプタを使ってこれらのトークンを調整する。
第3に、トークンのアライメントのために、他の4つのアダプタを使用して、LLM符号化トークンをマルチスケールの視覚特徴に変換し、マルチスケールの変形場を生成し、粗いMDIRタスクを容易にする。
論文 参考訳(メタデータ) (2024-08-20T09:58:30Z) - Multi-scale Transformer Network with Edge-aware Pre-training for
Cross-Modality MR Image Synthesis [52.41439725865149]
クロスモダリティ磁気共鳴(MR)画像合成は、与えられたモダリティから欠落するモダリティを生成するために用いられる。
既存の(教師付き学習)手法は、効果的な合成モデルを訓練するために、多くのペア化されたマルチモーダルデータを必要とすることが多い。
マルチスケールトランスフォーマーネットワーク(MT-Net)を提案する。
論文 参考訳(メタデータ) (2022-12-02T11:40:40Z) - One Model to Synthesize Them All: Multi-contrast Multi-scale Transformer
for Missing Data Imputation [3.9207133968068684]
我々は、シーケンス・ツー・シーケンス学習問題として、欠落データ計算を定式化する。
マルチコントラストマルチスケールトランス (MMT) を提案する。
MMTは、異なる領域における各入力コントラストの重要性を理解することができるため、本質的に解釈可能である。
論文 参考訳(メタデータ) (2022-04-28T18:49:27Z) - Modality Completion via Gaussian Process Prior Variational Autoencoders
for Multi-Modal Glioma Segmentation [75.58395328700821]
本稿では,患者スキャンに欠落するサブモダリティを1つ以上のインプットするために,MGP-VAE(Multi-modal Gaussian Process Prior Variational Autoencoder)を提案する。
MGP-VAEは、変分オートエンコーダ(VAE)に先立ってガウス過程(GP)を利用して、被験者/患者およびサブモダリティ相関を利用することができる。
4つのサブモダリティのうち2つ、または3つが欠落している脳腫瘍に対するMGP-VAEの適用性を示す。
論文 参考訳(メタデータ) (2021-07-07T19:06:34Z) - Multi-Decoder Networks with Multi-Denoising Inputs for Tumor
Segmentation [2.0625936401496237]
マルチデコーダアーキテクチャを用いたエンドツーエンドのディープラーニングに基づくセグメンテーション手法を開発した。
また、入力画像にスムースな手法を適用し、ネットワークへの追加入力として復号化バージョンを生成することを提案する。
論文 参考訳(メタデータ) (2020-11-16T12:58:03Z) - M2Net: Multi-modal Multi-channel Network for Overall Survival Time
Prediction of Brain Tumor Patients [151.4352001822956]
生存時間(OS)の早期かつ正確な予測は、脳腫瘍患者に対するより良い治療計画を得るのに役立つ。
既存の予測手法は、磁気共鳴(MR)ボリュームの局所的な病変領域における放射能特性に依存している。
我々は,マルチモーダルマルチチャネルネットワーク(M2Net)のエンドツーエンドOS時間予測モデルを提案する。
論文 参考訳(メタデータ) (2020-06-01T05:21:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。