論文の概要: Multimodal, Multi-Disease Medical Imaging Foundation Model (MerMED-FM)
- arxiv url: http://arxiv.org/abs/2507.00185v1
- Date: Mon, 30 Jun 2025 18:50:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:58.63287
- Title: Multimodal, Multi-Disease Medical Imaging Foundation Model (MerMED-FM)
- Title(参考訳): マルチモーダル・マルチディスク医療イメージング基礎モデル(MerMED-FM)
- Authors: Yang Zhou, Chrystie Wan Ning Quek, Jun Zhou, Yan Wang, Yang Bai, Yuhe Ke, Jie Yao, Laura Gutierrez, Zhen Ling Teo, Darren Shu Jeng Ting, Brian T. Soetikno, Christopher S. Nielsen, Tobias Elze, Zengxiang Li, Linh Le Dinh, Lionel Tim-Ee Cheng, Tran Nguyen Tuan Anh, Chee Leong Cheng, Tien Yin Wong, Nan Liu, Iain Beehuat Tan, Tony Kiat Hon Lim, Rick Siow Mong Goh, Yong Liu, Daniel Shu Wei Ting,
- Abstract要約: 我々は,自己教師付き学習とメモリモジュールを用いて学習した,最先端のマルチモーダル基盤モデルであるMerMED-FMを開発した。
MerMED-FMは10以上の専門品と7つのモダリティから330万枚の医療画像で訓練された。
AUROCは0.988(皮膚)、0.982(病理)、0.951(US)、0.943(CT)、0.931(CFP)、0.894(CXR)の全てのモードで強い性能が達成された。
- 参考スコア(独自算出の注目度): 22.690349928759986
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current artificial intelligence models for medical imaging are predominantly single modality and single disease. Attempts to create multimodal and multi-disease models have resulted in inconsistent clinical accuracy. Furthermore, training these models typically requires large, labour-intensive, well-labelled datasets. We developed MerMED-FM, a state-of-the-art multimodal, multi-specialty foundation model trained using self-supervised learning and a memory module. MerMED-FM was trained on 3.3 million medical images from over ten specialties and seven modalities, including computed tomography (CT), chest X-rays (CXR), ultrasound (US), pathology patches, color fundus photography (CFP), optical coherence tomography (OCT) and dermatology images. MerMED-FM was evaluated across multiple diseases and compared against existing foundational models. Strong performance was achieved across all modalities, with AUROCs of 0.988 (OCT); 0.982 (pathology); 0.951 (US); 0.943 (CT); 0.931 (skin); 0.894 (CFP); 0.858 (CXR). MerMED-FM has the potential to be a highly adaptable, versatile, cross-specialty foundation model that enables robust medical imaging interpretation across diverse medical disciplines.
- Abstract(参考訳): 現在の医用画像用人工知能モデルは、主に単一モダリティと単一疾患である。
マルチモーダルおよびマルチディスリーズモデルの作成の試みは、一貫性のない臨床精度をもたらす。
さらに、これらのモデルをトレーニングするには、通常、大きく、労働集約的で、うまくラベル付けされたデータセットが必要である。
我々は,MerMED-FMを開発した。これは,自己教師付き学習とメモリモジュールを用いて訓練された,最先端のマルチモーダル・マルチスペシャリティ基盤モデルである。
MerMED-FMは、CT(CT)、胸部X線(CXR)、超音波(US)、病理写真(CFP)、光コヒーレンス断層撮影(OCT)、皮膚画像など、10以上の専門分野および7つのモダリティから330万枚の医療画像で訓練された。
MerMED-FMは複数の疾患で評価され,既存の基礎モデルと比較された。
AUROCは0.988(OCT)、0.982(病理学)、0.951(US)、0.943(CT)、0.931(皮膚)、0.894(CFP)、0.858(CXR)の全てのモードで強力な性能が達成された。
MerMED-FMは、多種多様な医学分野にわたる堅牢な医用画像解釈を可能にする、高度に適応し、汎用的で、横断的な基礎モデルになる可能性がある。
関連論文リスト
- iMedImage Technical Report [5.0953390013898705]
染色体核型解析は遺伝性疾患の診断に不可欠であるが, 構造異常の検出は依然として困難である。
一般医用画像認識のためのエンド・ツー・エンド・エンド・モデルiMedImageを開発した。
論文 参考訳(メタデータ) (2025-03-27T03:25:28Z) - Vision Foundation Models for Computed Tomography [0.5320113414681007]
基礎モデル(FM)は、画像のモダリティを越えて多種多様な複雑なタスクを実行することにより、放射線学における変換可能性を示している。
そこで我々はCT-FM(CT-FM)を開発した。
CT-FMは画像データコモンズから148,000個のCTスキャンを用いてラベルに依存しないコントラスト学習によって事前訓練を行った。
論文 参考訳(メタデータ) (2025-01-15T18:30:58Z) - Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation [113.5002649181103]
オープンソースの小型マルチモーダルモデル(SMM)を訓練し、放射線学における未測定臨床ニーズに対する能力ギャップを埋める。
トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。
評価のために,GPT-4に基づく実測値CheXpromptを提案する。
LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文 参考訳(メタデータ) (2024-03-12T18:12:02Z) - PE-MVCNet: Multi-view and Cross-modal Fusion Network for Pulmonary Embolism Prediction [4.659998272408215]
肺塞栓症(PE)の早期発見は、患者の生存率を高めるために重要である。
PE-MVCNetとよばれる多モード核融合法を提案する。
提案モデルは既存の手法より優れており, 単一のデータモダリティを用いたモデルと比較して, マルチモーダル融合モデルの方が優れていることを裏付けるものである。
論文 参考訳(メタデータ) (2024-02-27T03:53:27Z) - Large-scale Long-tailed Disease Diagnosis on Radiology Images [51.453990034460304]
RadDiagは、様々なモダリティと解剖学にわたる2Dおよび3D入力をサポートする基礎モデルである。
私たちのデータセットであるRP3D-DiagDSは、5,568の障害をカバーする195,010のスキャンで40,936の症例を含む。
論文 参考訳(メタデータ) (2023-12-26T18:20:48Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Universal Model for Multi-Domain Medical Image Retrieval [88.67940265012638]
医用画像検索(MIR)は、医師が類似した患者のデータを素早く見つけるのに役立つ。
MIRはデジタル画像モダリティの多用により、ますます役に立ちつつある。
しかし、病院における様々なデジタル画像モダリティの人気もまた、MIRにいくつかの課題をもたらしている。
論文 参考訳(メタデータ) (2020-07-14T23:22:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。