論文の概要: Multimodal, Multi-Disease Medical Imaging Foundation Model (MerMED-FM)
- arxiv url: http://arxiv.org/abs/2507.00185v1
- Date: Mon, 30 Jun 2025 18:50:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:58.63287
- Title: Multimodal, Multi-Disease Medical Imaging Foundation Model (MerMED-FM)
- Title(参考訳): マルチモーダル・マルチディスク医療イメージング基礎モデル(MerMED-FM)
- Authors: Yang Zhou, Chrystie Wan Ning Quek, Jun Zhou, Yan Wang, Yang Bai, Yuhe Ke, Jie Yao, Laura Gutierrez, Zhen Ling Teo, Darren Shu Jeng Ting, Brian T. Soetikno, Christopher S. Nielsen, Tobias Elze, Zengxiang Li, Linh Le Dinh, Lionel Tim-Ee Cheng, Tran Nguyen Tuan Anh, Chee Leong Cheng, Tien Yin Wong, Nan Liu, Iain Beehuat Tan, Tony Kiat Hon Lim, Rick Siow Mong Goh, Yong Liu, Daniel Shu Wei Ting,
- Abstract要約: 我々は,自己教師付き学習とメモリモジュールを用いて学習した,最先端のマルチモーダル基盤モデルであるMerMED-FMを開発した。
MerMED-FMは10以上の専門品と7つのモダリティから330万枚の医療画像で訓練された。
AUROCは0.988(皮膚)、0.982(病理)、0.951(US)、0.943(CT)、0.931(CFP)、0.894(CXR)の全てのモードで強い性能が達成された。
- 参考スコア(独自算出の注目度): 22.690349928759986
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current artificial intelligence models for medical imaging are predominantly single modality and single disease. Attempts to create multimodal and multi-disease models have resulted in inconsistent clinical accuracy. Furthermore, training these models typically requires large, labour-intensive, well-labelled datasets. We developed MerMED-FM, a state-of-the-art multimodal, multi-specialty foundation model trained using self-supervised learning and a memory module. MerMED-FM was trained on 3.3 million medical images from over ten specialties and seven modalities, including computed tomography (CT), chest X-rays (CXR), ultrasound (US), pathology patches, color fundus photography (CFP), optical coherence tomography (OCT) and dermatology images. MerMED-FM was evaluated across multiple diseases and compared against existing foundational models. Strong performance was achieved across all modalities, with AUROCs of 0.988 (OCT); 0.982 (pathology); 0.951 (US); 0.943 (CT); 0.931 (skin); 0.894 (CFP); 0.858 (CXR). MerMED-FM has the potential to be a highly adaptable, versatile, cross-specialty foundation model that enables robust medical imaging interpretation across diverse medical disciplines.
- Abstract(参考訳): 現在の医用画像用人工知能モデルは、主に単一モダリティと単一疾患である。
マルチモーダルおよびマルチディスリーズモデルの作成の試みは、一貫性のない臨床精度をもたらす。
さらに、これらのモデルをトレーニングするには、通常、大きく、労働集約的で、うまくラベル付けされたデータセットが必要である。
我々は,MerMED-FMを開発した。これは,自己教師付き学習とメモリモジュールを用いて訓練された,最先端のマルチモーダル・マルチスペシャリティ基盤モデルである。
MerMED-FMは、CT(CT)、胸部X線(CXR)、超音波(US)、病理写真(CFP)、光コヒーレンス断層撮影(OCT)、皮膚画像など、10以上の専門分野および7つのモダリティから330万枚の医療画像で訓練された。
MerMED-FMは複数の疾患で評価され,既存の基礎モデルと比較された。
AUROCは0.988(OCT)、0.982(病理学)、0.951(US)、0.943(CT)、0.931(皮膚)、0.894(CFP)、0.858(CXR)の全てのモードで強力な性能が達成された。
MerMED-FMは、多種多様な医学分野にわたる堅牢な医用画像解釈を可能にする、高度に適応し、汎用的で、横断的な基礎モデルになる可能性がある。
関連論文リスト
- iMedImage Technical Report [5.0953390013898705]
染色体核型解析は遺伝性疾患の診断に不可欠であるが, 構造異常の検出は依然として困難である。
一般医用画像認識のためのエンド・ツー・エンド・エンド・モデルiMedImageを開発した。
論文 参考訳(メタデータ) (2025-03-27T03:25:28Z) - MedMimic: Physician-Inspired Multimodal Fusion for Early Diagnosis of Fever of Unknown Origin [3.937224424603788]
MedMimicは、現実世界の診断プロセスにインスパイアされたマルチモーダルフレームワークとして紹介されている。
DINOv2、Vision Transformer、ResNet-18といった事前訓練されたモデルを使用して、高次元の18F-FDG PET/CTイメージングを意味のある特徴に変換する。
学習可能な自己注意型核融合ネットワークは、これらの画像特徴を分類のための臨床データと統合する。
論文 参考訳(メタデータ) (2025-02-07T09:57:03Z) - Vision Foundation Models for Computed Tomography [0.5320113414681007]
基礎モデル(FM)は、画像のモダリティを越えて多種多様な複雑なタスクを実行することにより、放射線学における変換可能性を示している。
そこで我々はCT-FM(CT-FM)を開発した。
CT-FMは画像データコモンズから148,000個のCTスキャンを用いてラベルに依存しないコントラスト学習によって事前訓練を行った。
論文 参考訳(メタデータ) (2025-01-15T18:30:58Z) - Latent Drifting in Diffusion Models for Counterfactual Medical Image Synthesis [55.959002385347645]
遅延ドリフトにより、医療画像に対して拡散モデルを条件付けし、反ファクト画像生成の複雑なタスクに適合させることができる。
我々は,脳MRIと胸部X線による3つの時系列的ベンチマークデータセットを用いて,対物画像生成法について検討した。
論文 参考訳(メタデータ) (2024-12-30T01:59:34Z) - MedDiff-FM: A Diffusion-based Foundation Model for Versatile Medical Image Applications [10.321593505248341]
本稿では,MedDiff-FMという,様々な医療画像課題に対処するための拡散基盤モデルを提案する。
MedDiff-FMは頭部から腹部まで解剖学的領域をカバーする3次元CT画像を利用して拡散基盤モデルの事前訓練を行う。
MedDiff-FMが下流の様々な医療画像タスクに有効であることを示す実験結果が得られた。
論文 参考訳(メタデータ) (2024-10-20T16:03:55Z) - FEDKIM: Adaptive Federated Knowledge Injection into Medical Foundation Models [54.09244105445476]
本研究は,フェデレート・ラーニング・フレームワーク内で医療基盤モデルを拡張するための新しい知識注入手法であるFedKIMを紹介する。
FedKIMは軽量なローカルモデルを活用して、プライベートデータから医療知識を抽出し、この知識を集中基盤モデルに統合する。
7つのモードで12タスクを対象に実験を行い,FedKIMの有効性について検討した。
論文 参考訳(メタデータ) (2024-08-17T15:42:29Z) - NeuroPictor: Refining fMRI-to-Image Reconstruction via Multi-individual Pretraining and Multi-level Modulation [55.51412454263856]
本稿では,fMRI信号を用いた拡散モデル生成過程を直接変調することを提案する。
様々な個人から約67,000 fMRI-imageペアのトレーニングを行うことで,fMRI-to-imageデコーディング能力に優れたモデルが得られた。
論文 参考訳(メタデータ) (2024-03-27T02:42:52Z) - Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation [113.5002649181103]
オープンソースの小型マルチモーダルモデル(SMM)を訓練し、放射線学における未測定臨床ニーズに対する能力ギャップを埋める。
トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。
評価のために,GPT-4に基づく実測値CheXpromptを提案する。
LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文 参考訳(メタデータ) (2024-03-12T18:12:02Z) - PE-MVCNet: Multi-view and Cross-modal Fusion Network for Pulmonary Embolism Prediction [4.659998272408215]
肺塞栓症(PE)の早期発見は、患者の生存率を高めるために重要である。
PE-MVCNetとよばれる多モード核融合法を提案する。
提案モデルは既存の手法より優れており, 単一のデータモダリティを用いたモデルと比較して, マルチモーダル融合モデルの方が優れていることを裏付けるものである。
論文 参考訳(メタデータ) (2024-02-27T03:53:27Z) - Large-scale Long-tailed Disease Diagnosis on Radiology Images [51.453990034460304]
RadDiagは、様々なモダリティと解剖学にわたる2Dおよび3D入力をサポートする基礎モデルである。
私たちのデータセットであるRP3D-DiagDSは、5,568の障害をカバーする195,010のスキャンで40,936の症例を含む。
論文 参考訳(メタデータ) (2023-12-26T18:20:48Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Cross-Modal Information Maximization for Medical Imaging: CMIM [62.28852442561818]
病院では、同じ情報を異なるモダリティの下で利用できるようにする特定の情報システムにデータがサイロ化される。
これは、テスト時に常に利用できないかもしれない同じ情報の複数のビューを列車で取得し、使用するためのユニークな機会を提供する。
テスト時にモダリティの低下に耐性を持つマルチモーダル入力の優れた表現を学習することで、利用可能なデータを最大限活用する革新的なフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-20T20:05:35Z) - Universal Model for Multi-Domain Medical Image Retrieval [88.67940265012638]
医用画像検索(MIR)は、医師が類似した患者のデータを素早く見つけるのに役立つ。
MIRはデジタル画像モダリティの多用により、ますます役に立ちつつある。
しかし、病院における様々なデジタル画像モダリティの人気もまた、MIRにいくつかの課題をもたらしている。
論文 参考訳(メタデータ) (2020-07-14T23:22:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。