論文の概要: A Multimodal Knowledge-enhanced Whole-slide Pathology Foundation Model
- arxiv url: http://arxiv.org/abs/2407.15362v2
- Date: Mon, 5 Aug 2024 08:26:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-06 20:19:11.382321
- Title: A Multimodal Knowledge-enhanced Whole-slide Pathology Foundation Model
- Title(参考訳): マルチモーダルな知識を付加した完全すべり病基盤モデル
- Authors: Yingxue Xu, Yihui Wang, Fengtao Zhou, Jiabo Ma, Shu Yang, Huangjing Lin, Xin Wang, Jiguang Wang, Li Liang, Anjia Han, Ronald Cheong Kin Chan, Hao Chen,
- Abstract要約: スライド画像全体のH&E診断と関連する病理報告とRNA-Seqデータからなる最大マルチモーダルデータセットをキュレートした。
そこで,本論文では,病的FMにマルチモーダルな知識を注入する新パラダイムを提案する。
提案したパラダイムはCPathの事前トレーニングのワークフローに革命をもたらす。
- 参考スコア(独自算出の注目度): 13.96693863133633
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Remarkable strides in computational pathology have been made in the task-agnostic foundation model that advances the performance of a wide array of downstream clinical tasks. Despite the promising performance, there are still several challenges. First, prior works have resorted to either vision-only or vision-captions data, disregarding invaluable pathology reports and gene expression profiles which respectively offer distinct knowledge for versatile clinical applications. Second, the current progress in pathology FMs predominantly concentrates on the patch level, where the restricted context of patch-level pretraining fails to capture whole-slide patterns. Here we curated the largest multimodal dataset consisting of H\&E diagnostic whole slide images and their associated pathology reports and RNA-Seq data, resulting in 26,169 slide-level modality pairs from 10,275 patients across 32 cancer types. To leverage these data for CPath, we propose a novel whole-slide pretraining paradigm which injects multimodal knowledge at the whole-slide context into the pathology FM, called Multimodal Self-TAught PRetraining (mSTAR). The proposed paradigm revolutionizes the workflow of pretraining for CPath, which enables the pathology FM to acquire the whole-slide context. To our knowledge, this is the first attempt to incorporate multimodal knowledge at the slide level for enhancing pathology FMs, expanding the modelling context from unimodal to multimodal knowledge and from patch-level to slide-level. To systematically evaluate the capabilities of mSTAR, extensive experiments including slide-level unimodal and multimodal applications, are conducted across 7 diverse types of tasks on 43 subtasks, resulting in the largest spectrum of downstream tasks. The average performance in various slide-level applications consistently demonstrates significant performance enhancements for mSTAR compared to SOTA FMs.
- Abstract(参考訳): 計算病理学における顕著な進歩は、幅広い下流臨床タスクのパフォーマンスを向上するタスクに依存しない基礎モデルにおいてなされている。
有望なパフォーマンスにもかかわらず、まだいくつかの課題があります。
第一に、以前の研究は視覚のみまたは視覚のみのデータに頼っており、有意義な病理報告や、多彩な臨床応用のための異なる知識を提供する遺伝子発現プロファイルを無視している。
第2に、FMの現在の進歩はパッチレベルに集中しており、パッチレベルの事前トレーニングの制限されたコンテキストは、スライディング全体のパターンをキャプチャできない。
今回我々は,32種類の癌患者10,275名を対象に,H&E画像と関連病態報告とRNA-Seqデータからなる最大マルチモーダルデータセットを収集した。
CPath におけるこれらのデータを活用するために,Multimodal Self-Taught PRetraining (mSTAR) と呼ばれる,Multimodal FM (Multimodal Self-Taught PRetraining) にマルチモーダル知識を注入する新たな事前学習パラダイムを提案する。
提案したパラダイムはCPathの事前トレーニングのワークフローに革命をもたらす。
我々の知る限り、このことは、マルチモーダル知識をスライドレベルに組み込んだ最初の試みであり、病的FMの強化、モデリングコンテキストの非モーダルからマルチモーダル知識への拡張、パッチレベルからスライドレベルへの拡張である。
mSTARの能力を体系的に評価するために, 43のサブタスクで7種類のタスクにまたがって, ダウンストリームタスクのスペクトルが最も大きい。
様々なスライドレベルのアプリケーションにおける平均性能は、SOTA FMと比較してmSTARの大幅な性能向上を示す。
関連論文リスト
- MLLM4PUE: Toward Universal Embeddings in Computational Pathology through Multimodal LLMs [34.454047458272505]
複数の下流タスクをサポートするユニバーサルなマルチモーダル埋め込みの必要性を強調した。
以前のアプローチでは、イメージとテキストを別々に扱うCLIPベースのモデルを微調整することが多い。
病的マルチモーダル埋め込みの質を評価するためのベンチマークであるPMEB(Pathology Multimodal Embedding Benchmark)を紹介する。
論文 参考訳(メタデータ) (2025-02-11T03:28:55Z) - MIND: Modality-Informed Knowledge Distillation Framework for Multimodal Clinical Prediction Tasks [50.98856172702256]
マルチモーダルモデル圧縮手法である MIND (Modality-Informed Knowledge Distillation) フレームワークを提案する。
MINDは、様々なサイズの事前訓練されたディープニューラルネットワークのアンサンブルから、より小さなマルチモーダルの学生に知識を伝達する。
時系列データと胸部X線画像を用いた2値および複数ラベルの臨床予測タスクにおけるMINDの評価を行った。
論文 参考訳(メタデータ) (2025-02-03T08:50:00Z) - Continually Evolved Multimodal Foundation Models for Cancer Prognosis [50.43145292874533]
がん予後は、患者の予後と生存率を予測する重要なタスクである。
これまでの研究では、臨床ノート、医療画像、ゲノムデータなどの多様なデータモダリティを統合し、補完的な情報を活用している。
既存のアプローチには2つの大きな制限がある。まず、各病院の患者記録など、各種のトレーニングに新しく到着したデータを組み込むことに苦慮する。
第二に、ほとんどのマルチモーダル統合手法は単純化された結合やタスク固有のパイプラインに依存しており、モダリティ間の複雑な相互依存を捉えることができない。
論文 参考訳(メタデータ) (2025-01-30T06:49:57Z) - Molecular-driven Foundation Model for Oncologic Pathology [6.922502805825084]
スライドレベルの基盤モデルであるThreadsを導入し、任意のサイズの全スライド画像の普遍的な表現を生成する。
スレッドは47,171ヘマトキシリンとエオシン(H&E)染色組織分画の多モード学習法を用いて事前訓練を行った。
論文 参考訳(メタデータ) (2025-01-28T02:35:02Z) - CPath-Omni: A Unified Multimodal Foundation Model for Patch and Whole Slide Image Analysis in Computational Pathology [17.781388341968967]
CPath-OmniはパッチとWSIレベルの画像解析を統合するために設計された最初のLMMである。
CPath-Omniは、42データセット中39のタスクに対して、最新技術(SOTA)のパフォーマンスを達成する。
CPath-CLIPは、初めて異なるビジョンモデルを統合し、大きな言語モデルをテキストエンコーダとして組み込んで、より強力なCLIPモデルを構築する。
論文 参考訳(メタデータ) (2024-12-16T18:46:58Z) - Cross-Modal Few-Shot Learning: a Generative Transfer Learning Framework [58.362064122489166]
本稿では,複数モーダルからインスタンスを識別するクロスモーダルなFew-Shot Learningタスクを提案する。
本稿では,1つの段階からなる生成的転帰学習フレームワークを提案する。1つは豊富な一助データに対する学習を伴い,もう1つは新しいデータに適応するための転帰学習に焦点を当てる。
以上の結果から,GTLは4つの異なるマルチモーダルデータセット間の最先端手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-14T16:09:38Z) - PMT: Progressive Mean Teacher via Exploring Temporal Consistency for Semi-Supervised Medical Image Segmentation [51.509573838103854]
医用画像セグメンテーションのための半教師付き学習フレームワークであるプログレッシブ平均教師(PMT)を提案する。
我々のPMTは、トレーニングプロセスにおいて、堅牢で多様な特徴を学習することで、高忠実な擬似ラベルを生成する。
CT と MRI の異なる2つのデータセットに対する実験結果から,本手法が最先端の医用画像分割法より優れていることが示された。
論文 参考訳(メタデータ) (2024-09-08T15:02:25Z) - Med-MoE: Mixture of Domain-Specific Experts for Lightweight Medical Vision-Language Models [17.643421997037514]
差別的, 生成的両マルチモーダル医療課題に対処する新しい枠組みを提案する。
Med-MoEの学習は、マルチモーダル医療アライメント、命令チューニングとルーティング、ドメイン固有のMoEチューニングの3つのステップで構成されている。
我々のモデルは最先端のベースラインに匹敵する性能を達成できる。
論文 参考訳(メタデータ) (2024-04-16T02:35:17Z) - MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。
近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。
SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文 参考訳(メタデータ) (2024-04-13T13:39:26Z) - Towards Large-Scale Training of Pathology Foundation Models [1.5861468117231254]
我々は、オープンアクセスTCGA全体のスライドイメージに基づいてトレーニングされた、私たちの病理FMの最初のバッチを公開し、公開します。
実験により,我々のモデルが様々なパッチレベル下流タスクにおける最先端の性能に達することを示す。
本稿では,様々な下流タスクを対象としたFMの一貫性のある評価を目的としたオープンソースフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-24T21:34:36Z) - Competence-based Multimodal Curriculum Learning for Medical Report
Generation [98.10763792453925]
本稿では,コンピテンスベースのマルチモーダルカリキュラム学習フレームワーク(CMCL)を提案する。
具体的には、CMCLは放射線学者の学習過程をシミュレートし、段階的にモデルを最適化する。
パブリックIU-XrayとMIMIC-CXRデータセットの実験は、CMCLを既存のモデルに組み込んでパフォーマンスを向上させることができることを示している。
論文 参考訳(メタデータ) (2022-06-24T08:16:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。