論文の概要: A Multimodal Knowledge-enhanced Whole-slide Pathology Foundation Model
- arxiv url: http://arxiv.org/abs/2407.15362v3
- Date: Tue, 25 Mar 2025 08:49:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-26 16:52:00.500535
- Title: A Multimodal Knowledge-enhanced Whole-slide Pathology Foundation Model
- Title(参考訳): マルチモーダルな知識を付加した完全すべり病基盤モデル
- Authors: Yingxue Xu, Yihui Wang, Fengtao Zhou, Jiabo Ma, Cheng Jin, Shu Yang, Jinbang Li, Zhengyu Zhang, Chenglong Zhao, Huajun Zhou, Zhenhui Li, Huangjing Lin, Xin Wang, Jiguang Wang, Anjia Han, Ronald Cheong Kin Chan, Li Liang, Xiuming Zhang, Hao Chen,
- Abstract要約: 我々は,3段階のモダリティ(病理スライド,病理報告,遺伝子発現データ)を取り入れた病理基盤モデルを構築した。
我々は,Multimodal Self-Taught PRetraining(mSTAR)と呼ばれる,マルチモーダルな全スライディングコンテキストをパッチ表現に注入する,新しい全スライディング事前学習パラダイムを提案する。
我々の知る限りでは、この手法は3つのモダリティをスライディング・コンテキストに組み込んで病理学的FMを強化する最初の試みである。
- 参考スコア(独自算出の注目度): 28.893198412376943
- License:
- Abstract: Remarkable strides in computational pathology have been made in the task-agnostic foundation model that advances the performance of a wide array of downstream clinical tasks. Despite the promising performance, there are still several challenges. First, prior works have resorted to either vision-only or image-caption data, disregarding pathology reports with more clinically authentic information from pathologists and gene expression profiles which respectively offer distinct knowledge for versatile clinical applications. Second, the current progress in pathology FMs predominantly concentrates on the patch level, where the restricted context of patch-level pretraining fails to capture whole-slide patterns. Even recent slide-level FMs still struggle to provide whole-slide context for patch representation. In this study, for the first time, we develop a pathology foundation model incorporating three levels of modalities: pathology slides, pathology reports, and gene expression data, which resulted in 26,169 slide-level modality pairs from 10,275 patients across 32 cancer types, amounting to over 116 million pathological patch images. To leverage these data for CPath, we propose a novel whole-slide pretraining paradigm that injects the multimodal whole-slide context into the patch representation, called Multimodal Self-TAught PRetraining (mSTAR). The proposed paradigm revolutionizes the pretraining workflow for CPath, enabling the pathology FM to acquire the whole-slide context. To the best of our knowledge, this is the first attempt to incorporate three modalities at the whole-slide context for enhancing pathology FMs. To systematically evaluate the capabilities of mSTAR, we built the largest spectrum of oncological benchmark, spanning 7 categories of oncological applications in 15 types of 97 practical oncological tasks.
- Abstract(参考訳): 計算病理学における顕著な進歩は、幅広い下流臨床タスクのパフォーマンスを向上するタスクに依存しない基礎モデルにおいてなされている。
有望なパフォーマンスにもかかわらず、まだいくつかの課題があります。
第一に、以前の研究は視覚のみまたはイメージキャプチャーのデータに頼っており、病理学者からより臨床的に信頼できる情報を持つ病理報告や、多目的臨床応用のための異なる知識を提供する遺伝子発現プロファイルを無視している。
第2に、FMの現在の進歩はパッチレベルに集中しており、パッチレベルの事前トレーニングの制限されたコンテキストは、スライディング全体のパターンをキャプチャできない。
最近のスライドレベルFMでさえ、パッチ表現のための全スライドコンテキストの提供に苦戦している。
本研究では,32種類の癌患者10,275人を対象に,病理スライド,病理報告,遺伝子発現データという3段階のモダリティを取り入れた病理基盤モデルを構築した。
CPathにおけるこれらのデータを活用するために,マルチモーダル・セルフ・タウト・プレトレーニング(mSTAR)と呼ばれる,マルチモーダル・セルフ・タウト・プレトレーニング(Multimodal Self-Taught PRetraining)と呼ばれる,マルチモーダル・コンテクストをパッチ表現に注入する,新しい全スライディング事前学習パラダイムを提案する。
提案したパラダイムはCPathの事前学習ワークフローに革命をもたらし,病理学的なFMがコンテキスト全体を取得することを可能にする。
我々の知る限りでは、この手法は3つのモダリティをスライディング・コンテキストに組み込んで病理学的FMを強化する最初の試みである。
mSTARの能力を体系的に評価するため,本研究では,7つのオンコロジー分野にまたがる最大スペクトルのオンコロジー・ベンチマークを構築した。
関連論文リスト
- MLLM4PUE: Toward Universal Embeddings in Computational Pathology through Multimodal LLMs [34.454047458272505]
複数の下流タスクをサポートするユニバーサルなマルチモーダル埋め込みの必要性を強調した。
以前のアプローチでは、イメージとテキストを別々に扱うCLIPベースのモデルを微調整することが多い。
病的マルチモーダル埋め込みの質を評価するためのベンチマークであるPMEB(Pathology Multimodal Embedding Benchmark)を紹介する。
論文 参考訳(メタデータ) (2025-02-11T03:28:55Z) - MIND: Modality-Informed Knowledge Distillation Framework for Multimodal Clinical Prediction Tasks [50.98856172702256]
マルチモーダルモデル圧縮手法である MIND (Modality-Informed Knowledge Distillation) フレームワークを提案する。
MINDは、様々なサイズの事前訓練されたディープニューラルネットワークのアンサンブルから、より小さなマルチモーダルの学生に知識を伝達する。
時系列データと胸部X線画像を用いた2値および複数ラベルの臨床予測タスクにおけるMINDの評価を行った。
論文 参考訳(メタデータ) (2025-02-03T08:50:00Z) - Continually Evolved Multimodal Foundation Models for Cancer Prognosis [50.43145292874533]
がん予後は、患者の予後と生存率を予測する重要なタスクである。
これまでの研究では、臨床ノート、医療画像、ゲノムデータなどの多様なデータモダリティを統合し、補完的な情報を活用している。
既存のアプローチには2つの大きな制限がある。まず、各病院の患者記録など、各種のトレーニングに新しく到着したデータを組み込むことに苦慮する。
第二に、ほとんどのマルチモーダル統合手法は単純化された結合やタスク固有のパイプラインに依存しており、モダリティ間の複雑な相互依存を捉えることができない。
論文 参考訳(メタデータ) (2025-01-30T06:49:57Z) - Molecular-driven Foundation Model for Oncologic Pathology [6.922502805825084]
スライドレベルの基盤モデルであるThreadsを導入し、任意のサイズの全スライド画像の普遍的な表現を生成する。
スレッドは47,171ヘマトキシリンとエオシン(H&E)染色組織分画の多モード学習法を用いて事前訓練を行った。
論文 参考訳(メタデータ) (2025-01-28T02:35:02Z) - CPath-Omni: A Unified Multimodal Foundation Model for Patch and Whole Slide Image Analysis in Computational Pathology [17.781388341968967]
CPath-OmniはパッチとWSIレベルの画像解析を統合するために設計された最初のLMMである。
CPath-Omniは、42データセット中39のタスクに対して、最新技術(SOTA)のパフォーマンスを達成する。
CPath-CLIPは、初めて異なるビジョンモデルを統合し、大きな言語モデルをテキストエンコーダとして組み込んで、より強力なCLIPモデルを構築する。
論文 参考訳(メタデータ) (2024-12-16T18:46:58Z) - Cross-Modal Few-Shot Learning: a Generative Transfer Learning Framework [58.362064122489166]
本稿では,複数モーダルからインスタンスを識別するクロスモーダルなFew-Shot Learningタスクを提案する。
本稿では,1つの段階からなる生成的転帰学習フレームワークを提案する。1つは豊富な一助データに対する学習を伴い,もう1つは新しいデータに適応するための転帰学習に焦点を当てる。
以上の結果から,GTLは4つの異なるマルチモーダルデータセット間の最先端手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-14T16:09:38Z) - PMT: Progressive Mean Teacher via Exploring Temporal Consistency for Semi-Supervised Medical Image Segmentation [51.509573838103854]
医用画像セグメンテーションのための半教師付き学習フレームワークであるプログレッシブ平均教師(PMT)を提案する。
我々のPMTは、トレーニングプロセスにおいて、堅牢で多様な特徴を学習することで、高忠実な擬似ラベルを生成する。
CT と MRI の異なる2つのデータセットに対する実験結果から,本手法が最先端の医用画像分割法より優れていることが示された。
論文 参考訳(メタデータ) (2024-09-08T15:02:25Z) - Med-MoE: Mixture of Domain-Specific Experts for Lightweight Medical Vision-Language Models [17.643421997037514]
差別的, 生成的両マルチモーダル医療課題に対処する新しい枠組みを提案する。
Med-MoEの学習は、マルチモーダル医療アライメント、命令チューニングとルーティング、ドメイン固有のMoEチューニングの3つのステップで構成されている。
我々のモデルは最先端のベースラインに匹敵する性能を達成できる。
論文 参考訳(メタデータ) (2024-04-16T02:35:17Z) - MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。
近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。
SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文 参考訳(メタデータ) (2024-04-13T13:39:26Z) - Towards Large-Scale Training of Pathology Foundation Models [1.5861468117231254]
我々は、オープンアクセスTCGA全体のスライドイメージに基づいてトレーニングされた、私たちの病理FMの最初のバッチを公開し、公開します。
実験により,我々のモデルが様々なパッチレベル下流タスクにおける最先端の性能に達することを示す。
本稿では,様々な下流タスクを対象としたFMの一貫性のある評価を目的としたオープンソースフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-24T21:34:36Z) - Competence-based Multimodal Curriculum Learning for Medical Report
Generation [98.10763792453925]
本稿では,コンピテンスベースのマルチモーダルカリキュラム学習フレームワーク(CMCL)を提案する。
具体的には、CMCLは放射線学者の学習過程をシミュレートし、段階的にモデルを最適化する。
パブリックIU-XrayとMIMIC-CXRデータセットの実験は、CMCLを既存のモデルに組み込んでパフォーマンスを向上させることができることを示している。
論文 参考訳(メタデータ) (2022-06-24T08:16:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。