論文の概要: PRISM2: Unlocking Multi-Modal General Pathology AI with Clinical Dialogue
- arxiv url: http://arxiv.org/abs/2506.13063v1
- Date: Mon, 16 Jun 2025 03:12:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:47.393548
- Title: PRISM2: Unlocking Multi-Modal General Pathology AI with Clinical Dialogue
- Title(参考訳): PRISM2: 臨床対話によるマルチモーダル・ジェネラル・パノロジーAIの解錠
- Authors: George Shaikovski, Eugene Vorontsov, Adam Casson, Julian Viret, Eric Zimmermann, Neil Tenenholtz, Yi Kan Wang, Jan H. Bernhard, Ran A. Godrich, Juan A. Retamero, Razik Yousfi, Nicolo Fusi, Thomas J. Fuchs, Kristen Severson, Siqi Liu,
- Abstract要約: PRISM2は、臨床対話を通して訓練された多モードスライドレベルの基礎モデルであり、スケーラブルで一般化可能な病理学AIを実現する。
PRISM2は、70万近い標本(230万WSI)と実際の臨床診断報告を2段階のプロセスで組み合わせて訓練されている。
PRISMやTITANといった従来のスライドレベルのモデルよりも優れており、診断およびバイオマーカー予測タスクにおいて高い性能を発揮する。
- 参考スコア(独自算出の注目度): 2.657193510259712
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent pathology foundation models can provide rich tile-level representations but fall short of delivering general-purpose clinical utility without further extensive model development. These models lack whole-slide image (WSI) understanding and are not trained with large-scale diagnostic data, limiting their performance on diverse downstream tasks. We introduce PRISM2, a multi-modal slide-level foundation model trained via clinical dialogue to enable scalable, generalizable pathology AI. PRISM2 is trained on nearly 700,000 specimens (2.3 million WSIs) paired with real-world clinical diagnostic reports in a two-stage process. In Stage 1, a vision-language model is trained using contrastive and captioning objectives to align whole slide embeddings with textual clinical diagnosis. In Stage 2, the language model is unfrozen to enable diagnostic conversation and extract more clinically meaningful representations from hidden states. PRISM2 achieves strong performance on diagnostic and biomarker prediction tasks, outperforming prior slide-level models including PRISM and TITAN. It also introduces a zero-shot yes/no classification approach that surpasses CLIP-style methods without prompt tuning or class enumeration. By aligning visual features with clinical reasoning, PRISM2 improves generalization on both data-rich and low-sample tasks, offering a scalable path forward for building general pathology AI agents capable of assisting diagnostic and prognostic decisions.
- Abstract(参考訳): 近年の病理基盤モデルでは, リッチなタイルレベルの表現が可能であるが, より広範なモデル開発を行うことなく, 汎用的な臨床ユーティリティを提供するには至っていない。
これらのモデルは、全体スライディングイメージ(WSI)の理解が欠如しており、大規模な診断データで訓練されていないため、様々な下流タスクのパフォーマンスが制限されている。
PRISM2は、臨床対話を通して訓練された多モードスライドレベルの基礎モデルであり、スケーラブルで一般化可能な病理学AIを実現する。
PRISM2は、70万近い標本(230万WSI)と実際の臨床診断報告を2段階のプロセスで組み合わせて訓練されている。
ステージ1では、スライド埋め込み全体とテキスト臨床診断を整合させるために、コントラストとキャプションの目的を用いて視覚言語モデルを訓練する。
ステージ2では、言語モデルは凍結せず、診断の会話を可能にし、隠れた状態からより臨床的に意味のある表現を抽出する。
PRISM2は診断およびバイオマーカー予測タスクにおいて高い性能を達成し、PRISMやTITANといった以前のスライドレベルモデルよりも優れている。
また、即時チューニングやクラス列挙なしにCLIPスタイルのメソッドを超えるゼロショットのye/no分類アプローチも導入されている。
PRISM2は、視覚的特徴と臨床推論を整合させることで、データリッチタスクと低サンプルタスクの両方の一般化を改善し、診断と予後決定を支援する一般的な病理AIエージェントを構築するためのスケーラブルなパスを提供する。
関連論文リスト
- Test-Time-Scaling for Zero-Shot Diagnosis with Visual-Language Reasoning [37.37330596550283]
視覚言語モデルを用いた信頼性のある医用画像診断のためのフレームワークを提案する。
テストタイムスケーリング戦略は、複数の候補出力を信頼性のある最終診断に集約する。
様々な医用画像モダリティにまたがるアプローチを評価する。
論文 参考訳(メタデータ) (2025-06-11T22:23:38Z) - Towards Accurate and Interpretable Neuroblastoma Diagnosis via Contrastive Multi-scale Pathological Image Analysis [16.268045905735818]
病理画像分類に適したコントラスト学習に基づくマルチスケール機能融合モデルであるCMSwinKANを提案する。
マルチスケールの特徴を融合させ、対照的な学習戦略を活用することで、CMSwinKANは臨床医の包括的なアプローチを模倣する。
その結果、CMSwinKANは、既存の最先端の病理モデルよりも、大規模なデータセットで事前訓練されたモデルよりもパフォーマンスがよいことが示された。
論文 参考訳(メタデータ) (2025-04-18T15:39:46Z) - RET-CLIP: A Retinal Image Foundation Model Pre-trained with Clinical Diagnostic Reports [19.915033191502328]
Vision-Language Foundationモデルは、コンピュータビジョンと自然言語処理の分野でますます研究されている。
この問題に対処するために,CLIP型網膜画像基盤モデルを開発した。
我々の基礎モデルであるRET-CLIPは、カラーファンドスの一般的な特徴を抽出するために、193,865人の患者のデータセットで特別に訓練されている。
論文 参考訳(メタデータ) (2024-05-23T03:20:51Z) - CLIP in Medical Imaging: A Survey [59.429714742927956]
コントラスト言語-画像事前学習は、視覚モデルにテキスト管理を導入することに成功している。
CLIPの使用は最近、医療画像領域への関心が高まっている。
論文 参考訳(メタデータ) (2023-12-12T15:21:57Z) - A Transformer-based representation-learning model with unified
processing of multimodal input for clinical diagnostics [63.106382317917344]
本稿では,マルチモーダル入力を統一的に処理する臨床診断支援として,トランスフォーマーを用いた表現学習モデルについて報告する。
統一モデルは, 肺疾患の同定において, 画像のみのモデル, 非統一型マルチモーダル診断モデルより優れていた。
論文 参考訳(メタデータ) (2023-06-01T16:23:47Z) - Hierarchical discriminative learning improves visual representations of
biomedical microscopy [35.521563469534264]
HiDiscは、基礎となるがんの診断の特徴を暗黙的に学習するデータ駆動方式である。
HiDiscの事前訓練は、癌診断と遺伝的突然変異予測のための最先端の自己管理事前訓練方法より優れている。
論文 参考訳(メタデータ) (2023-03-02T22:04:42Z) - Cross-modal Clinical Graph Transformer for Ophthalmic Report Generation [116.87918100031153]
眼科報告生成(ORG)のためのクロスモーダルな臨床グラフ変換器(CGT)を提案する。
CGTは、デコード手順を駆動する事前知識として、臨床関係を視覚特徴に注入する。
大規模FFA-IRベンチマークの実験は、提案したCGTが従来のベンチマーク手法より優れていることを示した。
論文 参考訳(メタデータ) (2022-06-04T13:16:30Z) - MIMO: Mutual Integration of Patient Journey and Medical Ontology for
Healthcare Representation Learning [49.57261599776167]
本稿では、医療表現学習と予測分析のための、エンドツーエンドの堅牢なトランスフォーマーベースのソリューション、患者旅行の相互統合、医療オントロジー(MIMO)を提案する。
論文 参考訳(メタデータ) (2021-07-20T07:04:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。