論文の概要: PRISM2: Unlocking Multi-Modal General Pathology AI with Clinical Dialogue
- arxiv url: http://arxiv.org/abs/2506.13063v2
- Date: Fri, 31 Oct 2025 20:56:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-04 20:19:58.454237
- Title: PRISM2: Unlocking Multi-Modal General Pathology AI with Clinical Dialogue
- Title(参考訳): PRISM2: 臨床対話によるマルチモーダル・ジェネラル・パノロジーAIの解錠
- Authors: Eugene Vorontsov, George Shaikovski, Adam Casson, Julian Viret, Eric Zimmermann, Neil Tenenholtz, Yi Kan Wang, Jan H. Bernhard, Ran A. Godrich, Juan A. Retamero, Jinru Shia, Mithat Gonen, Martin R. Weiser, David S. Klimstra, Razik Yousfi, Nicolo Fusi, Thomas J. Fuchs, Kristen Severson, Siqi Liu,
- Abstract要約: PRISM2は,70,000検体-報告ペアのデータに基づいて訓練された多モードスライドレベル基礎モデルである。
PRISM2は、病理形態学的特徴を診断的推論の言語と整合させ、スライドレベルの表現を生成する。
以上の結果から,言語指導による事前学習が,拡張性,臨床的根拠を生かした,一般化可能な病理表現の学習にどのように役立つかが示唆された。
- 参考スコア(独自算出の注目度): 2.578328028000588
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent rapid progress in the field of computational pathology has been enabled by foundation models. These models are beginning to move beyond encoding image patches towards whole-slide understanding but their clinical utility remains limited. In this work, we present PRISM2, a multimodal slide-level foundation model trained on data from 700,000 diagnostic specimen-report pairs, the largest vision (2.3 million whole slide images) and language (14M question-answer pairs) histopathology dataset to date. By learning through clinical-dialogue supervision, PRISM2 aligns histomorphologic features with the language of diagnostic reasoning, producing slide-level representations that support both direct diagnostic question-answering and transferable embeddings for downstream tasks. Without additional training, PRISM2 matches or exceeds the cancer-detection performance of clinical-grade products. This is observed without loss of generality on other tasks, where PRISM2 achieves top performance. Finally, using survival prediction as the example, we show that task-specific finetuning with a large dataset can outperform task-specific models, further improving performance. These results demonstrate how language-supervised pretraining provides a scalable, clinically grounded signal for learning generalizable pathology representations, bridging human diagnostic reasoning and foundation-model performance.
- Abstract(参考訳): 計算病理学の分野での最近の急速な進歩は基礎モデルによって実現されている。
これらのモデルは、画像パッチのエンコーディングを超えて、全体の理解へと移行し始めているが、その臨床的有用性は依然として限られている。
本研究では,70,000の検体報告ペアのデータに基づいてトレーニングされた多モードスライドレベル基盤モデルであるPRISM2について述べる。
臨床対話の指導を通じてPRISM2は、病理形態学的特徴を診断的推論の言語と整合させ、下流タスクのための直接診断的質問回答と伝達可能な埋め込みの両方をサポートするスライドレベルの表現を生成する。
追加の訓練がなければ、PRISM2は臨床レベルの製品のがん検出性能に適合するか、超える。
これは、PRISM2が最高性能を達成する他のタスクにおいて、一般性を失うことなく観察される。
最後に、サバイバル予測を例として、大規模データセットによるタスク固有の微調整がタスク固有のモデルより優れ、パフォーマンスがさらに向上することを示す。
これらの結果は,言語指導による事前訓練が,一般的な病理表現の学習,ヒト診断推論のブリッジング,基礎モデルの性能向上に,スケーラブルで臨床的に基礎的なシグナルを提供することを示す。
関連論文リスト
- Multimodal Causal-Driven Representation Learning for Generalizable Medical Image Segmentation [56.52520416420957]
医用画像セグメンテーションにおける領域一般化に取り組むために, MCDRL(Multimodal Causal-Driven Representation Learning)を提案する。
MCDRLは競合する手法より一貫して優れ、セグメンテーション精度が優れ、堅牢な一般化性を示す。
論文 参考訳(メタデータ) (2025-08-07T03:41:41Z) - Test-Time-Scaling for Zero-Shot Diagnosis with Visual-Language Reasoning [37.37330596550283]
視覚言語モデルを用いた信頼性のある医用画像診断のためのフレームワークを提案する。
テストタイムスケーリング戦略は、複数の候補出力を信頼性のある最終診断に集約する。
様々な医用画像モダリティにまたがるアプローチを評価する。
論文 参考訳(メタデータ) (2025-06-11T22:23:38Z) - A Comprehensive Evaluation of Multi-Modal Large Language Models for Endoscopy Analysis [37.59267835101216]
EndoBenchは、内視鏡的プラクティスの全スペクトルにわたるMLLMを評価するために特別に設計された最初の包括的なベンチマークである。
我々は、汎用、医療特化、プロプライエタリMLLMを含む23の最先端モデルをベンチマークする。
私たちの実験では、プロプライエタリなMLLMは、オープンソースや医療専門のモデルよりも優れていますが、それでも人間の専門家を追い越しています。
論文 参考訳(メタデータ) (2025-05-29T16:14:34Z) - MAKE: Multi-Aspect Knowledge-Enhanced Vision-Language Pretraining for Zero-shot Dermatological Assessment [12.665019147690975]
MAKEはゼロショット皮膚科学タスクのための視覚言語事前学習フレームワークである。
臨床物語を知識に富んだサブテキストに分解する。
臨床上の意義に基づいて、異なるサブカプセルを優先順位付けする。
論文 参考訳(メタデータ) (2025-05-14T13:24:08Z) - Towards Accurate and Interpretable Neuroblastoma Diagnosis via Contrastive Multi-scale Pathological Image Analysis [16.268045905735818]
病理画像分類に適したコントラスト学習に基づくマルチスケール機能融合モデルであるCMSwinKANを提案する。
マルチスケールの特徴を融合させ、対照的な学習戦略を活用することで、CMSwinKANは臨床医の包括的なアプローチを模倣する。
その結果、CMSwinKANは、既存の最先端の病理モデルよりも、大規模なデータセットで事前訓練されたモデルよりもパフォーマンスがよいことが示された。
論文 参考訳(メタデータ) (2025-04-18T15:39:46Z) - RET-CLIP: A Retinal Image Foundation Model Pre-trained with Clinical Diagnostic Reports [19.915033191502328]
Vision-Language Foundationモデルは、コンピュータビジョンと自然言語処理の分野でますます研究されている。
この問題に対処するために,CLIP型網膜画像基盤モデルを開発した。
我々の基礎モデルであるRET-CLIPは、カラーファンドスの一般的な特徴を抽出するために、193,865人の患者のデータセットで特別に訓練されている。
論文 参考訳(メタデータ) (2024-05-23T03:20:51Z) - CLIP in Medical Imaging: A Survey [59.429714742927956]
コントラスト言語-画像事前学習は、視覚モデルにテキスト管理を導入することに成功している。
CLIPの使用は最近、医療画像領域への関心が高まっている。
論文 参考訳(メタデータ) (2023-12-12T15:21:57Z) - Robust and Interpretable Medical Image Classifiers via Concept
Bottleneck Models [49.95603725998561]
本稿では,自然言語の概念を用いた堅牢で解釈可能な医用画像分類器を構築するための新しいパラダイムを提案する。
具体的には、まず臨床概念をGPT-4から検索し、次に視覚言語モデルを用いて潜在画像の特徴を明示的な概念に変換する。
論文 参考訳(メタデータ) (2023-10-04T21:57:09Z) - A Transformer-based representation-learning model with unified
processing of multimodal input for clinical diagnostics [63.106382317917344]
本稿では,マルチモーダル入力を統一的に処理する臨床診断支援として,トランスフォーマーを用いた表現学習モデルについて報告する。
統一モデルは, 肺疾患の同定において, 画像のみのモデル, 非統一型マルチモーダル診断モデルより優れていた。
論文 参考訳(メタデータ) (2023-06-01T16:23:47Z) - Hierarchical discriminative learning improves visual representations of
biomedical microscopy [35.521563469534264]
HiDiscは、基礎となるがんの診断の特徴を暗黙的に学習するデータ駆動方式である。
HiDiscの事前訓練は、癌診断と遺伝的突然変異予測のための最先端の自己管理事前訓練方法より優れている。
論文 参考訳(メタデータ) (2023-03-02T22:04:42Z) - Dissecting Self-Supervised Learning Methods for Surgical Computer Vision [51.370873913181605]
一般のコンピュータビジョンコミュニティでは,自己監視学習(SSL)手法が普及し始めている。
医学や手術など、より複雑で影響力のある領域におけるSSLメソッドの有効性は、限定的かつ未調査のままである。
外科的文脈理解,位相認識,ツール存在検出の2つの基本的なタスクに対して,これらの手法の性能をColec80データセット上で広範囲に解析する。
論文 参考訳(メタデータ) (2022-07-01T14:17:11Z) - Cross-modal Clinical Graph Transformer for Ophthalmic Report Generation [116.87918100031153]
眼科報告生成(ORG)のためのクロスモーダルな臨床グラフ変換器(CGT)を提案する。
CGTは、デコード手順を駆動する事前知識として、臨床関係を視覚特徴に注入する。
大規模FFA-IRベンチマークの実験は、提案したCGTが従来のベンチマーク手法より優れていることを示した。
論文 参考訳(メタデータ) (2022-06-04T13:16:30Z) - MIMO: Mutual Integration of Patient Journey and Medical Ontology for
Healthcare Representation Learning [49.57261599776167]
本稿では、医療表現学習と予測分析のための、エンドツーエンドの堅牢なトランスフォーマーベースのソリューション、患者旅行の相互統合、医療オントロジー(MIMO)を提案する。
論文 参考訳(メタデータ) (2021-07-20T07:04:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。