論文の概要: PolyPath: Adapting a Large Multimodal Model for Multi-slide Pathology Report Generation
- arxiv url: http://arxiv.org/abs/2502.10536v1
- Date: Fri, 14 Feb 2025 20:09:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:16:47.121016
- Title: PolyPath: Adapting a Large Multimodal Model for Multi-slide Pathology Report Generation
- Title(参考訳): PolyPath: 大規模マルチモーダルモデルの適用
- Authors: Faruk Ahmed, Lin Yang, Tiam Jaroensri, Andrew Sellergren, Yossi Matias, Avinatan Hassidim, Greg S. Corrado, Dale R. Webster, Shravya Shetty, Shruthi Prabhakara, Yun Liu, Daniel Golden, Ellery Wulczyn, David F. Steiner,
- Abstract要約: 最大4万768ピクセルの画像パッチから10倍の倍率で複数の全スライディング画像から診断を生成できることを実証する。
専門家の病理学者による評価では、生成された報告テキストは臨床的に正確であり、元の報告と同等か、あるいは好意的であることが示されている。
- 参考スコア(独自算出の注目度): 18.734721574528702
- License:
- Abstract: The interpretation of histopathology cases underlies many important diagnostic and treatment decisions in medicine. Notably, this process typically requires pathologists to integrate and summarize findings across multiple slides per case. Existing vision-language capabilities in computational pathology have so far been largely limited to small regions of interest, larger regions at low magnification, or single whole-slide images (WSIs). This limits interpretation of findings that span multiple high-magnification regions across multiple WSIs. By making use of Gemini 1.5 Flash, a large multimodal model (LMM) with a 1-million token context window, we demonstrate the ability to generate bottom-line diagnoses from up to 40,000 768x768 pixel image patches from multiple WSIs at 10X magnification. This is the equivalent of up to 11 hours of video at 1 fps. Expert pathologist evaluations demonstrate that the generated report text is clinically accurate and equivalent to or preferred over the original reporting for 68% (95% CI: [60%, 76%]) of multi-slide examples with up to 5 slides. While performance decreased for examples with 6 or more slides, this study demonstrates the promise of leveraging the long-context capabilities of modern LMMs for the uniquely challenging task of medical report generation where each case can contain thousands of image patches.
- Abstract(参考訳): 病理組織学の解釈は、医学における多くの重要な診断と治療の決定の根底にある。
特に、このプロセスは、通常、病理学者がケース毎に複数のスライドにまたがって結果を統合し要約する必要がある。
計算病理学における既存の視覚言語能力は、これまでは、関心の小さな領域、低い倍率でのより大きな領域、単一全スライディング画像(WSI)に限られてきた。
これにより、複数のWSIにまたがる複数の高磁化領域にまたがる発見の解釈が制限される。
100万トークンコンテキストウィンドウを備えた大型マルチモーダルモデル(LMM)であるGemini 1.5 Flashを使用することで,最大4万768x768ピクセルの画像パッチから10倍の解像度でボトムライン診断を生成できることを実証する。
これは1fpsで最大11時間のビデオに匹敵する。
専門家の病理組織学的評価では,5スライドまでの多すべり例の68% (95% CI: [60%, 76%]) に対して, 得られた報告テキストは臨床的に正確で, 好ましくはない。
6枚以上のスライドを用いた場合のパフォーマンスは低下するが,本研究では,数千枚の画像パッチを格納できる医療報告生成の難易度の高い課題に,現代のLMMの長期コンテキスト機能を活用するという可能性を実証した。
関連論文リスト
- PATHS: A Hierarchical Transformer for Efficient Whole Slide Image Analysis [9.862551438475666]
計算病理学におけるスライドレベルタスクにおける階層的弱教師付き表現学習のための新しいトップダウン手法を提案する。
PATHSは、人間の病理医がスライドを検査し、各倍率レベルでパッチを診断に関連する小さなサブセットにフィルタリングする、クロスマグニフィケーションの方法にインスパイアされている。
PATHSをThe Cancer Genome Atlas(TCGA)の5つのデータセットに適用し、スライドレベルの予測タスクにおいて優れたパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-11-27T11:03:38Z) - WsiCaption: Multiple Instance Generation of Pathology Reports for Gigapixel Whole-Slide Images [5.960501267687475]
スライド画像全体から病理報告を生成する方法について検討する。
私たちは、最大のWSIテキストデータセット(PathText)をキュレートしました。
モデル終端では、多重インスタンス生成モデル(MI-Gen)を提案する。
論文 参考訳(メタデータ) (2023-11-27T05:05:41Z) - XrayGPT: Chest Radiographs Summarization using Medical Vision-Language
Models [60.437091462613544]
我々は,会話型医療ビジョン言語モデルであるXrayGPTを紹介する。
胸部X線写真に関するオープンエンドの質問を分析し、答えることができる。
自由テキストラジオグラフィーレポートから217kの対話的かつ高品質な要約を生成する。
論文 参考訳(メタデータ) (2023-06-13T17:59:59Z) - AMIGO: Sparse Multi-Modal Graph Transformer with Shared-Context
Processing for Representation Learning of Giga-pixel Images [53.29794593104923]
本稿では,スライド病理像全体に対する共有コンテキスト処理の新たな概念を提案する。
AMIGOは、組織内のセルラーグラフを使用して、患者に単一の表現を提供する。
我々のモデルは、データの20%以下で同じ性能を達成できる程度に、欠落した情報に対して強い堅牢性を示す。
論文 参考訳(メタデータ) (2023-03-01T23:37:45Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z) - Hierarchical Transformer for Survival Prediction Using Multimodality
Whole Slide Images and Genomics [63.76637479503006]
下流タスクのためのギガピクセルレベルのスライド病理画像(WSI)の良質な表現を学習することが重要である。
本稿では,病理画像と対応する遺伝子間の階層的マッピングを学習する階層型マルチモーダルトランスフォーマーフレームワークを提案する。
より優れたWSI表現能力を維持しながら、ベンチマーク手法と比較してGPUリソースが少ないアーキテクチャです。
論文 参考訳(メタデータ) (2022-11-29T23:47:56Z) - Multi-Modal Multi-Instance Learning for Retinal Disease Recognition [10.294738095942812]
我々は、特定の症例に対する複数の視覚障害を認識できるディープニューラルネットワークの構築を目指している。
データ取得と手動ラベリングは医療分野では非常に高価であるため、ネットワークは比較的軽量でなければならない。
論文 参考訳(メタデータ) (2021-09-25T08:16:47Z) - Modality Completion via Gaussian Process Prior Variational Autoencoders
for Multi-Modal Glioma Segmentation [75.58395328700821]
本稿では,患者スキャンに欠落するサブモダリティを1つ以上のインプットするために,MGP-VAE(Multi-modal Gaussian Process Prior Variational Autoencoder)を提案する。
MGP-VAEは、変分オートエンコーダ(VAE)に先立ってガウス過程(GP)を利用して、被験者/患者およびサブモダリティ相関を利用することができる。
4つのサブモダリティのうち2つ、または3つが欠落している脳腫瘍に対するMGP-VAEの適用性を示す。
論文 参考訳(メタデータ) (2021-07-07T19:06:34Z) - Generative Adversarial U-Net for Domain-free Medical Image Augmentation [49.72048151146307]
注釈付き医用画像の不足は、医用画像コンピューティングの分野における最大の課題の1つだ。
本稿では,生成逆U-Netという新しい生成手法を提案する。
当社の新しいモデルは、ドメインフリーで、さまざまな医療画像に汎用性があります。
論文 参考訳(メタデータ) (2021-01-12T23:02:26Z) - Segmentation of Cellular Patterns in Confocal Images of Melanocytic
Lesions in vivo via a Multiscale Encoder-Decoder Network (MED-Net) [2.0487455621441377]
マルチスケールデコーダネットワーク(MED-Net)は,パターンのクラスに定量的なラベル付けを行う。
メラノサイト病変の117個の反射共焦点顕微鏡(RCM)モザイクの非重畳分割について,本モデルを訓練・試験した。
論文 参考訳(メタデータ) (2020-01-03T22:34:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。