論文の概要: PathAlign: A vision-language model for whole slide images in histopathology
- arxiv url: http://arxiv.org/abs/2406.19578v1
- Date: Thu, 27 Jun 2024 23:43:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-01 18:10:10.152420
- Title: PathAlign: A vision-language model for whole slide images in histopathology
- Title(参考訳): PathAlign: 病理組織学における全スライド画像の視覚言語モデル
- Authors: Faruk Ahmed, Andrew Sellergren, Lin Yang, Shawn Xu, Boris Babenko, Abbi Ward, Niels Olson, Arash Mohtashamian, Yossi Matias, Greg S. Corrado, Quang Duong, Dale R. Webster, Shravya Shetty, Daniel Golden, Yun Liu, David F. Steiner, Ellery Wulczyn,
- Abstract要約: We developed a vision- language model based on the BLIP-2 framework using WSIs and curated text from pathology reports。
これにより、関心のある事例を見つけるために、テキストや画像検索などの共有画像テキスト埋め込みスペースを利用することができる。
本稿では、WSI埋め込みを用いたテキスト生成とテキスト検索の病理学評価と、WSI分類とワークフロー優先順位付けの結果について述べる。
- 参考スコア(独自算出の注目度): 13.567674461880905
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Microscopic interpretation of histopathology images underlies many important diagnostic and treatment decisions. While advances in vision-language modeling raise new opportunities for analysis of such images, the gigapixel-scale size of whole slide images (WSIs) introduces unique challenges. Additionally, pathology reports simultaneously highlight key findings from small regions while also aggregating interpretation across multiple slides, often making it difficult to create robust image-text pairs. As such, pathology reports remain a largely untapped source of supervision in computational pathology, with most efforts relying on region-of-interest annotations or self-supervision at the patch-level. In this work, we develop a vision-language model based on the BLIP-2 framework using WSIs paired with curated text from pathology reports. This enables applications utilizing a shared image-text embedding space, such as text or image retrieval for finding cases of interest, as well as integration of the WSI encoder with a frozen large language model (LLM) for WSI-based generative text capabilities such as report generation or AI-in-the-loop interactions. We utilize a de-identified dataset of over 350,000 WSIs and diagnostic text pairs, spanning a wide range of diagnoses, procedure types, and tissue types. We present pathologist evaluation of text generation and text retrieval using WSI embeddings, as well as results for WSI classification and workflow prioritization (slide-level triaging). Model-generated text for WSIs was rated by pathologists as accurate, without clinically significant error or omission, for 78% of WSIs on average. This work demonstrates exciting potential capabilities for language-aligned WSI embeddings.
- Abstract(参考訳): 病理組織像の顕微鏡的解釈は、多くの重要な診断と治療の決定の根底にある。
視覚言語モデリングの進歩は、そのような画像の分析に新たな機会をもたらす一方で、スライド画像全体(WSI)のギガピクセル規模のサイズは、ユニークな課題をもたらす。
さらに、病理報告では、小さな領域からの重要な発見を同時に強調するとともに、複数のスライドにまたがる解釈を集約することで、堅牢な画像テキストペアの作成が困難になることが多い。
このように、病理報告は計算病理学におけるほとんど未解決の監督源であり、ほとんどの取り組みはパッチレベルでの領域のアノテーションや自己監督に依存している。
本研究では, BLIP-2フレームワークをベースとした視覚言語モデルを開発した。
これにより、関心のあるケースを見つけるためにテキストや画像検索などの共有画像テキスト埋め込みスペースを利用するアプリケーションや、WSIエンコーダと、レポート生成やAI-in-the-loopインタラクションなどのWSIベースの生成テキスト機能のための凍結された大言語モデル(LLM)との統合が可能になる。
350,000以上のWSIと診断テキストペアの非同定データセットを使用し、幅広い診断、処置タイプ、組織タイプにまたがる。
本稿では,WSI 埋め込みを用いたテキスト生成とテキスト検索の病理学者による評価と,WSI 分類とワークフロー優先化(スライディングレベルトリアージ)の結果について述べる。
WSIsのモデル生成テキストは,WSIsの平均値の78%に対して,臨床的に有意な誤りや欠落を伴わず,病理医によって正確であると評価された。
この作業は、言語対応のWSI埋め込みのエキサイティングな可能性を示しています。
関連論文リスト
- WSI-VQA: Interpreting Whole Slide Images by Generative Visual Question Answering [6.315841446240698]
生成的視覚的質問応答により,スライド画像全体(WSI)を解釈する新しい枠組みを提案する。
WSI-VQAは、様々なスライドレベルのタスクを質問応答パターンで記述することで、普遍性を示す。
8672のスライドレベル質問応答対と977のWSIを含むWSI-VQAデータセットを構築した。
論文 参考訳(メタデータ) (2024-07-08T04:37:32Z) - Language Guided Domain Generalized Medical Image Segmentation [68.93124785575739]
単一ソースドメインの一般化は、より信頼性が高く一貫性のあるイメージセグメンテーションを現実の臨床環境にわたって約束する。
本稿では,テキストエンコーダ機能によって案内されるコントラスト学習機構を組み込むことで,テキスト情報を明確に活用する手法を提案する。
文献における既存手法に対して,本手法は良好な性能を発揮する。
論文 参考訳(メタデータ) (2024-04-01T17:48:15Z) - Hierarchical Text-to-Vision Self Supervised Alignment for Improved Histopathology Representation Learning [64.1316997189396]
病理組織像のための新しい言語型自己教師学習フレームワーク,階層型言語型自己監督(HLSS)を提案する。
その結果,OpenSRH と TCGA の2つの医用画像ベンチマークにおいて,最先端の性能が得られた。
論文 参考訳(メタデータ) (2024-03-21T17:58:56Z) - PathM3: A Multimodal Multi-Task Multiple Instance Learning Framework for Whole Slide Image Classification and Captioning [35.24716774767677]
本稿では,WSI分類とキャプションのためのマルチタスク・マルチインスタンス学習フレームワークPathM3を提案する。
本手法は,限られたWSI診断キャプションデータを活用することで,WSIレベルのキャプションにおけるデータ不足を克服する。
論文 参考訳(メタデータ) (2024-03-13T21:19:12Z) - A self-supervised framework for learning whole slide representations [52.774822784847565]
我々は、全スライド画像のギガピクセルスケールの自己スーパービジョンのためのSlide Pre-trained Transformer (SPT)を提案する。
バイオメディカル・マイクロスコープ・データセットを用いて,5つの診断課題におけるSPT視覚表現のベンチマークを行った。
論文 参考訳(メタデータ) (2024-02-09T05:05:28Z) - WsiCaption: Multiple Instance Generation of Pathology Reports for Gigapixel Whole-Slide Images [5.960501267687475]
スライド画像全体から病理報告を生成する方法について検討する。
私たちは、最大のWSIテキストデータセット(PathText)をキュレートしました。
モデル終端では、多重インスタンス生成モデル(MI-Gen)を提案する。
論文 参考訳(メタデータ) (2023-11-27T05:05:41Z) - Long-MIL: Scaling Long Contextual Multiple Instance Learning for
Histopathology Whole Slide Image Analysis [9.912061800841267]
病理組織の全スライド画像(WSI)を解析に用いる。
以前の方法は一般的にWSIを多数のパッチに分割し、WSI内のすべてのパッチを集約してスライドレベルの予測を行う。
本稿では,線形バイアスを注意に導入することにより,形状の異なる長文WSIの位置埋め込みを改善することを提案する。
論文 参考訳(メタデータ) (2023-11-21T03:08:47Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z) - Hierarchical Transformer for Survival Prediction Using Multimodality
Whole Slide Images and Genomics [63.76637479503006]
下流タスクのためのギガピクセルレベルのスライド病理画像(WSI)の良質な表現を学習することが重要である。
本稿では,病理画像と対応する遺伝子間の階層的マッピングを学習する階層型マルチモーダルトランスフォーマーフレームワークを提案する。
より優れたWSI表現能力を維持しながら、ベンチマーク手法と比較してGPUリソースが少ないアーキテクチャです。
論文 参考訳(メタデータ) (2022-11-29T23:47:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。