論文の概要: WSI-LLaVA: A Multimodal Large Language Model for Whole Slide Image
- arxiv url: http://arxiv.org/abs/2412.02141v2
- Date: Tue, 10 Dec 2024 20:00:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-12 14:00:03.819273
- Title: WSI-LLaVA: A Multimodal Large Language Model for Whole Slide Image
- Title(参考訳): WSI-LLaVA:全スライド画像のためのマルチモーダル大言語モデル
- Authors: Yuci Liang, Xinheng Lyu, Meidan Ding, Wenting Chen, Jipeng Zhang, Yuexiang Ren, Xiangjian He, Song Wu, Sen Yang, Xiyue Wang, Xiaohan Xing, Linlin Shen,
- Abstract要約: ギガピクセルのWSI理解のためのフレームワークであるWSI-LLaVAを3段階のトレーニングアプローチで紹介する。
実験の結果、WSI-LLaVAはすべての能力範囲で既存のモデルより優れています。
- 参考スコア(独自算出の注目度): 38.04526267874889
- License:
- Abstract: Recent advancements in computational pathology have produced patch-level Multi-modal Large Language Models (MLLMs), but these models are limited by their inability to analyze whole slide images (WSIs) comprehensively and their tendency to bypass crucial morphological features that pathologists rely on for diagnosis. To address these challenges, we first introduce WSI-Bench, a large-scale morphology-aware benchmark containing 180k VQA pairs from 9,850 WSIs across 30 cancer types, designed to evaluate MLLMs' understanding of morphological characteristics crucial for accurate diagnosis. Building upon this benchmark, we present WSI-LLaVA, a novel framework for gigapixel WSI understanding that employs a three-stage training approach: WSI-text alignment, feature space alignment, and task-specific instruction tuning. To better assess model performance in pathological contexts, we develop two specialized WSI metrics: WSI-Precision and WSI-Relevance. Experimental results demonstrate that WSI-LLaVA outperforms existing models across all capability dimensions, with a significant improvement in morphological analysis, establishing a clear correlation between morphological understanding and diagnostic accuracy.
- Abstract(参考訳): 近年のコンピュータ病理学の発展によりパッチレベルのマルチモーダル言語モデル (MLLM) が生み出されているが、これらのモデルは、全体像(WSI)を包括的に解析できないことと、病理学者が診断に頼っている重要な形態的特徴を回避できない傾向によって制限されている。
これらの課題に対処するために,我々はまず,30種類の癌に対して,9,850個のWSIから180kのVQAペアを含む大規模形態素認識ベンチマークであるWSI-Benchを紹介した。
このベンチマークに基づいて構築されたWSI-LLaVAは,3段階のトレーニングアプローチであるWSIテキストアライメント,機能空間アライメント,タスク固有のインストラクションチューニングを採用した,ギガピクセルWSI理解のための新しいフレームワークである。
病理学的文脈におけるモデル性能を評価するために、WSI-PrecisionとWSI-Relevanceという2つの専門的なWSIメトリクスを開発した。
実験結果から,WSI-LLaVAはすべての機能次元において既存のモデルよりも優れており,形態学的解析が大幅に向上し,形態的理解と診断精度の明確な相関が確立された。
関連論文リスト
- EMMA: Efficient Visual Alignment in Multi-Modal LLMs [56.03417732498859]
EMMAは、視覚的およびテキスト的エンコーディングを効率的に融合するために設計された軽量なクロスプラットフォームモジュールである。
EMMAは複数のタスクのパフォーマンスを最大9.3%向上させ、幻覚に対する堅牢性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-02T23:00:31Z) - Clinical-grade Multi-Organ Pathology Report Generation for Multi-scale Whole Slide Images via a Semantically Guided Medical Text Foundation Model [3.356716093747221]
患者に対する病理報告を生成するために, 患者レベル多臓器報告生成(PMPRG)モデルを提案する。
我々のモデルはMETEORスコア0.68を達成し、我々のアプローチの有効性を実証した。
論文 参考訳(メタデータ) (2024-09-23T22:22:32Z) - WSI-VQA: Interpreting Whole Slide Images by Generative Visual Question Answering [6.315841446240698]
生成的視覚的質問応答により,スライド画像全体(WSI)を解釈する新しい枠組みを提案する。
WSI-VQAは、様々なスライドレベルのタスクを質問応答パターンで記述することで、普遍性を示す。
8672のスライドレベル質問応答対と977のWSIを含むWSI-VQAデータセットを構築した。
論文 参考訳(メタデータ) (2024-07-08T04:37:32Z) - PathAlign: A vision-language model for whole slide images in histopathology [13.567674461880905]
We developed a vision- language model based on the BLIP-2 framework using WSIs and curated text from pathology reports。
これにより、関心のある事例を見つけるために、テキストや画像検索などの共有画像テキスト埋め込みスペースを利用することができる。
本稿では、WSI埋め込みを用いたテキスト生成とテキスト検索の病理学評価と、WSI分類とワークフロー優先順位付けの結果について述べる。
論文 参考訳(メタデータ) (2024-06-27T23:43:36Z) - PathM3: A Multimodal Multi-Task Multiple Instance Learning Framework for Whole Slide Image Classification and Captioning [35.24716774767677]
本稿では,WSI分類とキャプションのためのマルチタスク・マルチインスタンス学習フレームワークPathM3を提案する。
本手法は,限られたWSI診断キャプションデータを活用することで,WSIレベルのキャプションにおけるデータ不足を克服する。
論文 参考訳(メタデータ) (2024-03-13T21:19:12Z) - MamMIL: Multiple Instance Learning for Whole Slide Images with State Space Models [56.37780601189795]
本稿では,WSI分析のためのフレームワークMamMILを提案する。
私たちは各WSIを非指向グラフとして表現します。
マンバが1次元シーケンスしか処理できない問題に対処するために、トポロジ対応の走査機構を提案する。
論文 参考訳(メタデータ) (2024-03-08T09:02:13Z) - A self-supervised framework for learning whole slide representations [52.774822784847565]
我々は、全スライド画像のギガピクセルスケールの自己スーパービジョンのためのSlide Pre-trained Transformer (SPT)を提案する。
バイオメディカル・マイクロスコープ・データセットを用いて,5つの診断課題におけるSPT視覚表現のベンチマークを行った。
論文 参考訳(メタデータ) (2024-02-09T05:05:28Z) - Long-MIL: Scaling Long Contextual Multiple Instance Learning for
Histopathology Whole Slide Image Analysis [9.912061800841267]
病理組織の全スライド画像(WSI)を解析に用いる。
以前の方法は一般的にWSIを多数のパッチに分割し、WSI内のすべてのパッチを集約してスライドレベルの予測を行う。
本稿では,線形バイアスを注意に導入することにより,形状の異なる長文WSIの位置埋め込みを改善することを提案する。
論文 参考訳(メタデータ) (2023-11-21T03:08:47Z) - Hierarchical Transformer for Survival Prediction Using Multimodality
Whole Slide Images and Genomics [63.76637479503006]
下流タスクのためのギガピクセルレベルのスライド病理画像(WSI)の良質な表現を学習することが重要である。
本稿では,病理画像と対応する遺伝子間の階層的マッピングを学習する階層型マルチモーダルトランスフォーマーフレームワークを提案する。
より優れたWSI表現能力を維持しながら、ベンチマーク手法と比較してGPUリソースが少ないアーキテクチャです。
論文 参考訳(メタデータ) (2022-11-29T23:47:56Z) - A multi-stage machine learning model on diagnosis of esophageal
manometry [50.591267188664666]
このフレームワークには、飲み込みレベルにおけるディープラーニングモデルと、学習レベルにおける機能ベースの機械学習モデルが含まれている。
これは、生のマルチスワローデータからHRM研究のCC診断を自動的に予測する最初の人工知能モデルである。
論文 参考訳(メタデータ) (2021-06-25T20:09:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。