論文の概要: How Good is my Histopathology Vision-Language Foundation Model? A Holistic Benchmark
- arxiv url: http://arxiv.org/abs/2503.12990v1
- Date: Mon, 17 Mar 2025 09:45:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 14:56:58.211468
- Title: How Good is my Histopathology Vision-Language Foundation Model? A Holistic Benchmark
- Title(参考訳): 私の病理ヴィジュアライゼーション・ランゲージ・ファンデーション・モデルはどの程度優れているか?
- Authors: Roba Al Majzoub, Hashmat Malik, Muzammal Naseer, Zaigham Zaheer, Tariq Mahmood, Salman Khan, Fahad Khan,
- Abstract要約: 組織学的視覚言語基礎モデル(VLM)は、下流の様々なタスクにまたがる性能と一般化性の向上により人気を博している。
既存の病理組織学のベンチマークのほとんどは、患者のデータプライバシーによる部分的な可用性だけでなく、臨床、臓器、取得機器の多様性の観点からも、一過性のものであるか制限されている。
HistoVLは、クラス名と多様な病理学的記述を組み込んだ、最大11種類の取得ツールとキャプションを用いて取得した画像からなる、完全にオープンソースな総合ベンチマークである。
- 参考スコア(独自算出の注目度): 21.47220651857942
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, histopathology vision-language foundation models (VLMs) have gained popularity due to their enhanced performance and generalizability across different downstream tasks. However, most existing histopathology benchmarks are either unimodal or limited in terms of diversity of clinical tasks, organs, and acquisition instruments, as well as their partial availability to the public due to patient data privacy. As a consequence, there is a lack of comprehensive evaluation of existing histopathology VLMs on a unified benchmark setting that better reflects a wide range of clinical scenarios. To address this gap, we introduce HistoVL, a fully open-source comprehensive benchmark comprising images acquired using up to 11 various acquisition tools that are paired with specifically crafted captions by incorporating class names and diverse pathology descriptions. Our Histo-VL includes 26 organs, 31 cancer types, and a wide variety of tissue obtained from 14 heterogeneous patient cohorts, totaling more than 5 million patches obtained from over 41K WSIs viewed under various magnification levels. We systematically evaluate existing histopathology VLMs on Histo-VL to simulate diverse tasks performed by experts in real-world clinical scenarios. Our analysis reveals interesting findings, including large sensitivity of most existing histopathology VLMs to textual changes with a drop in balanced accuracy of up to 25% in tasks such as Metastasis detection, low robustness to adversarial attacks, as well as improper calibration of models evident through high ECE values and low model prediction confidence, all of which can affect their clinical implementation.
- Abstract(参考訳): 近年,様々な下流タスクにまたがる性能と一般化性の向上により,病理組織学的視覚言語基盤モデル (VLM) が人気を博している。
しかし、既存の病理組織学のベンチマークのほとんどは、患者のデータプライバシーによる部分的な可用性だけでなく、臨床、臓器、取得機器の多様性の観点からも、一過性のものであるか制限されている。
その結果,既存の病理組織学的VLMの総合的評価は,幅広い臨床シナリオを反映した統一的なベンチマーク設定では不十分であった。
このギャップに対処するため、HistoVLは、クラス名と多様な病理記述を組み込むことで、特定のキャプションと組み合わせた、最大11種類の取得ツールを用いて取得した画像からなる、完全にオープンソースな総合ベンチマークである。
Histo-VLには26の臓器,31種類の癌,14の異種患者コホートから得られた多種多様な組織が含まれており,それぞれ41K以上のWSIから得られたパッチ数は合計で500万を超える。
既往の病理組織学的 VLM をHisto-VL 上で体系的に評価し,実際の臨床シナリオにおいて専門家が行う多様な課題をシミュレートした。
本研究は, 転移検出, 対人攻撃に対する堅牢性の低下, CE値の高いモデルの不適切な校正, モデル予測信頼性の低下などのタスクにおいて, 最大25%のバランスの取れた精度の低下を伴うテキスト変化に対する, 既存の病理組織学 VLM の高感度化など, 興味深い結果を示した。
関連論文リスト
- PathOrchestra: A Comprehensive Foundation Model for Computational Pathology with Over 100 Diverse Clinical-Grade Tasks [39.97710183184273]
本稿では,300Kの病理スライドからなるデータセット上で,自己教師型学習を通じて学習した多種多様な病理基盤モデルPathOrchestraを提案する。
このモデルは、61のプライベートデータセットと51のパブリックデータセットを組み合わせて、112の臨床的タスクで厳格に評価された。
PathOrchestraは27,755のWSIと9,415,729のROIで例外的なパフォーマンスを示し、47のタスクで0.950以上の精度を達成した。
論文 参考訳(メタデータ) (2025-03-31T17:28:02Z) - MIL vs. Aggregation: Evaluating Patient-Level Survival Prediction Strategies Using Graph-Based Learning [52.231128973251124]
我々は,WSIおよび患者レベルでの生存を予測するための様々な戦略を比較した。
前者はそれぞれのWSIを独立したサンプルとして扱い、他の作業で採用された戦略を模倣します。
後者は、複数のWSIの予測を集約するか、最も関連性の高いスライドを自動的に識別するメソッドを含む。
論文 参考訳(メタデータ) (2025-03-29T11:14:02Z) - Retinal Fundus Multi-Disease Image Classification using Hybrid CNN-Transformer-Ensemble Architectures [0.3277163122167434]
我々の研究は、網膜疾患による人口の急激な世界的な問題に動機付けられています。
我々の主な目的は、網膜疾患を正確に予測できる包括的診断システムを開発することである。
論文 参考訳(メタデータ) (2025-03-27T12:55:07Z) - Leveraging Vision-Language Embeddings for Zero-Shot Learning in Histopathology Images [7.048241543461529]
ゼロショット組織像分類におけるこれらの課題に対処するため, MR-PHE(Multi-Resolution Prompt-Guided Hybrid Embedding)と呼ばれる新しいフレームワークを提案する。
我々は,グローバルな画像埋め込みと重み付けされたパッチ埋め込みを統合したハイブリッドな埋め込み戦略を導入する。
類似性に基づくパッチ重み付け機構は、クラス埋め込みとの関連性に基づいて、アテンションのような重み付けをパッチに割り当てる。
論文 参考訳(メタデータ) (2025-03-13T12:18:37Z) - OphthBench: A Comprehensive Benchmark for Evaluating Large Language Models in Chinese Ophthalmology [7.743511021846898]
大規模言語モデル(LLM)は、様々な医学的応用において大きな可能性を示してきた。
我々は,中国の眼科領域におけるLCM性能を評価するためのベンチマークであるOphthBenchを紹介した。
この枠組みは、LSMの能力の徹底的な評価を可能にし、中国の眼科におけるその実践的応用に関する洞察を提供する。
論文 参考訳(メタデータ) (2025-02-03T11:04:51Z) - Comprehensive and Practical Evaluation of Retrieval-Augmented Generation Systems for Medical Question Answering [70.44269982045415]
Retrieval-augmented Generation (RAG) は,大規模言語モデル (LLM) の性能向上のための有望なアプローチとして登場した。
医療用QAデータセットに様々な補助的要素を提供するMedRGB(MedRGB)を導入する。
実験結果から,検索した文書のノイズや誤情報の処理能力に限界があることが判明した。
論文 参考訳(メタデータ) (2024-11-14T06:19:18Z) - GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。
GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。
38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文 参考訳(メタデータ) (2024-08-06T17:59:21Z) - Optimizing Skin Lesion Classification via Multimodal Data and Auxiliary
Task Integration [54.76511683427566]
本研究は, スマートフォンで撮影した画像と本質的な臨床および人口統計情報を統合することで, 皮膚病変を分類する新しいマルチモーダル手法を提案する。
この手法の特徴は、超高解像度画像予測に焦点を当てた補助的なタスクの統合である。
PAD-UFES20データセットを用いて,様々なディープラーニングアーキテクチャを用いて実験を行った。
論文 参考訳(メタデータ) (2024-02-16T05:16:20Z) - AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。
この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。
高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文 参考訳(メタデータ) (2024-02-15T06:46:48Z) - OmniMedVQA: A New Large-Scale Comprehensive Evaluation Benchmark for Medical LVLM [48.16696073640864]
我々は,新しい包括的ビジュアル質問回答(VQA)ベンチマークであるOmniMedVQAを紹介する。
このベンチマークのすべての画像は、本物の医療シナリオから得られたものです。
既存のLVLMはこれらの医療用VQA問題に効果的に取り組むのに苦労していることがわかった。
論文 参考訳(メタデータ) (2024-02-14T13:51:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。