論文の概要: How Good is my Histopathology Vision-Language Foundation Model? A Holistic Benchmark
- arxiv url: http://arxiv.org/abs/2503.12990v1
- Date: Mon, 17 Mar 2025 09:45:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:29:03.251795
- Title: How Good is my Histopathology Vision-Language Foundation Model? A Holistic Benchmark
- Title(参考訳): 私の病理ヴィジュアライゼーション・ランゲージ・ファンデーション・モデルはどの程度優れているか?
- Authors: Roba Al Majzoub, Hashmat Malik, Muzammal Naseer, Zaigham Zaheer, Tariq Mahmood, Salman Khan, Fahad Khan,
- Abstract要約: 組織学的視覚言語基礎モデル(VLM)は、下流の様々なタスクにまたがる性能と一般化性の向上により人気を博している。
既存の病理組織学のベンチマークのほとんどは、患者のデータプライバシーによる部分的な可用性だけでなく、臨床、臓器、取得機器の多様性の観点からも、一過性のものであるか制限されている。
HistoVLは、クラス名と多様な病理学的記述を組み込んだ、最大11種類の取得ツールとキャプションを用いて取得した画像からなる、完全にオープンソースな総合ベンチマークである。
- 参考スコア(独自算出の注目度): 21.47220651857942
- License:
- Abstract: Recently, histopathology vision-language foundation models (VLMs) have gained popularity due to their enhanced performance and generalizability across different downstream tasks. However, most existing histopathology benchmarks are either unimodal or limited in terms of diversity of clinical tasks, organs, and acquisition instruments, as well as their partial availability to the public due to patient data privacy. As a consequence, there is a lack of comprehensive evaluation of existing histopathology VLMs on a unified benchmark setting that better reflects a wide range of clinical scenarios. To address this gap, we introduce HistoVL, a fully open-source comprehensive benchmark comprising images acquired using up to 11 various acquisition tools that are paired with specifically crafted captions by incorporating class names and diverse pathology descriptions. Our Histo-VL includes 26 organs, 31 cancer types, and a wide variety of tissue obtained from 14 heterogeneous patient cohorts, totaling more than 5 million patches obtained from over 41K WSIs viewed under various magnification levels. We systematically evaluate existing histopathology VLMs on Histo-VL to simulate diverse tasks performed by experts in real-world clinical scenarios. Our analysis reveals interesting findings, including large sensitivity of most existing histopathology VLMs to textual changes with a drop in balanced accuracy of up to 25% in tasks such as Metastasis detection, low robustness to adversarial attacks, as well as improper calibration of models evident through high ECE values and low model prediction confidence, all of which can affect their clinical implementation.
- Abstract(参考訳): 近年,様々な下流タスクにまたがる性能と一般化性の向上により,病理組織学的視覚言語基盤モデル (VLM) が人気を博している。
しかし、既存の病理組織学のベンチマークのほとんどは、患者のデータプライバシーによる部分的な可用性だけでなく、臨床、臓器、取得機器の多様性の観点からも、一過性のものであるか制限されている。
その結果,既存の病理組織学的VLMの総合的評価は,幅広い臨床シナリオを反映した統一的なベンチマーク設定では不十分であった。
このギャップに対処するため、HistoVLは、クラス名と多様な病理記述を組み込むことで、特定のキャプションと組み合わせた、最大11種類の取得ツールを用いて取得した画像からなる、完全にオープンソースな総合ベンチマークである。
Histo-VLには26の臓器,31種類の癌,14の異種患者コホートから得られた多種多様な組織が含まれており,それぞれ41K以上のWSIから得られたパッチ数は合計で500万を超える。
既往の病理組織学的 VLM をHisto-VL 上で体系的に評価し,実際の臨床シナリオにおいて専門家が行う多様な課題をシミュレートした。
本研究は, 転移検出, 対人攻撃に対する堅牢性の低下, CE値の高いモデルの不適切な校正, モデル予測信頼性の低下などのタスクにおいて, 最大25%のバランスの取れた精度の低下を伴うテキスト変化に対する, 既存の病理組織学 VLM の高感度化など, 興味深い結果を示した。
関連論文リスト
- OphthBench: A Comprehensive Benchmark for Evaluating Large Language Models in Chinese Ophthalmology [7.743511021846898]
大規模言語モデル(LLM)は、様々な医学的応用において大きな可能性を示してきた。
我々は,中国の眼科領域におけるLCM性能を評価するためのベンチマークであるOphthBenchを紹介した。
この枠組みは、LSMの能力の徹底的な評価を可能にし、中国の眼科におけるその実践的応用に関する洞察を提供する。
論文 参考訳(メタデータ) (2025-02-03T11:04:51Z) - Comprehensive and Practical Evaluation of Retrieval-Augmented Generation Systems for Medical Question Answering [70.44269982045415]
Retrieval-augmented Generation (RAG) は,大規模言語モデル (LLM) の性能向上のための有望なアプローチとして登場した。
医療用QAデータセットに様々な補助的要素を提供するMedRGB(MedRGB)を導入する。
実験結果から,検索した文書のノイズや誤情報の処理能力に限界があることが判明した。
論文 参考訳(メタデータ) (2024-11-14T06:19:18Z) - GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。
GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。
38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文 参考訳(メタデータ) (2024-08-06T17:59:21Z) - SemioLLM: Assessing Large Language Models for Semiological Analysis in Epilepsy Research [45.2233252981348]
大規模言語モデルは、一般的な医学的知識をエンコードする能力において有望な結果を示している。
内科的知識を活用しててててんかんの診断を行う技術について検討した。
論文 参考訳(メタデータ) (2024-07-03T11:02:12Z) - Meta-Learners for Partially-Identified Treatment Effects Across Multiple Environments [67.80453452949303]
観察データから条件平均治療効果(CATE)を推定することは、パーソナライズされた医療など多くの応用に関係している。
ここでは、観測データが複数の環境からやってくる広範囲な環境に焦点を当てる。
任意の機械学習モデルと組み合わせて使用可能な境界を推定するために、異なるモデルに依存しない学習者(いわゆるメタ学習者)を提案する。
論文 参考訳(メタデータ) (2024-06-04T16:31:43Z) - A Comprehensive Evaluation of Histopathology Foundation Models for Ovarian Cancer Subtype Classification [1.9499122087408571]
病理組織学の基礎モデルは、多くのタスクにまたがる大きな約束を示している。
これまでで最も厳格な単一タスクによる病理組織学的基盤モデルの検証を報告した。
病理組織学的基盤モデルは卵巣がんの亜型化に明確な利益をもたらす。
論文 参考訳(メタデータ) (2024-05-16T11:21:02Z) - Optimizing Skin Lesion Classification via Multimodal Data and Auxiliary
Task Integration [54.76511683427566]
本研究は, スマートフォンで撮影した画像と本質的な臨床および人口統計情報を統合することで, 皮膚病変を分類する新しいマルチモーダル手法を提案する。
この手法の特徴は、超高解像度画像予測に焦点を当てた補助的なタスクの統合である。
PAD-UFES20データセットを用いて,様々なディープラーニングアーキテクチャを用いて実験を行った。
論文 参考訳(メタデータ) (2024-02-16T05:16:20Z) - AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。
この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。
高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文 参考訳(メタデータ) (2024-02-15T06:46:48Z) - OmniMedVQA: A New Large-Scale Comprehensive Evaluation Benchmark for Medical LVLM [48.16696073640864]
我々は,新しい包括的ビジュアル質問回答(VQA)ベンチマークであるOmniMedVQAを紹介する。
このベンチマークのすべての画像は、本物の医療シナリオから得られたものです。
既存のLVLMはこれらの医療用VQA問題に効果的に取り組むのに苦労していることがわかった。
論文 参考訳(メタデータ) (2024-02-14T13:51:56Z) - MedFMC: A Real-world Dataset and Benchmark For Foundation Model
Adaptation in Medical Image Classification [41.16626194300303]
ファンデーションモデルは、多くの場合、大規模なデータで事前訓練されているが、様々なビジョンや言語アプリケーションのジャンプ開始において、最も成功している。
最近の進歩により、下流タスクにおける基礎モデルの適応は、少数のトレーニングサンプルだけで効率的に行えるようになった。
しかし, 医用画像解析におけるそのような学習パラダイムの適用は, 一般に公開されているデータやベンチマークが不足しているため, 依然として少ない。
論文 参考訳(メタデータ) (2023-06-16T01:46:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。