論文の概要: PathGLS: Evaluating Pathology Vision-Language Models without Ground Truth through Multi-Dimensional Consistency
- arxiv url: http://arxiv.org/abs/2603.16113v1
- Date: Tue, 17 Mar 2026 04:25:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.100261
- Title: PathGLS: Evaluating Pathology Vision-Language Models without Ground Truth through Multi-Dimensional Consistency
- Title(参考訳): PathGLS:多次元整合性による地中真実のない病理視覚言語モデルの評価
- Authors: Minbing Chen, Zhu Meng, Fei Su,
- Abstract要約: VLM(Vision-Language Models)は、解釈可能な画像解析、自動レポート、スケーラブルな意思決定支援を可能にすることにより、計算病理学において大きな可能性を秘めている。
このギャップに対処するために,3次元にわたる病理VLMを評価する新しい基準フリー評価フレームワークPathGLSを提案する。
The Experiments on Quilt-1M, TCGA, REG2025, PathMMU and TCGA-Sarcoma datasets showed the superiority of PathGLS。
- 参考スコア(独自算出の注目度): 22.13541624406203
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Models (VLMs) offer significant potential in computational pathology by enabling interpretable image analysis, automated reporting, and scalable decision support. However, their widespread clinical adoption remains limited due to the absence of reliable, automated evaluation metrics capable of identifying subtle failures such as hallucinations. To address this gap, we propose PathGLS, a novel reference-free evaluation framework that assesses pathology VLMs across three dimensions: Grounding (fine-grained visual-text alignment), Logic (entailment graph consistency using Natural Language Inference), and Stability (output variance under adversarial visual-semantic perturbations). PathGLS supports both patch-level and whole-slide image (WSI)-level analysis, yielding a comprehensive trust score. Experiments on Quilt-1M, TCGA, REG2025, PathMMU and TCGA-Sarcoma datasets demonstrate the superiority of PathGLS. Specifically, on the Quilt-1M dataset, PathGLS reveals a steep sensitivity drop of 40.2% for hallucinated reports compared to only 2.1% for BERTScore. Moreover, validation against expert-defined clinical error hierarchies reveals that PathGLS achieves a strong Spearman's rank correlation of $ρ=0.71$ ($p < 0.0001$), significantly outperforming Large Language Model (LLM)-based approaches (Gemini 3.0 Pro: $ρ=0.39$, $p < 0.0001$). These results establish PathGLS as a robust reference-free metric. By directly quantifying hallucination rates and domain shift robustness, it serves as a reliable criterion for benchmarking VLMs on private clinical datasets and informing safe deployment. Code can be found at: https://github.com/My13ad/PathGLS
- Abstract(参考訳): VLM(Vision-Language Models)は、解釈可能な画像解析、自動レポート、スケーラブルな意思決定支援を可能にすることにより、計算病理学において大きな可能性を秘めている。
しかし, 幻覚などの微妙な障害を識別できる信頼性の高い自動評価指標が欠如しているため, 臨床応用の幅は限られている。
このギャップに対処するために、我々は3次元にわたる病理的VLMを評価する新しい基準フリー評価フレームワークであるPathGLSを提案する。
PathGLSは、パッチレベルと全体滑り画像(WSI)レベルの解析の両方をサポートし、包括的な信頼スコアを得る。
The Experiments on Quilt-1M, TCGA, REG2025, PathMMU and TCGA-Sarcoma datasets showed the superiority of PathGLS。
具体的には、Quilt-1MデータセットでPathGLSは40.2%の急激な感度低下を示し、BERTScoreはわずか2.1%である。
さらに、専門家が定義した臨床エラー階層に対する検証の結果、PathGLS は Spearman のランク相関を$ρ=0.71$$$p < 0.0001$で達成し、Large Language Model (LLM) ベースのアプローチ(Gemini 3.0 Pro: $ρ=0.39$, $p < 0.0001$)を著しく上回っていることが明らかになった。
これらの結果は、PathGLSをロバストな参照フリー計量として確立する。
幻覚率とドメインシフトの堅牢性を直接定量化することにより、プライベートな臨床データセット上でVLMをベンチマークし、安全なデプロイメントを行うための信頼性の高い基準として機能する。
コードは、https://github.com/My13ad/PathGLSで参照できる。
関連論文リスト
- AgriPath: A Systematic Exploration of Architectural Trade-offs for Crop Disease Classification [45.52399819498234]
本研究は、細粒度作物病分類のための3つのモデルパラダイムの体系的比較を示す。
我々は16の作物と41の病気にまたがる111kの画像を含むベンチマークであるAgriPath-LF16を紹介する。
CNNは画像の精度が最も高いが、ドメインシフトによって劣化する。
対照的なVLMは、競合するクロスドメイン性能を持つ堅牢でパラメータ効率の良い代替手段を提供する。
論文 参考訳(メタデータ) (2026-03-08T17:28:01Z) - Logit-Level Uncertainty Quantification in Vision-Language Models for Histopathology Image Analysis [0.5879782260984691]
視覚言語モデル(VLM)とそのマルチモーダル能力は、ほぼすべての領域で顕著な成功を収めている。
本研究では,VLMを用いた病理組織像解析のためのロジトレベルの不確実性定量化フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-03T21:21:00Z) - Suppressing Prior-Comparison Hallucinations in Radiology Report Generation via Semantically Decoupled Latent Steering [94.37535002230504]
本研究では,Semantically Decoupled Latent Steeringと呼ばれる学習自由な推論時間制御フレームワークを開発した。
提案手法は,大言語モデル (LLM) による意味分解による意味のない介入ベクトルを構築する。
本手法は歴史的幻覚の可能性を著しく低下させることを示す。
論文 参考訳(メタデータ) (2026-02-27T04:49:01Z) - PathCo-LatticE: Pathology-Constrained Lattice-Of Experts Framework for Fully-supervised Few-Shot Cardiac MRI Segmentation [0.0]
わずかな撮影学習は、心臓MRIのセグメンテーションにおけるデータの不足を緩和する。
PathCo-LatticEは、ラベルのないデータを、病理誘導合成監視に置き換える。
論文 参考訳(メタデータ) (2025-12-10T15:59:43Z) - Automated Identification of Incidentalomas Requiring Follow-Up: A Multi-Anatomy Evaluation of LLM-Based and Supervised Approaches [5.958100741754613]
インシデントアロマの微細な病変レベル検出のために,大規模言語モデル(LLM)を教師付きベースラインと比較した。
そこで我々は,病変タグ付き入力と解剖学的認識を用いた新しい推論手法を導入し,基礎モデル推論を推し進めた。
解剖学的インフォームドGPT-OSS-20bモデルが最も高い性能を示し, 奇形腫陽性マクロF1の0.79。
論文 参考訳(メタデータ) (2025-12-05T08:49:57Z) - MeCaMIL: Causality-Aware Multiple Instance Learning for Fair and Interpretable Whole Slide Image Diagnosis [40.3028468133626]
MIL(Multiple Case Learning)は、コンピュータ病理学における全スライド画像(WSI)解析の主流パラダイムとして登場した。
因果関係を意識したMILフレームワークである textbfMeCaMIL は、構造化因果グラフを通じて、階層的共同創設者を明示的にモデル化する。
MeCaMILは優れた公正性を達成する -- 人口格差の分散は、属性全体の平均で65%以上減少する。
論文 参考訳(メタデータ) (2025-11-14T06:47:21Z) - TUMLS: Trustful Fully Unsupervised Multi-Level Segmentation for Whole Slide Images of Histology [41.94295877935867]
We present a Trustful fully unsupervised multi-level segmentation method (TUMLS) for whole slide image (WSIs)。
TUMLSは、低解像度のトレーニングデータの中で異なる組織タイプを特定するために、オートエンコーダ(AE)を特徴抽出器として採用している。
このソリューションは、臨床医にシームレスに統合され、WSI全体の検査を簡潔で解釈可能なクロスレベル洞察のレビューに変換する。
論文 参考訳(メタデータ) (2025-04-17T07:48:05Z) - Phikon-v2, A large and public feature extractor for biomarker prediction [42.52549987351643]
我々は、DINOv2を用いて視覚変換器を訓練し、このモデルの1つのイテレーションを公開して、Phikon-v2と呼ばれるさらなる実験を行う。
Phikon-v2は、公開されている組織学のスライドをトレーニングしながら、以前リリースしたモデル(Phikon)を上回り、プロプライエタリなデータでトレーニングされた他の病理学基盤モデル(FM)と同等に動作します。
論文 参考訳(メタデータ) (2024-09-13T20:12:29Z) - Localizing Anomalies via Multiscale Score Matching Analysis [13.898576482792173]
本稿では,脳MRIにおける異常局所化のための新しい教師なし手法であるSpatial-MSMAを紹介する。
パッチ位置とグローバル画像の特徴を条件としたフレキシブルな正規化フローモデルを用いて、パッチワイド異常スコアを推定する。
この方法は、通常発達している幼児の1,650T1およびT2重み付き脳MRIのデータセットで評価される。
論文 参考訳(メタデータ) (2024-06-28T17:57:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。