論文の概要: PANDA-PLUS-Bench: A Clinical Benchmark for Evaluating Robustness of AI Foundation Models in Prostate Cancer Diagnosis
- arxiv url: http://arxiv.org/abs/2512.14922v1
- Date: Tue, 16 Dec 2025 21:20:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:26.788382
- Title: PANDA-PLUS-Bench: A Clinical Benchmark for Evaluating Robustness of AI Foundation Models in Prostate Cancer Diagnosis
- Title(参考訳): PANDA-PLUS-Bench:前立腺癌診断におけるAI基盤モデルのロバスト性評価のための臨床ベンチマーク
- Authors: Joshua L. Ebbert, Dennis Della Corte,
- Abstract要約: 前立腺生検の専門家によるベンチマークデータセットであるPANDA-PLUS-Benchを紹介する。
このベンチマークは、Gleasonパターンを含む9つのユニークな患者から、慎重に選択された9つのスライド画像からなる。
スライドレベルの共同設立者から生体信号を分離する能力に関する基礎モデルを7つ評価した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Artificial intelligence foundation models are increasingly deployed for prostate cancer Gleason grading, where GP3/GP4 distinction directly impacts treatment decisions. However, these models may achieve high validation accuracy by learning specimen-specific artifacts rather than generalizable biological features, limiting real-world clinical utility. We introduce PANDA-PLUS-Bench, a curated benchmark dataset derived from expert-annotated prostate biopsies designed specifically to quantify this failure mode. The benchmark comprises nine carefully selected whole slide images from nine unique patients containing diverse Gleason patterns, with non-overlapping tissue patches extracted at both 512x512 and 224x224 pixel resolutions across eight augmentation conditions. Using this benchmark, we evaluate seven foundation models on their ability to separate biological signal from slide-level confounders. Our results reveal substantial variation in robustness across models: Virchow2 achieved the lowest slide-level encoding among large-scale models (81.0%) yet exhibited the second-lowest cross-slide accuracy (47.2%). HistoEncoder, trained specifically on prostate tissue, demonstrated the highest cross-slide accuracy (59.7%) and the strongest slide-level encoding (90.3%), suggesting tissue-specific training may enhance both biological feature capture and slide-specific signatures. All models exhibited measurable within-slide vs. cross-slide accuracy gaps, though the magnitude varied from 19.9 percentage points to 26.9 percentage points. We provide an open-source Google Colab notebook enabling researchers to evaluate additional foundation models against our benchmark using standardized metrics. PANDA-PLUS-Bench addresses a critical gap in foundation model evaluation by providing a purpose-built resource for robustness assessment in the clinically important context of Gleason grading.
- Abstract(参考訳): 人工知能基盤モデルは、GP3/GP4の区別が治療決定に直接影響を及ぼす前立腺がんのグレーディングのためにますますデプロイされている。
しかし, これらのモデルでは, 一般の生物学的特徴ではなく, 標本特異的なアーティファクトを学習し, 現実の臨床的有用性を制限することにより, 高い検証精度が得られる可能性がある。
我々は,この故障モードの定量化に特化して設計された,専門家による前立腺生検から得られたベンチマークデータセットであるPANDA-PLUS-Benchを紹介する。
このベンチマークは、Gleasonパターンを含む9つのユニークな患者から9つの慎重に選択された全スライド画像を含み、オーバーラップしない組織パッチが8つの拡張条件で512x512および224x224ピクセルの解像度で抽出された。
このベンチマークを用いて,スライドレベルの共同設立者から生体信号を分離する基礎モデルを7つ評価した。
Virchow2 は大規模モデル (81.0%) の中で最も低いスライドレベル符号化を実現したが, クロススライディング精度 (47.2%) は2番目に低い。
前立腺組織に特化して訓練されたHistoEncoderは、最も高いクロススライディング精度(59.7%)と最強のスライドレベルエンコーディング(90.3%)を示し、組織特異的なトレーニングは生物学的特徴キャプチャーとスライド特異的シグネチャの両方を強化する可能性があることを示唆している。
全てのモデルは、19.9ポイントから26.9ポイントまで、測定可能な内すべりと横すべりの精度ギャップを示した。
我々はオープンソースのGoogle Colabノートブックを提供しており、研究者は標準化されたメトリクスを使用してベンチマークに対してさらなる基礎モデルを評価することができる。
PANDA-PLUS-Benchは、グリーソングレーディングの臨床的に重要な文脈におけるロバストネス評価のための汎用的なリソースを提供することにより、基礎モデル評価における重要なギャップに対処する。
関連論文リスト
- An Explainable Hybrid AI Framework for Enhanced Tuberculosis and Symptom Detection [55.35661671061754]
結核は、特に資源に制限された遠隔地において、重要な世界的な健康問題である。
本稿では, 胸部X線による疾患および症状の検出を, 2つの頭部と自己監督頭部を統合することで促進する枠組みを提案する。
本モデルでは, 新型コロナウイルス, 結核, 正常症例の鑑別で98.85%の精度が得られ, マルチラベル症状検出では90.09%のマクロF1スコアが得られた。
論文 参考訳(メタデータ) (2025-10-21T17:18:55Z) - Bridging Accuracy and Interpretability: Deep Learning with XAI for Breast Cancer Detection [0.0]
乳腺腫瘤のFNA(Digitalized Fine needle Aspirate)画像から抽出した定量的特徴を用いて,乳がん早期発見のための解釈可能なディープラーニングフレームワークを提案する。
私たちのディープニューラルネットワークは、ReLUアクティベーション、Adam視覚化、バイナリクロスエントロピー損失を使用して、最先端の分類性能を提供します。
論文 参考訳(メタデータ) (2025-10-18T07:47:26Z) - A Disease-Centric Vision-Language Foundation Model for Precision Oncology in Kidney Cancer [54.58205672910646]
RenalCLIPは、腎腫瘤の特徴、診断、予後のための視覚言語基盤モデルである。
腎がんの完全な臨床ワークフローにまたがる10のコアタスクにおいて、優れたパフォーマンスと優れた一般化性を実現した。
論文 参考訳(メタデータ) (2025-08-22T17:48:19Z) - Towards A Generalizable Pathology Foundation Model via Unified Knowledge Distillation [41.25398139658467]
現在の基礎モデルは限定型とタスク数でのみ評価されており、その一般化能力と全体的な性能は不明確である。
本研究は,6つの異なる臨床タスクタイプにわたる既成基礎モデルの性能を評価するためのベンチマークを構築した。
本稿では, エキスパートと自己知識の双方からなる統合された知識蒸留フレームワークを提案し, モデルが複数のエキスパートモデルの知識から学べるようにした。
論文 参考訳(メタデータ) (2024-07-26T01:12:54Z) - Exploiting Precision Mapping and Component-Specific Feature Enhancement for Breast Cancer Segmentation and Identification [0.0]
乳房病変の分類・分類のための新しいDeep Learning(DL)フレームワークを提案する。
本稿では,PMAD-LinkNetセグメンテーションフレームワークの高精度マッピング機構(PMM)を提案する。
また、コンポーネント固有の特徴拡張モジュール (CSFEM) を導入し、コンポーネント固有の特徴強化分類器 (CSFEC-Net) を提案する。
論文 参考訳(メタデータ) (2024-07-03T06:40:26Z) - A Comprehensive Evaluation of Histopathology Foundation Models for Ovarian Cancer Subtype Classification [1.9499122087408571]
病理組織学の基礎モデルは、多くのタスクにまたがる大きな約束を示している。
これまでで最も厳格な単一タスクによる病理組織学的基盤モデルの検証を報告した。
病理組織学的基盤モデルは卵巣がんの亜型化に明確な利益をもたらす。
論文 参考訳(メタデータ) (2024-05-16T11:21:02Z) - Generative models improve fairness of medical classifiers under
distribution shifts [49.10233060774818]
データから現実的な拡張を自動的に学習することは、生成モデルを用いてラベル効率の良い方法で可能であることを示す。
これらの学習の強化は、モデルをより堅牢で統計的に公平に配布できることを示した。
論文 参考訳(メタデータ) (2023-04-18T18:15:38Z) - WSSS4LUAD: Grand Challenge on Weakly-supervised Tissue Semantic
Segmentation for Lung Adenocarcinoma [51.50991881342181]
この課題には10,091個のパッチレベルのアノテーションと1300万以上のラベル付きピクセルが含まれる。
第一位チームは0.8413mIoUを達成した(腫瘍:0.8389、ストーマ:0.7931、正常:0.8919)。
論文 参考訳(メタデータ) (2022-04-13T15:27:05Z) - Going Deeper through the Gleason Scoring Scale: An Automatic end-to-end
System for Histology Prostate Grading and Cribriform Pattern Detection [7.929433631399375]
本研究の目的は,前立腺生検の日常的分析において病理医を支援できるディープラーニングベースのシステムを開発することである。
この研究の方法論的コアは、がんパターンの存在を決定できる畳み込みニューラルネットワークに基づくパッチワイズ予測モデルである。
論文 参考訳(メタデータ) (2021-05-21T17:51:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。