Fugu-MT 論文翻訳(概要): Good Rankings, Wrong Probabilities: A Calibration Audit of Multimodal Cancer Survival Models

論文の概要: Good Rankings, Wrong Probabilities: A Calibration Audit of Multimodal Cancer Survival Models

arxiv url: http://arxiv.org/abs/2604.04239v1
Date: Sun, 05 Apr 2026 19:47:04 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-07 15:49:19.000398
Title: Good Rankings, Wrong Probabilities: A Calibration Audit of Multimodal Cancer Survival Models
Title（参考訳）: 有病率, 誤診確率:多モーダル癌生存モデルの校正調査
Authors: Sajad Ghawami,
Abstract要約: マルチモーダルWSI-ゲノミクスサバイバルアーキテクチャの最初の系統的な折りたたみレベル1-キャリブレーション監査を行う。ゲーティングベースの核融合はより良いキャリブレーションと結びついており、双線形核融合と連結核融合はそうではない。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multimodal deep learning models that fuse whole-slide histopathology images with genomic data have achieved strong discriminative performance for cancer survival prediction, as measured by the concordance index. Yet whether the survival probabilities derived from these models - either directly from native outputs or via standard post-hoc reconstruction - are calibrated remains largely unexamined. We conduct, to our knowledge, the first systematic fold-level 1-calibration audit of multimodal WSI-genomics survival architectures, evaluating native discrete-time survival outputs (Experiment A: 3 models on TCGA-BRCA) and Breslow-reconstructed survival curves from scalar risk scores (Experiment B: 11 architectures across 5 TCGA cancer types). In Experiment A, all three models fail 1-calibration on a majority of folds (12 of 15 fold-level tests reject after Benjamini-Hochberg correction). Across the full 290 fold-level tests, 166 reject the null of correct calibration at the median event time after Benjamini-Hochberg correction (FDR = 0.05). MCAT achieves C-index 0.817 on GBMLGG yet fails 1-calibration on all five folds. Gating-based fusion is associated with better calibration; bilinear and concatenation fusion are not. Post-hoc Platt scaling reduces miscalibration at the evaluated horizon (e.g., MCAT: 5/5 folds failing to 2/5) without affecting discrimination. The concordance index alone is insufficient for evaluating survival models intended for clinical use.
Abstract（参考訳）: ゲノムデータと全スライディング組織像を融合したマルチモーダル深層学習モデルは,コンコーダンス指標によって測定された癌生存予測において,強い識別性能を達成している。しかし、これらのモデルから派生した生存確率(ネイティブアウトプットから直接、あるいは標準的なポストホックの再構築によって)が校正されるかどうかについては、ほとんど検討されていない。我々の知る限り、我々は、マルチモーダルなWSI-ゲノミクスサバイバルアーキテクチャの最初の体系的な折りたたみレベル1-キャリブレーション監査を行い、ネイティブな離散時間サバイバル出力(実験A: TCGA-BRCA上の3モデル)とスカラーリスクスコアからのブレスロー再構成サバイバル曲線(実験B: 5 TCGAがんタイプ11のアーキテクチャ)を評価した。実験Aでは、3つのモデルが折りたたみ式の多数で1-校正に失敗する(ベンジャミン・ホックバーグの修正後に15の折りたたみレベルのテストのうち12が拒否される)。完全な290回の折りたたみ試験で、166はベンジャミン=ホックベルク補正(FDR = 0.05)後の中央イベント時間における正しい校正の無効を拒絶した。 MCAT は GBMLGG 上で C-index 0.817 を達成するが、5つの折り目すべてで 1-校正に失敗する。ゲーティングベースの核融合はより良いキャリブレーションと結びついており、双線形核融合と連結核融合はそうではない。ポストホットプラットスケーリングは、評価された地平線(例えば、MCAT:5/5の折り目は2/5に失敗する)での誤校正を、差別に影響を与えることなく減少させる。コンコータンス指数だけでは臨床目的の生存モデルを評価するには不十分である。

関連論文リスト

Multimodal Survival Modeling and Fairness-Aware Clinical Machine Learning for 5-Year Breast Cancer Risk Prediction [4.750682174151462]
乳癌における5年間の生存予測のための,完全再現可能な機械学習フレームワークを提案する。我々は,METABRICコホートから高次元転写・複写数変化(CNA)の特徴を臨床変数と統合した。 ROC曲線(AUC)、平均精度(AP)、キャリブレーション曲線、ブライアスコア、ブートストラップの95%の信頼区間を用いて評価を行った。
論文参考訳（メタデータ） (2026-02-25T07:20:43Z)
Classifier Calibration at Scale: An Empirical Study of Model-Agnostic Post-Hoc Methods [0.0]
教師付き二項分類における確率的予測を改善するためのモデル非依存のポストホック校正法について検討した。我々は、線形モデル、SVM、ツリーアンサンブル(CatBoost、XGBoost、LightGBM)を含む21の広く使われている分類器をベンチマークした。一般的な校正手順,特にプラットスケーリングと等調回帰は,適切なスコアリング性能を体系的に低下させる可能性がある。
論文参考訳（メタデータ） (2026-01-19T18:23:36Z)
Transparent Early ICU Mortality Prediction with Clinical Transformer and Per-Case Modality Attribution [42.85462513661566]
ICU滞在後48時間から, 生理的時系列測定と非構造的臨床記録とを融合した, 軽量で透明なマルチモーダルアンサンブルを提案する。ロジスティック回帰モデルは、バイタル用双方向LSTMとノート用微調整された臨床ModernBERT変換器の2つのモード固有モデルからの予測を組み合わせる。 MIMIC-IIIベンチマークでは、遅延融合アンサンブルは、よく校正された予測を維持しながら、最高の単一モデルに対する差別を改善する。
論文参考訳（メタデータ） (2025-11-19T20:11:49Z)
MeCaMIL: Causality-Aware Multiple Instance Learning for Fair and Interpretable Whole Slide Image Diagnosis [40.3028468133626]
MIL(Multiple Case Learning)は、コンピュータ病理学における全スライド画像(WSI)解析の主流パラダイムとして登場した。因果関係を意識したMILフレームワークである textbfMeCaMIL は、構造化因果グラフを通じて、階層的共同創設者を明示的にモデル化する。 MeCaMILは優れた公正性を達成する -- 人口格差の分散は、属性全体の平均で65%以上減少する。
論文参考訳（メタデータ） (2025-11-14T06:47:21Z)
Uncertainty-Aware Genomic Classification of Alzheimer's Disease: A Transformer-Based Ensemble Approach with Monte Carlo Dropout [0.0]
アルツハイマー病(英語版) (AD) は遺伝学的に複雑であり、ゲノムデータも複雑である。我々はモンテカルロ・ドロップアウトを用いた変圧器を用いたアンサンブルモデル(TrUENet)を開発した。
論文参考訳（メタデータ） (2025-05-31T18:20:49Z)
RULSurv: A probabilistic survival-based method for early censoring-aware prediction of remaining useful life in ball bearings [39.58317527488534]
Kullback-Leibler分散とRUL推定を用いた早期故障検出のための新しいフレキシブルな手法を提案する。我々は,XJTU-SYデータセットにおいて,3つの異なる操作条件にまたがる5倍のクロスバリデーション戦略を用いてアプローチを実証する。提案手法は,最大荷重下での5軸受の平均累積相対精度(CRA)を0.7586で達成し,複数の最先端ベースラインを改良する。
論文参考訳（メタデータ） (2024-05-02T16:17:29Z)
Bridging Precision and Confidence: A Train-Time Loss for Calibrating Object Detection [58.789823426981044]
本稿では,境界ボックスのクラス信頼度を予測精度に合わせることを目的とした,新たな補助損失定式化を提案する。その結果,列車の走行時間損失はキャリブレーション基準を超過し,キャリブレーション誤差を低減させることがわかった。
論文参考訳（メタデータ） (2023-03-25T08:56:21Z)
Significantly improving zero-shot X-ray pathology classification via fine-tuning pre-trained image-text encoders [50.689585476660554]
本稿では,正対損失緩和とランダムな文サンプリングを含む新たな微調整手法を提案する。提案手法は,胸部X線データセットと3つの事前訓練モデル間のゼロショット病理分類を一貫して改善する。
論文参考訳（メタデータ） (2022-12-14T06:04:18Z)
Beyond calibration: estimating the grouping loss of modern neural networks [68.8204255655161]
適切なスコアリングルール理論は、キャリブレーション損失が与えられた場合、個々のエラーを特徴づける欠片がグループ化損失であることを示している。視覚およびNLPにおける現代のニューラルネットワークアーキテクチャは、特に分散シフト設定においてグループ化損失を示す。
論文参考訳（メタデータ） (2022-10-28T07:04:20Z)
Improving the repeatability of deep learning models with Monte Carlo dropout [1.8951826092927349]
また,同訪問中に同じ患者から取得した画像に対する4種類のモデル(バイナリ,マルチクラス,順序,回帰)の再現性について検討した。本研究では,2値,複数クラス,順序,回帰モデルの性能について,公開データセットとプライベートデータセットの4つの画像分類課題について検討した。
論文参考訳（メタデータ） (2022-02-15T16:46:44Z)
Does deep learning model calibration improve performance in class-imbalanced medical image classification? [0.8594140167290096]
モデル校正が2つの医用画像モダリティに与える影響を系統的に解析する。その結果,0.5の既定動作閾値では,キャリブレーションにより達成される性能は,非校正確率よりも有意に優れていることがわかった。
論文参考訳（メタデータ） (2021-09-29T12:00:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。