論文の概要: Enhancing Multi-Label Thoracic Disease Diagnosis with Deep Ensemble-Based Uncertainty Quantification
- arxiv url: http://arxiv.org/abs/2511.18839v1
- Date: Mon, 24 Nov 2025 07:20:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:25.077328
- Title: Enhancing Multi-Label Thoracic Disease Diagnosis with Deep Ensemble-Based Uncertainty Quantification
- Title(参考訳): 深部アンサンブルに基づく不確実性定量化による多ラベル胸部疾患診断の強化
- Authors: Yasiru Laksara, Uthayasanker Thayasivam,
- Abstract要約: このプロジェクトは、堅牢な不確実性定量化(UQ)を、NIH ChestX-ray14データセット上の14の一般的な胸部疾患のための高性能な診断プラットフォームに統合する。
初期のアーキテクチャ開発ではモンテカルロ・ドロップアウト(MCD)を使用した性能とキャリブレーションが安定せず、ECEは0.7588であった。
この結果、Deep Ensemble (DE) は性能を安定させ、信頼性を向上し、受信器操作特性曲線 (AUROC) 平均面積 0.8559 と F1スコア 0.3857 を達成した。
- 参考スコア(独自算出の注目度): 1.2461503242570642
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The utility of deep learning models, such as CheXNet, in high stakes clinical settings is fundamentally constrained by their purely deterministic nature, failing to provide reliable measures of predictive confidence. This project addresses this critical gap by integrating robust Uncertainty Quantification (UQ) into a high performance diagnostic platform for 14 common thoracic diseases on the NIH ChestX-ray14 dataset. Initial architectural development failed to stabilize performance and calibration using Monte Carlo Dropout (MCD), yielding an unacceptable Expected Calibration Error (ECE) of 0.7588. This technical failure necessitated a rigorous architectural pivot to a high diversity, 9-member Deep Ensemble (DE). This resulting DE successfully stabilized performance and delivered superior reliability, achieving a State-of-the-Art (SOTA) average Area Under the Receiver Operating Characteristic Curve (AUROC) of 0.8559 and an average F1 Score of 0.3857. Crucially, the DE demonstrated superior calibration (Mean ECE of 0.0728 and Negative Log-Likelihood (NLL) of 0.1916) and enabled the reliable decomposition of total uncertainty into its Aleatoric (irreducible data noise) and Epistemic (reducible model knowledge) components, with a mean Epistemic Uncertainty (EU) of 0.0240. These results establish the Deep Ensemble as a trustworthy and explainable platform, transforming the model from a probabilistic tool into a reliable clinical decision support system.
- Abstract(参考訳): CheXNetのような深層学習モデルの高い利害関係における実用性は、その純粋に決定論的性質によって根本的な制約を受けており、信頼性の高い予測信頼度を提供することができない。
このプロジェクトは、堅牢な不確実性定量化(UQ)をNIH ChestX-ray14データセット上の14の一般的な胸部疾患の高性能診断プラットフォームに統合することで、この重要なギャップに対処する。
初期のアーキテクチャ開発ではモンテカルロ・ドロップアウト(MCD)を使用した性能とキャリブレーションの安定化に失敗し、許容不可能なキャリブレーション誤差(ECE)は0.7588であった。
この技術的失敗は、高度に多様性のある9人のDeep Ensemble (DE)への厳格なアーキテクチャの転換を必要とした。
この結果、DECは性能を安定させ、信頼性を向上し、受信機動作特性曲線(AUROC)平均面積は0.8559、F1スコアは0.3857となった。
重要なことに、DECは優れたキャリブレーション(平均値0.0728、負の対数(NLL)0.1916)を示し、平均値0.0240のエピステミック不確実性(EU)を持つアレタリック(可逆データノイズ)とエピステミック(可逆モデル知識)コンポーネントへの完全な不確実性の信頼性の高い分解を可能にした。
これらの結果は、Deep Ensembleを信頼できる説明可能なプラットフォームとして確立し、モデルを確率的ツールから信頼できる臨床決定支援システムに変換する。
関連論文リスト
- Diagnosing Hallucination Risk in AI Surgical Decision-Support: A Sequential Framework for Sequential Validation [5.469454486414467]
大言語モデル (LLMs) は脊椎手術における臨床的決定支援の転換的可能性を提供する。
LLMは幻覚を通じて重大なリスクを引き起こすが、これは事実的に矛盾しているか、文脈的に不一致な出力である。
本研究は, 診断精度, 推奨品質, 推理堅牢性, 出力コヒーレンス, 知識アライメントを評価することによって, 幻覚リスクを定量化するための臨床中心の枠組みを提案する。
論文 参考訳(メタデータ) (2025-11-01T15:25:55Z) - Efficient Epistemic Uncertainty Estimation in Cerebrovascular Segmentation [1.3980986259786223]
ベイズ近似とディープアンサンブルの利点を組み合わせた効率的なアンサンブルモデルを提案する。
高モデル不確実性と誤予測の領域は一致しており、このアプローチの有効性と信頼性を示している。
論文 参考訳(メタデータ) (2025-03-28T09:39:37Z) - Conservative Prediction via Data-Driven Confidence Minimization [70.93946578046003]
機械学習の安全性クリティカルな応用においては、モデルが保守的であることが望ましいことが多い。
本研究では,不確実性データセットに対する信頼性を最小化するデータ駆動信頼性最小化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:05:36Z) - Towards Reliable Medical Image Segmentation by Modeling Evidential Calibrated Uncertainty [57.023423137202485]
医用画像のセグメンテーションの信頼性に関する懸念が臨床医の間で続いている。
本稿では,医療画像セグメンテーションネットワークにシームレスに統合可能な,実装が容易な基礎モデルであるDEviSを紹介する。
主観的論理理論を活用することで、医用画像分割の確率と不確実性を明示的にモデル化する。
論文 参考訳(メタデータ) (2023-01-01T05:02:46Z) - Trust but Verify: Assigning Prediction Credibility by Counterfactual
Constrained Learning [123.3472310767721]
予測信頼性尺度は統計学と機械学習において基本的なものである。
これらの措置は、実際に使用される多種多様なモデルを考慮に入れるべきである。
この研究で開発されたフレームワークは、リスクフィットのトレードオフとして信頼性を表現している。
論文 参考訳(メタデータ) (2020-11-24T19:52:38Z) - UNITE: Uncertainty-based Health Risk Prediction Leveraging Multi-sourced
Data [81.00385374948125]
我々はUNcertaInTyベースのhEalth Risk Prediction(UNITE)モデルを提案する。
UNITEは、複数ソースの健康データを活用した正確な疾患リスク予測と不確実性推定を提供する。
非アルコール性脂肪肝疾患(NASH)とアルツハイマー病(AD)の実態予測タスクにおけるUNITEの評価を行った。
UNITEはAD検出のF1スコアで最大0.841点、NASH検出のPR-AUCで最大0.609点を達成し、最高のベースラインで最大19%の高パフォーマンスを達成している。
論文 参考訳(メタデータ) (2020-10-22T02:28:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。