論文の概要: Evaluating AI systems under uncertain ground truth: a case study in dermatology
- arxiv url: http://arxiv.org/abs/2307.02191v2
- Date: Sun, 13 Apr 2025 11:30:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-26 08:37:16.766252
- Title: Evaluating AI systems under uncertain ground truth: a case study in dermatology
- Title(参考訳): 真理不確かさ下におけるAIシステムの評価--皮膚科学を事例として
- Authors: David Stutz, Ali Taylan Cemgil, Abhijit Guha Roy, Tatiana Matejovicova, Melih Barsbey, Patricia Strachan, Mike Schaekermann, Jan Freyberg, Rajeev Rikhye, Beverly Freeman, Javier Perez Matos, Umesh Telang, Dale R. Webster, Yuan Liu, Greg S. Corrado, Yossi Matias, Pushmeet Kohli, Yun Liu, Arnaud Doucet, Alan Karthikesalingam,
- Abstract要約: 不確実性を無視することは、モデル性能の過度に楽観的な推定につながることを示す。
皮膚状態の分類では,データセットの大部分が重大な真理不確実性を示すことが判明した。
- 参考スコア(独自算出の注目度): 43.8328264420381
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: For safety, medical AI systems undergo thorough evaluations before deployment, validating their predictions against a ground truth which is assumed to be fixed and certain. However, this ground truth is often curated in the form of differential diagnoses. While a single differential diagnosis reflects the uncertainty in one expert assessment, multiple experts introduce another layer of uncertainty through disagreement. Both forms of uncertainty are ignored in standard evaluation which aggregates these differential diagnoses to a single label. In this paper, we show that ignoring uncertainty leads to overly optimistic estimates of model performance, therefore underestimating risk associated with particular diagnostic decisions. To this end, we propose a statistical aggregation approach, where we infer a distribution on probabilities of underlying medical condition candidates themselves, based on observed annotations. This formulation naturally accounts for the potential disagreements between different experts, as well as uncertainty stemming from individual differential diagnoses, capturing the entire ground truth uncertainty. Our approach boils down to generating multiple samples of medical condition probabilities, then evaluating and averaging performance metrics based on these sampled probabilities. In skin condition classification, we find that a large portion of the dataset exhibits significant ground truth uncertainty and standard evaluation severely over-estimates performance without providing uncertainty estimates. In contrast, our framework provides uncertainty estimates on common metrics of interest such as top-k accuracy and average overlap, showing that performance can change multiple percentage points. We conclude that, while assuming a crisp ground truth can be acceptable for many AI applications, a more nuanced evaluation protocol should be utilized in medical diagnosis.
- Abstract(参考訳): 安全のために、医療AIシステムは、デプロイ前に徹底的な評価を行い、固定された確実な真実に対する予測を検証する。
しかし、この基底真理は、しばしば微分診断の形で計算される。
1つの鑑別診断は1つの専門家評価の不確実性を反映するが、複数の専門家は不一致を通じて別の不確実性の層を導入する。
どちらの形の不確実性も、これらの差分診断を単一のラベルに集約する標準評価で無視される。
本稿では,不確実性を無視するとモデル性能が過度に楽観的になるので,特定の診断決定に伴うリスクを過小評価する。
そこで我々は,観測されたアノテーションに基づいて,基礎疾患候補自体の確率分布を推測する統計集約手法を提案する。
この定式化は、異なる専門家間の潜在的な不一致と、個々の差分診断に起因する不確実性を自然に説明し、根底にある真理不確実性全体を捉えている。
提案手法は,複数の医学的状態の確率のサンプルを生成し,これらの測定値に基づいて評価と平均化を行う。
皮膚条件分類では,データセットの大部分が重要な真実の不確実性を示し,不確実性評価を行なわずに性能を過大評価していることがわかった。
対照的に、我々のフレームワークは、トップkの精度や平均重なり合いなどの共通の指標に関する不確実性評価を提供し、性能が複数のパーセンテージポイントを変化させることを示す。
結論として,多くのAI応用において,暗黙的な根拠真理を許容できると仮定する一方で,より曖昧な評価プロトコルを医学的診断に活用すべきである。
関連論文リスト
- Uncertainty-aware abstention in medical diagnosis based on medical texts [87.88110503208016]
本研究は,AI支援医療診断における信頼性の重要課題について論じる。
本研究は,診断に自信がなければ,診断システムによる意思決定の回避を可能にする選択予測手法に焦点をあてる。
我々は、選択予測タスクにおける信頼性を高めるための新しい最先端手法であるHUQ-2を紹介する。
論文 参考訳(メタデータ) (2025-02-25T10:15:21Z) - Evaluation of uncertainty estimations for Gaussian process regression based machine learning interatomic potentials [0.0]
機械学習の原子間ポテンシャルの不確実性推定は、導入した追加モデルエラーの定量化に不可欠である。
我々は、クーロンおよびSOAP表現を持つGPRモデルを、ポテンシャルエネルギー表面と分子の励起エネルギーを予測する入力として考える。
我々は,GPRの分散とアンサンブルに基づく不確かさが誤差とどのように関係しているか,また,固定された構成空間から最も不確実なサンプルを選択することによりモデル性能が向上するかを評価する。
論文 参考訳(メタデータ) (2024-10-27T10:06:09Z) - SepsisLab: Early Sepsis Prediction with Uncertainty Quantification and Active Sensing [67.8991481023825]
セプシスは米国での院内死亡の主な原因である。
既存の予測モデルは通常、情報不足の少ない高品質なデータで訓練される。
限られた観察により信頼性の低い高リスク患者に対して,ロバストな能動センシングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-07-24T04:47:36Z) - Diagnosis Uncertain Models For Medical Risk Prediction [80.07192791931533]
本研究は, 患者の診断にはアクセスできない, バイタルサイン, 検査値, 既往歴にアクセス可能な患者リスクモデルについて考察する。
このようなすべての原因のリスクモデルが、診断全体にわたって良い一般化を持つが、予測可能な障害モードを持つことが示される。
患者診断の不確実性から生じるリスク予測の不確実性を明示的にモデル化し,この問題に対する対策を提案する。
論文 参考訳(メタデータ) (2023-06-29T23:36:04Z) - Towards Reliable Medical Image Segmentation by utilizing Evidential Calibrated Uncertainty [52.03490691733464]
本稿では,医療画像セグメンテーションネットワークにシームレスに統合可能な,実装が容易な基礎モデルであるDEviSを紹介する。
主観的論理理論を利用して、医用画像分割の問題に対する確率と不確実性を明示的にモデル化する。
DeviSには不確実性を考慮したフィルタリングモジュールが組み込まれている。
論文 参考訳(メタデータ) (2023-01-01T05:02:46Z) - The Implicit Delta Method [61.36121543728134]
本稿では,不確実性のトレーニング損失を無限に正規化することで機能する,暗黙のデルタ法を提案する。
有限差分により無限小変化が近似された場合でも, 正則化による評価の変化は評価推定器の分散に一定であることを示す。
論文 参考訳(メタデータ) (2022-11-11T19:34:17Z) - Reliability-Aware Prediction via Uncertainty Learning for Person Image
Retrieval [51.83967175585896]
UALは、データ不確実性とモデル不確実性を同時に考慮し、信頼性に配慮した予測を提供することを目的としている。
データ不確実性はサンプル固有のノイズを捕捉する」一方、モデル不確実性はサンプルの予測に対するモデルの信頼を表現している。
論文 参考訳(メタデータ) (2022-10-24T17:53:20Z) - Uncertainty Estimates of Predictions via a General Bias-Variance
Decomposition [7.811916700683125]
本稿では,適切なスコアに対するバイアス分散分解を導入し,分散項としてブレグマン情報を導出する。
モデルアンサンブルや信頼領域を含む下流タスクにおけるこの分解の実践的妥当性を示す。
論文 参考訳(メタデータ) (2022-10-21T21:24:37Z) - Uncertainty estimations methods for a deep learning model to aid in
clinical decision-making -- a clinician's perspective [0.0]
深層学習にインスパイアされた不確実性推定技術はいくつかあるが、医療データセットに実装されているものはほとんどない。
我々は,不確かさを推定するために,ドロップアウト変動推論(DO),テスト時間拡張(TTA),共形予測,単一決定論的手法を比較した。
臨床実習にモデルを組み込む前に,複数の推定手法を評価することが重要である。
論文 参考訳(メタデータ) (2022-10-02T17:54:54Z) - Can uncertainty boost the reliability of AI-based diagnostic methods in
digital pathology? [3.8424737607413157]
デジタル病理学におけるDL予測の不確実性予測を付加すると,臨床応用の価値が増大する可能性が示唆された。
モデル統合手法(MCドロップアウトとディープアンサンブル)の有効性をモデル非依存アプローチと比較した。
以上の結果から,不確実性推定はある程度の信頼性を高め,分類しきい値選択に対する感度を低下させる可能性が示唆された。
論文 参考訳(メタデータ) (2021-12-17T10:10:00Z) - Dense Uncertainty Estimation via an Ensemble-based Conditional Latent
Variable Model [68.34559610536614]
我々は、アレータリック不確実性はデータの固有の特性であり、偏見のないオラクルモデルでのみ正確に推定できると論じる。
そこで本研究では,軌道不確実性推定のためのオラクルモデルを近似するために,列車時の新しいサンプリングと選択戦略を提案する。
以上の結果から,提案手法は精度の高い決定論的結果と確実な不確実性推定の両方を達成できることが示唆された。
論文 参考訳(メタデータ) (2021-11-22T08:54:10Z) - Identifying Incorrect Classifications with Balanced Uncertainty [21.130311978327196]
不確実性推定は、コストに敏感なディープラーニングアプリケーションには不可欠である。
本研究では,不確実性推定における不均衡を2種類の分布バイアスとしてモデル化するための分布不均衡を提案する。
そこで我々は,新たな分布的焦点損失目標を持つ不確実性推定器を学習する,バランスト・トゥルー・クラス確率フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-15T11:52:31Z) - DEUP: Direct Epistemic Uncertainty Prediction [56.087230230128185]
認識の不確実性は、学習者の知識の欠如によるサンプル外の予測エラーの一部である。
一般化誤差の予測を学習し, aleatoric uncertaintyの推定を減算することで, 認識的不確かさを直接推定する原理的アプローチを提案する。
論文 参考訳(メタデータ) (2021-02-16T23:50:35Z) - Approaching Neural Network Uncertainty Realism [53.308409014122816]
自動運転車などの安全クリティカルなシステムには、定量化または少なくとも上限の不確実性が不可欠です。
マハラノビス距離に基づく統計的テストにより、厳しい品質基準である不確実性リアリズムを評価します。
自動車分野に採用し、プレーンエンコーダデコーダモデルと比較して、不確実性リアリズムを大幅に改善することを示した。
論文 参考訳(メタデータ) (2021-01-08T11:56:12Z) - Trust Issues: Uncertainty Estimation Does Not Enable Reliable OOD
Detection On Medical Tabular Data [0.0]
本稿では,同時代の不確実性推定手法を含む一連の試験について述べる。
これまでの研究とは対照的に、現実的で臨床的に関係のあるOODグループの試験を設計し、実世界の医療データで実験を行う。
論文 参考訳(メタデータ) (2020-11-06T10:41:39Z) - UNITE: Uncertainty-based Health Risk Prediction Leveraging Multi-sourced
Data [81.00385374948125]
我々はUNcertaInTyベースのhEalth Risk Prediction(UNITE)モデルを提案する。
UNITEは、複数ソースの健康データを活用した正確な疾患リスク予測と不確実性推定を提供する。
非アルコール性脂肪肝疾患(NASH)とアルツハイマー病(AD)の実態予測タスクにおけるUNITEの評価を行った。
UNITEはAD検出のF1スコアで最大0.841点、NASH検出のPR-AUCで最大0.609点を達成し、最高のベースラインで最大19%の高パフォーマンスを達成している。
論文 参考訳(メタデータ) (2020-10-22T02:28:11Z) - Diagnostic Uncertainty Calibration: Towards Reliable Machine Predictions
in Medical Domain [20.237847764018138]
本稿では,ラベルの不確実性の存在下でのクラス確率推定(CPE)の評価フレームワークを提案する。
また,レータ間不一致を含む高次統計量の評価指標を定式化した。
提案手法は,不確実性推定の信頼性を著しく向上させることを示す。
論文 参考訳(メタデータ) (2020-07-03T12:54:08Z) - Uncertainty estimation for classification and risk prediction on medical
tabular data [0.0]
本研究は,医療データの分類とリスク予測のための不確実性推定の理解を深めるものである。
医療などのデータ共有分野において、モデルの予測の不確実性を測定する能力は、意思決定支援ツールの改善につながる可能性がある。
論文 参考訳(メタデータ) (2020-04-13T08:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。