論文の概要: Evaluating AI systems under uncertain ground truth: a case study in dermatology
- arxiv url: http://arxiv.org/abs/2307.02191v2
- Date: Sun, 13 Apr 2025 11:30:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:47:51.055071
- Title: Evaluating AI systems under uncertain ground truth: a case study in dermatology
- Title(参考訳): 真理不確かさ下におけるAIシステムの評価--皮膚科学を事例として
- Authors: David Stutz, Ali Taylan Cemgil, Abhijit Guha Roy, Tatiana Matejovicova, Melih Barsbey, Patricia Strachan, Mike Schaekermann, Jan Freyberg, Rajeev Rikhye, Beverly Freeman, Javier Perez Matos, Umesh Telang, Dale R. Webster, Yuan Liu, Greg S. Corrado, Yossi Matias, Pushmeet Kohli, Yun Liu, Arnaud Doucet, Alan Karthikesalingam,
- Abstract要約: 不確実性を無視することは、モデル性能の過度に楽観的な推定につながることを示す。
皮膚状態の分類では,データセットの大部分が重大な真理不確実性を示すことが判明した。
- 参考スコア(独自算出の注目度): 43.8328264420381
- License:
- Abstract: For safety, medical AI systems undergo thorough evaluations before deployment, validating their predictions against a ground truth which is assumed to be fixed and certain. However, this ground truth is often curated in the form of differential diagnoses. While a single differential diagnosis reflects the uncertainty in one expert assessment, multiple experts introduce another layer of uncertainty through disagreement. Both forms of uncertainty are ignored in standard evaluation which aggregates these differential diagnoses to a single label. In this paper, we show that ignoring uncertainty leads to overly optimistic estimates of model performance, therefore underestimating risk associated with particular diagnostic decisions. To this end, we propose a statistical aggregation approach, where we infer a distribution on probabilities of underlying medical condition candidates themselves, based on observed annotations. This formulation naturally accounts for the potential disagreements between different experts, as well as uncertainty stemming from individual differential diagnoses, capturing the entire ground truth uncertainty. Our approach boils down to generating multiple samples of medical condition probabilities, then evaluating and averaging performance metrics based on these sampled probabilities. In skin condition classification, we find that a large portion of the dataset exhibits significant ground truth uncertainty and standard evaluation severely over-estimates performance without providing uncertainty estimates. In contrast, our framework provides uncertainty estimates on common metrics of interest such as top-k accuracy and average overlap, showing that performance can change multiple percentage points. We conclude that, while assuming a crisp ground truth can be acceptable for many AI applications, a more nuanced evaluation protocol should be utilized in medical diagnosis.
- Abstract(参考訳): 安全のために、医療AIシステムは、デプロイ前に徹底的な評価を行い、固定された確実な真実に対する予測を検証する。
しかし、この基底真理は、しばしば微分診断の形で計算される。
1つの鑑別診断は1つの専門家評価の不確実性を反映するが、複数の専門家は不一致を通じて別の不確実性の層を導入する。
どちらの形の不確実性も、これらの差分診断を単一のラベルに集約する標準評価で無視される。
本稿では,不確実性を無視するとモデル性能が過度に楽観的になるので,特定の診断決定に伴うリスクを過小評価する。
そこで我々は,観測されたアノテーションに基づいて,基礎疾患候補自体の確率分布を推測する統計集約手法を提案する。
この定式化は、異なる専門家間の潜在的な不一致と、個々の差分診断に起因する不確実性を自然に説明し、根底にある真理不確実性全体を捉えている。
提案手法は,複数の医学的状態の確率のサンプルを生成し,これらの測定値に基づいて評価と平均化を行う。
皮膚条件分類では,データセットの大部分が重要な真実の不確実性を示し,不確実性評価を行なわずに性能を過大評価していることがわかった。
対照的に、我々のフレームワークは、トップkの精度や平均重なり合いなどの共通の指標に関する不確実性評価を提供し、性能が複数のパーセンテージポイントを変化させることを示す。
結論として,多くのAI応用において,暗黙的な根拠真理を許容できると仮定する一方で,より曖昧な評価プロトコルを医学的診断に活用すべきである。
関連論文リスト
- The Implicit Delta Method [61.36121543728134]
本稿では,不確実性のトレーニング損失を無限に正規化することで機能する,暗黙のデルタ法を提案する。
有限差分により無限小変化が近似された場合でも, 正則化による評価の変化は評価推定器の分散に一定であることを示す。
論文 参考訳(メタデータ) (2022-11-11T19:34:17Z) - Reliability-Aware Prediction via Uncertainty Learning for Person Image
Retrieval [51.83967175585896]
UALは、データ不確実性とモデル不確実性を同時に考慮し、信頼性に配慮した予測を提供することを目的としている。
データ不確実性はサンプル固有のノイズを捕捉する」一方、モデル不確実性はサンプルの予測に対するモデルの信頼を表現している。
論文 参考訳(メタデータ) (2022-10-24T17:53:20Z) - Uncertainty Estimates of Predictions via a General Bias-Variance
Decomposition [7.811916700683125]
本稿では,適切なスコアに対するバイアス分散分解を導入し,分散項としてブレグマン情報を導出する。
モデルアンサンブルや信頼領域を含む下流タスクにおけるこの分解の実践的妥当性を示す。
論文 参考訳(メタデータ) (2022-10-21T21:24:37Z) - Dense Uncertainty Estimation via an Ensemble-based Conditional Latent
Variable Model [68.34559610536614]
我々は、アレータリック不確実性はデータの固有の特性であり、偏見のないオラクルモデルでのみ正確に推定できると論じる。
そこで本研究では,軌道不確実性推定のためのオラクルモデルを近似するために,列車時の新しいサンプリングと選択戦略を提案する。
以上の結果から,提案手法は精度の高い決定論的結果と確実な不確実性推定の両方を達成できることが示唆された。
論文 参考訳(メタデータ) (2021-11-22T08:54:10Z) - Identifying Incorrect Classifications with Balanced Uncertainty [21.130311978327196]
不確実性推定は、コストに敏感なディープラーニングアプリケーションには不可欠である。
本研究では,不確実性推定における不均衡を2種類の分布バイアスとしてモデル化するための分布不均衡を提案する。
そこで我々は,新たな分布的焦点損失目標を持つ不確実性推定器を学習する,バランスト・トゥルー・クラス確率フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-15T11:52:31Z) - DEUP: Direct Epistemic Uncertainty Prediction [56.087230230128185]
認識の不確実性は、学習者の知識の欠如によるサンプル外の予測エラーの一部である。
一般化誤差の予測を学習し, aleatoric uncertaintyの推定を減算することで, 認識的不確かさを直接推定する原理的アプローチを提案する。
論文 参考訳(メタデータ) (2021-02-16T23:50:35Z) - Approaching Neural Network Uncertainty Realism [53.308409014122816]
自動運転車などの安全クリティカルなシステムには、定量化または少なくとも上限の不確実性が不可欠です。
マハラノビス距離に基づく統計的テストにより、厳しい品質基準である不確実性リアリズムを評価します。
自動車分野に採用し、プレーンエンコーダデコーダモデルと比較して、不確実性リアリズムを大幅に改善することを示した。
論文 参考訳(メタデータ) (2021-01-08T11:56:12Z) - Uncertainty-Gated Stochastic Sequential Model for EHR Mortality
Prediction [6.170898159041278]
本稿では,欠落変数の分布を推定し,隠れ状態の更新を行い,院内死亡の可能性を予測できる新しい変動再帰ネットワークを提案する。
我々のモデルは、これらの手順を1つのストリームで実行し、エンドツーエンドで全てのネットワークパラメータを共同で学習できることは注目に値する。
論文 参考訳(メタデータ) (2020-03-02T04:41:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。