論文の概要: Evaluating AI systems under uncertain ground truth: a case study in
dermatology
- arxiv url: http://arxiv.org/abs/2307.02191v1
- Date: Wed, 5 Jul 2023 10:33:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-06 14:16:30.505707
- Title: Evaluating AI systems under uncertain ground truth: a case study in
dermatology
- Title(参考訳): 不確実な真実の下でAIシステムを評価する--皮膚科学の事例研究
- Authors: David Stutz, Ali Taylan Cemgil, Abhijit Guha Roy, Tatiana
Matejovicova, Melih Barsbey, Patricia Strachan, Mike Schaekermann, Jan
Freyberg, Rajeev Rikhye, Beverly Freeman, Javier Perez Matos, Umesh Telang,
Dale R. Webster, Yuan Liu, Greg S. Corrado, Yossi Matias, Pushmeet Kohli, Yun
Liu, Arnaud Doucet, Alan Karthikesalingam
- Abstract要約: 本稿では,アノテーションの不確実性を測定するための指標を提案し,評価のための不確実性調整指標を提案する。
本稿では,本フレームワークを皮膚条件分類に応用した症例スタディとして,アノテーションを診断の形で提供した画像について述べる。
- 参考スコア(独自算出の注目度): 44.80772162289557
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: For safety, AI systems in health undergo thorough evaluations before
deployment, validating their predictions against a ground truth that is assumed
certain. However, this is actually not the case and the ground truth may be
uncertain. Unfortunately, this is largely ignored in standard evaluation of AI
models but can have severe consequences such as overestimating the future
performance. To avoid this, we measure the effects of ground truth uncertainty,
which we assume decomposes into two main components: annotation uncertainty
which stems from the lack of reliable annotations, and inherent uncertainty due
to limited observational information. This ground truth uncertainty is ignored
when estimating the ground truth by deterministically aggregating annotations,
e.g., by majority voting or averaging. In contrast, we propose a framework
where aggregation is done using a statistical model. Specifically, we frame
aggregation of annotations as posterior inference of so-called plausibilities,
representing distributions over classes in a classification setting, subject to
a hyper-parameter encoding annotator reliability. Based on this model, we
propose a metric for measuring annotation uncertainty and provide
uncertainty-adjusted metrics for performance evaluation. We present a case
study applying our framework to skin condition classification from images where
annotations are provided in the form of differential diagnoses. The
deterministic adjudication process called inverse rank normalization (IRN) from
previous work ignores ground truth uncertainty in evaluation. Instead, we
present two alternative statistical models: a probabilistic version of IRN and
a Plackett-Luce-based model. We find that a large portion of the dataset
exhibits significant ground truth uncertainty and standard IRN-based evaluation
severely over-estimates performance without providing uncertainty estimates.
- Abstract(参考訳): 安全のために、健康状態のAIシステムは、デプロイ前に徹底的な評価を行い、確実と思われる基礎的な真実に対する予測を検証する。
しかし、実際にはそうではなく、根本的真理は明らかではない。
残念ながら、これはAIモデルの標準的な評価では無視されているが、将来のパフォーマンスを過大評価するような深刻な結果をもたらす可能性がある。
そこで本研究では,信頼度の高いアノテーションの欠如に起因するアノテーションの不確かさと,限られた観測情報による固有の不確かさの2つの主要な構成要素に分解を仮定する地中真実の不確かさの影響を計測する。
この基底真理の不確実性は、例えば多数決や平均化によってアノテーションを決定的に集約することで、基底真理を推定する際に無視される。
対照的に,統計モデルを用いて集約を行うフレームワークを提案する。
具体的には,アノテーションのアグリゲーションを,アノテータの信頼性を符号化するハイパーパラメータの対象となる分類設定におけるクラス上の分布を表す,いわゆるプラウジビティの後方推定として構成する。
このモデルに基づいて,アノテート不確実性を測定する指標を提案し,評価のための不確実性調整指標を提供する。
本研究は, 弁別診断の形でアノテーションが提供された画像から皮膚の状態分類に本手法を適用したケーススタディである。
逆ランク正規化(IRN)と呼ばれる決定論的偏見過程は、評価において根拠的真偽を無視する。
その代わり、IRNの確率バージョンとプラケット・ルーシモデルという2つの統計モデルを提案する。
その結果,データセットの大部分は重大な真偽の不確実性を示し,標準IRNによる評価は不確実性評価を伴わずに過大評価されることがわかった。
関連論文リスト
- Evaluation of uncertainty estimations for Gaussian process regression based machine learning interatomic potentials [0.0]
機械学習の原子間ポテンシャルの不確実性推定は、導入した追加モデルエラーの定量化に不可欠である。
我々は、クーロンおよびSOAP表現を持つGPRモデルを、ポテンシャルエネルギー表面と分子の励起エネルギーを予測する入力として考える。
我々は,GPRの分散とアンサンブルに基づく不確かさが誤差とどのように関係しているか,また,固定された構成空間から最も不確実なサンプルを選択することによりモデル性能が向上するかを評価する。
論文 参考訳(メタデータ) (2024-10-27T10:06:09Z) - The Implicit Delta Method [61.36121543728134]
本稿では,不確実性のトレーニング損失を無限に正規化することで機能する,暗黙のデルタ法を提案する。
有限差分により無限小変化が近似された場合でも, 正則化による評価の変化は評価推定器の分散に一定であることを示す。
論文 参考訳(メタデータ) (2022-11-11T19:34:17Z) - Reliability-Aware Prediction via Uncertainty Learning for Person Image
Retrieval [51.83967175585896]
UALは、データ不確実性とモデル不確実性を同時に考慮し、信頼性に配慮した予測を提供することを目的としている。
データ不確実性はサンプル固有のノイズを捕捉する」一方、モデル不確実性はサンプルの予測に対するモデルの信頼を表現している。
論文 参考訳(メタデータ) (2022-10-24T17:53:20Z) - Uncertainty Estimates of Predictions via a General Bias-Variance
Decomposition [7.811916700683125]
本稿では,適切なスコアに対するバイアス分散分解を導入し,分散項としてブレグマン情報を導出する。
モデルアンサンブルや信頼領域を含む下流タスクにおけるこの分解の実践的妥当性を示す。
論文 参考訳(メタデータ) (2022-10-21T21:24:37Z) - Dense Uncertainty Estimation via an Ensemble-based Conditional Latent
Variable Model [68.34559610536614]
我々は、アレータリック不確実性はデータの固有の特性であり、偏見のないオラクルモデルでのみ正確に推定できると論じる。
そこで本研究では,軌道不確実性推定のためのオラクルモデルを近似するために,列車時の新しいサンプリングと選択戦略を提案する。
以上の結果から,提案手法は精度の高い決定論的結果と確実な不確実性推定の両方を達成できることが示唆された。
論文 参考訳(メタデータ) (2021-11-22T08:54:10Z) - Identifying Incorrect Classifications with Balanced Uncertainty [21.130311978327196]
不確実性推定は、コストに敏感なディープラーニングアプリケーションには不可欠である。
本研究では,不確実性推定における不均衡を2種類の分布バイアスとしてモデル化するための分布不均衡を提案する。
そこで我々は,新たな分布的焦点損失目標を持つ不確実性推定器を学習する,バランスト・トゥルー・クラス確率フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-15T11:52:31Z) - DEUP: Direct Epistemic Uncertainty Prediction [56.087230230128185]
認識の不確実性は、学習者の知識の欠如によるサンプル外の予測エラーの一部である。
一般化誤差の予測を学習し, aleatoric uncertaintyの推定を減算することで, 認識的不確かさを直接推定する原理的アプローチを提案する。
論文 参考訳(メタデータ) (2021-02-16T23:50:35Z) - Approaching Neural Network Uncertainty Realism [53.308409014122816]
自動運転車などの安全クリティカルなシステムには、定量化または少なくとも上限の不確実性が不可欠です。
マハラノビス距離に基づく統計的テストにより、厳しい品質基準である不確実性リアリズムを評価します。
自動車分野に採用し、プレーンエンコーダデコーダモデルと比較して、不確実性リアリズムを大幅に改善することを示した。
論文 参考訳(メタデータ) (2021-01-08T11:56:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。