論文の概要: Clinical Uncertainty Impacts Machine Learning Evaluations
- arxiv url: http://arxiv.org/abs/2509.22242v1
- Date: Fri, 26 Sep 2025 11:56:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.403944
- Title: Clinical Uncertainty Impacts Machine Learning Evaluations
- Title(参考訳): 臨床的不確実性は機械学習の評価に影響を及ぼす
- Authors: Simone Lionetti, Fabian Gröger, Philippe Gottfrois, Alvaro Gonzalez-Jimenez, Ludovic Amruthalingam, Alexander A. Navarini, Marc Pouly,
- Abstract要約: 機械学習評価は, 直接分布に作用する確率的指標を用いて, アノテーションの不確かさを明示的に考慮すべきである,と論じる。
我々は、データセットの生アノテーションをコミュニティに公開し、パフォーマンス推定が臨床データをよりよく反映できるように、不確実性を考慮した評価を採用するよう促す。
- 参考スコア(独自算出の注目度): 40.773483049446426
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Clinical dataset labels are rarely certain as annotators disagree and confidence is not uniform across cases. Typical aggregation procedures, such as majority voting, obscure this variability. In simple experiments on medical imaging benchmarks, accounting for the confidence in binary labels significantly impacts model rankings. We therefore argue that machine-learning evaluations should explicitly account for annotation uncertainty using probabilistic metrics that directly operate on distributions. These metrics can be applied independently of the annotations' generating process, whether modeled by simple counting, subjective confidence ratings, or probabilistic response models. They are also computationally lightweight, as closed-form expressions have linear-time implementations once examples are sorted by model score. We thus urge the community to release raw annotations for datasets and to adopt uncertainty-aware evaluation so that performance estimates may better reflect clinical data.
- Abstract(参考訳): 臨床データセットラベルはアノテータが同意しておらず、信頼性はケース間で均一ではないため、ほとんど確実ではない。
多数決のような一般的な集計手順は、この変数を曖昧にしている。
医療画像ベンチマークの簡単な実験では、バイナリラベルの信頼性がモデルランキングに大きく影響する。
したがって,機械学習評価は,分布を直接操作する確率的指標を用いて,アノテーションの不確かさを明示的に考慮すべきである,と論じる。
これらのメトリクスは、単純な数え上げ、主観的信頼評価、確率的応答モデルなど、アノテーションの生成プロセスとは独立して適用することができる。
また、実例がモデルスコアによってソートされると、閉形式式は線形時間実装を持つため、計算量も軽量である。
そこで我々は,データセットの生アノテーションをコミュニティに公開し,パフォーマンス評価が臨床データを反映するように,不確実性を考慮した評価を採用するように促した。
関連論文リスト
- Performance Estimation in Binary Classification Using Calibrated Confidence [0.5399800035598186]
混乱行列を用いて定義された任意の二項分類基準を推定できる新しい手法CBPEを提案する。
CBPEは強い理論的保証と有効な信頼区間を持つ推定値を生成する。
論文 参考訳(メタデータ) (2025-05-08T14:34:44Z) - Enhancing Uncertainty Quantification in Drug Discovery with Censored Regression Labels [1.9354018523009415]
私たちはアンサンブルベース、ベイジアン、ガウシアンのモデルを検閲されたラベルから学ぶためのツールで適応します。
以上の結果から,検閲されたラベルから得られる部分的な情報にもかかわらず,実際の医薬品設定を正確かつ確実にモデル化することが不可欠であることが示唆された。
論文 参考訳(メタデータ) (2024-09-06T14:38:47Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Evaluating AI systems under uncertain ground truth: a case study in dermatology [43.8328264420381]
不確実性を無視することは、モデル性能の過度に楽観的な推定につながることを示す。
皮膚状態の分類では,データセットの大部分が重大な真理不確実性を示すことが判明した。
論文 参考訳(メタデータ) (2023-07-05T10:33:45Z) - Bring Your Own Data! Self-Supervised Evaluation for Large Language
Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。
閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。
自己監督評価と人監督評価との間には強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-06-23T17:59:09Z) - Towards Reliable Medical Image Segmentation by Modeling Evidential Calibrated Uncertainty [57.023423137202485]
医用画像のセグメンテーションの信頼性に関する懸念が臨床医の間で続いている。
本稿では,医療画像セグメンテーションネットワークにシームレスに統合可能な,実装が容易な基礎モデルであるDEviSを紹介する。
主観的論理理論を活用することで、医用画像分割の確率と不確実性を明示的にモデル化する。
論文 参考訳(メタデータ) (2023-01-01T05:02:46Z) - USE-Evaluator: Performance Metrics for Medical Image Segmentation Models
with Uncertain, Small or Empty Reference Annotations [5.672489398972326]
症例の分布と公的なデータセットにおけるセグメンテーション作業の難易度との間には,臨床実践と比較してミスマッチがある。
一般的な指標は、特に臨床データセットにおいて、このミスマッチの影響を測ることに失敗する。
医用画像のセグメンテーションにおける基準アノテーションの不確かさ,小ささ,空さが指標の価値に与える影響について検討する。
論文 参考訳(メタデータ) (2022-09-26T20:40:02Z) - Classifier uncertainty: evidence, potential impact, and probabilistic
treatment [0.0]
本稿では,混乱行列の確率モデルに基づいて,分類性能指標の不確かさを定量化する手法を提案する。
我々は、不確実性は驚くほど大きく、性能評価を制限できることを示した。
論文 参考訳(メタデータ) (2020-06-19T12:49:19Z) - Performance metrics for intervention-triggering prediction models do not
reflect an expected reduction in outcomes from using the model [71.9860741092209]
臨床研究者はしばしばリスク予測モデルの中から選択し評価する。
振り返りデータから算出される標準メトリクスは、特定の仮定の下でのみモデルユーティリティに関係します。
予測が時間を通して繰り返し配信される場合、標準メトリクスとユーティリティの関係はさらに複雑になる。
論文 参考訳(メタデータ) (2020-06-02T16:26:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。