論文の概要: Aligning Evaluation with Clinical Priorities: Calibration, Label Shift, and Error Costs
- arxiv url: http://arxiv.org/abs/2506.14540v2
- Date: Wed, 18 Jun 2025 02:06:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-19 13:10:45.381943
- Title: Aligning Evaluation with Clinical Priorities: Calibration, Label Shift, and Error Costs
- Title(参考訳): 臨床優先性による評価の調整:校正、ラベルシフト、エラーコスト
- Authors: Gerardo A. Flores, Alyssa H. Smith, Julia A. Fukuyama, Ashia C. Wilson,
- Abstract要約: 校正しきい値分類器を選択するための基本的かつ実用的な評価フレームワークを提案する。
臨床的に関連のあるクラスバランスの範囲でコスト重み付け性能を平均化するクロスエントロピー(log score)の調整版を導出する。
その結果得られた評価は、簡単に適用でき、臨床展開条件に敏感であり、キャリブレーションされたモデルと実世界の変動に頑健なモデルの両方を優先順位付けするよう設計されている。
- 参考スコア(独自算出の注目度): 3.299877799532224
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine learning-based decision support systems are increasingly deployed in clinical settings, where probabilistic scoring functions are used to inform and prioritize patient management decisions. However, widely used scoring rules, such as accuracy and AUC-ROC, fail to adequately reflect key clinical priorities, including calibration, robustness to distributional shifts, and sensitivity to asymmetric error costs. In this work, we propose a principled yet practical evaluation framework for selecting calibrated thresholded classifiers that explicitly accounts for the uncertainty in class prevalences and domain-specific cost asymmetries often found in clinical settings. Building on the theory of proper scoring rules, particularly the Schervish representation, we derive an adjusted variant of cross-entropy (log score) that averages cost-weighted performance over clinically relevant ranges of class balance. The resulting evaluation is simple to apply, sensitive to clinical deployment conditions, and designed to prioritize models that are both calibrated and robust to real-world variations.
- Abstract(参考訳): 機械学習に基づく意思決定支援システムは、患者管理決定の通知と優先順位付けに確率的スコアリング機能を使用する、臨床環境にますます導入されている。
しかし、精度やAUC-ROCなどの広く使われているスコアリングルールは、校正、分散シフトに対する堅牢性、非対称的なエラーコストに対する感受性など、重要な臨床上の優先事項を適切に反映することができない。
本研究では,臨床現場でよく見られる,クラス頻度の不確かさとドメイン固有のコスト非対称性を明示的に考慮した校正しきい値分類器を選択するための,原則的かつ実用的な評価フレームワークを提案する。
適切なスコアリング規則の理論、特にシュルヴィッシュ表現に基づいて、臨床に関係のあるクラスバランスの範囲でコスト重み付け性能を平均化するクロスエントロピー(log score)の調整された変種を導出する。
その結果得られた評価は、簡単に適用でき、臨床展開条件に敏感であり、キャリブレーションされたモデルと実世界の変動に頑健なモデルの両方を優先順位付けするよう設計されている。
関連論文リスト
- CRG Score: A Distribution-Aware Clinical Metric for Radiology Report Generation [6.930435788495898]
CRGスコア(CRG Score, CRGスコア, CRGスコア, CRGスコア, CRGスコア, CRGスコア, CRGスコア, CRGスコア, CRGスコア, CRGスコア, CRGスコア, CRGスコア, CRGスコア, CRGスコア, CRGスコア, CRGスコア, CRGスコア)
ラベル分布に基づく罰則のバランスをとることにより、より公平で堅牢な評価を可能にし、臨床に整合した報酬機能として機能する。
論文 参考訳(メタデータ) (2025-05-22T17:02:28Z) - A Consequentialist Critique of Binary Classification Evaluation Practices [4.603739046972463]
ICML、FAccT、CHILといった主要なカンファレンスでは、トップKメトリクスや一定のしきい値が好まれています。
我々は、この決定論的フレームワークを使用して、評価指標を最適なユースケースにマッピングし、Pythonパッケージであるbriertoolsとともに、より広範なBrierスコアの採用を促進する。
論文 参考訳(メタデータ) (2025-04-06T15:58:01Z) - From Uncertainty to Precision: Enhancing Binary Classifier Performance
through Calibration [0.3495246564946556]
モデル予測スコアはイベント確率として一般的に見なされるので、キャリブレーションは正確な解釈に不可欠である。
歪み評価のための様々なキャリブレーション尺度の感度を解析し,改良された指標であるローカルスコアを導入する。
これらの知見をランダムフォレスト分類器と回帰器を用いて実世界のシナリオに適用し、キャリブレーションを同時に測定しながら信用デフォルトを予測する。
論文 参考訳(メタデータ) (2024-02-12T16:55:19Z) - Likelihood Ratio Confidence Sets for Sequential Decision Making [51.66638486226482]
確率に基づく推論の原理を再検討し、確率比を用いて妥当な信頼シーケンスを構築することを提案する。
本手法は, 精度の高い問題に特に適している。
提案手法は,オンライン凸最適化への接続に光を当てることにより,推定器の最適シーケンスを確実に選択する方法を示す。
論文 参考訳(メタデータ) (2023-11-08T00:10:21Z) - Calibration by Distribution Matching: Trainable Kernel Calibration
Metrics [56.629245030893685]
カーネルベースのキャリブレーションメトリクスを導入し、分類と回帰の両方で一般的なキャリブレーションの形式を統一・一般化する。
これらの指標は、異なるサンプル推定を許容しており、キャリブレーションの目的を経験的リスク最小化に組み込むのが容易である。
決定タスクにキャリブレーションメトリクスを調整し、正確な損失推定を行ない、後悔しない決定を行うための直感的なメカニズムを提供する。
論文 参考訳(メタデータ) (2023-10-31T06:19:40Z) - Towards Reliable Medical Image Segmentation by utilizing Evidential Calibrated Uncertainty [52.03490691733464]
本稿では,医療画像セグメンテーションネットワークにシームレスに統合可能な,実装が容易な基礎モデルであるDEviSを紹介する。
主観的論理理論を利用して、医用画像分割の問題に対する確率と不確実性を明示的にモデル化する。
DeviSには不確実性を考慮したフィルタリングモジュールが組み込まれている。
論文 参考訳(メタデータ) (2023-01-01T05:02:46Z) - Better Uncertainty Calibration via Proper Scores for Classification and
Beyond [15.981380319863527]
各校正誤差を適切なスコアに関連付ける適切な校正誤差の枠組みを導入する。
この関係は、モデルのキャリブレーションの改善を確実に定量化するために利用することができる。
論文 参考訳(メタデータ) (2022-03-15T12:46:08Z) - Improving the compromise between accuracy, interpretability and
personalization of rule-based machine learning in medical problems [0.08594140167290096]
特定の患者に対してルールが正しいか否かを予測するための新しいコンポーネントを導入し、その手順にパーソナライズを導入する。
3つの公開臨床データセットを用いた検証結果から,選択したルールセットの予測性能の向上も可能であることが示された。
論文 参考訳(メタデータ) (2021-06-15T01:19:04Z) - Unsupervised Calibration under Covariate Shift [92.02278658443166]
ドメインシフト下でのキャリブレーションの問題を導入し、それに対処するための重要サンプリングに基づくアプローチを提案する。
実世界のデータセットと合成データセットの両方において,本手法の有効性を評価し検討した。
論文 参考訳(メタデータ) (2020-06-29T21:50:07Z) - Calibration of Neural Networks using Splines [51.42640515410253]
キャリブレーション誤差の測定は、2つの経験的分布を比較します。
古典的コルモゴロフ・スミルノフ統計テスト(KS)にインスパイアされたビンニングフリーキャリブレーション尺度を導入する。
提案手法は,KS誤差に対する既存の手法と,他の一般的なキャリブレーション手法とを一貫して比較する。
論文 参考訳(メタデータ) (2020-06-23T07:18:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。