論文の概要: Aligning Evaluation with Clinical Priorities: Calibration, Label Shift, and Error Costs
- arxiv url: http://arxiv.org/abs/2506.14540v3
- Date: Mon, 30 Jun 2025 11:59:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 15:08:39.753723
- Title: Aligning Evaluation with Clinical Priorities: Calibration, Label Shift, and Error Costs
- Title(参考訳): 臨床優先性による評価の調整:校正、ラベルシフト、エラーコスト
- Authors: Gerardo A. Flores, Alyssa H. Smith, Julia A. Fukuyama, Ashia C. Wilson,
- Abstract要約: 校正しきい値分類器を選択するための基本的かつ実用的な評価フレームワークを提案する。
臨床的に関連のあるクラスバランスの範囲でコスト重み付け性能を平均化するクロスエントロピー(log score)の調整版を導出する。
その結果得られた評価は、簡単に適用でき、臨床展開条件に敏感であり、キャリブレーションされたモデルと実世界の変動に頑健なモデルの両方を優先順位付けするよう設計されている。
- 参考スコア(独自算出の注目度): 3.299877799532224
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine learning-based decision support systems are increasingly deployed in clinical settings, where probabilistic scoring functions are used to inform and prioritize patient management decisions. However, widely used scoring rules, such as accuracy and AUC-ROC, fail to adequately reflect key clinical priorities, including calibration, robustness to distributional shifts, and sensitivity to asymmetric error costs. In this work, we propose a principled yet practical evaluation framework for selecting calibrated thresholded classifiers that explicitly accounts for the uncertainty in class prevalences and domain-specific cost asymmetries often found in clinical settings. Building on the theory of proper scoring rules, particularly the Schervish representation, we derive an adjusted variant of cross-entropy (log score) that averages cost-weighted performance over clinically relevant ranges of class balance. The resulting evaluation is simple to apply, sensitive to clinical deployment conditions, and designed to prioritize models that are both calibrated and robust to real-world variations.
- Abstract(参考訳): 機械学習に基づく意思決定支援システムは、患者管理決定の通知と優先順位付けに確率的スコアリング機能を使用する、臨床環境にますます導入されている。
しかし、精度やAUC-ROCなどの広く使われているスコアリングルールは、校正、分散シフトに対する堅牢性、非対称的なエラーコストに対する感受性など、重要な臨床上の優先事項を適切に反映することができない。
本研究では,臨床現場でよく見られる,クラス頻度の不確かさとドメイン固有のコスト非対称性を明示的に考慮した校正しきい値分類器を選択するための,原則的かつ実用的な評価フレームワークを提案する。
適切なスコアリング規則の理論、特にシュルヴィッシュ表現に基づいて、臨床に関係のあるクラスバランスの範囲でコスト重み付け性能を平均化するクロスエントロピー(log score)の調整された変種を導出する。
その結果得られた評価は、簡単に適用でき、臨床展開条件に敏感であり、キャリブレーションされたモデルと実世界の変動に頑健なモデルの両方を優先順位付けするよう設計されている。
関連論文リスト
- Guideline-Grounded Evidence Accumulation for High-Stakes Agent Verification [60.18369393468405]
既存の検証器は通常、ドメイン知識の欠如と限られた校正のために性能が劣る。
GLEANは専門家によって計算されたプロトコルをトラジェクトリインフォームされ、よく校正された正当性信号にコンパイルする。
我々は,MIMIC-IVデータセットから得られた3つの疾患の薬物的臨床診断でGLEANを実証的に検証した。
論文 参考訳(メタデータ) (2026-03-03T09:36:43Z) - An Empirical Analysis of Calibration and Selective Prediction in Multimodal Clinical Condition Classification [11.640422721732756]
マルチラベル臨床条件分類における不確実性に基づく選択予測の信頼性を実証的に評価した。
高い標準評価基準にもかかわらず、選択的予測は性能を著しく低下させる可能性がある。
この失敗は、厳密なクラス依存の誤校正によって引き起こされ、モデルが正しい予測に高い不確実性を割り当て、誤った予測に低い不確実性を割り当てる。
論文 参考訳(メタデータ) (2026-03-03T08:16:44Z) - Diagnostics for Individual-Level Prediction Instability in Machine Learning for Healthcare [0.0]
2つの相補的診断法を用いて個人レベルの予測不安定性を定量化する評価フレームワークを提案する。
これらの診断をシミュレーションデータとGUSTO-I臨床データセットに適用する。
論文 参考訳(メタデータ) (2026-02-27T03:42:28Z) - AgentScore: Autoformulation of Deployable Clinical Scoring Systems [45.88028371034407]
本稿では,単位重み付き臨床チェックリストのセマンティックガイドによる最適化を行うAgentScoreを紹介する。
AgentScoreは既存のスコア生成方法より優れており、より柔軟な解釈可能なモデルに匹敵するAUCを実現している。
さらに2つの外部検証タスクにおいて、AgentScoreは、確立されたガイドラインベースのスコアよりも高い差別を達成する。
論文 参考訳(メタデータ) (2026-01-29T21:11:06Z) - Scalably Enhancing the Clinical Validity of a Task Benchmark with Physician Oversight [5.202988483354374]
本研究では,複雑なタスクの監視ベンチマークを,定期的に再評価すべき 'in-progress living document'' として提案する。
我々は,先進的なエージェント検証を利用して,MedCalc-Benchを監査し,レラベル化する,系統的,内科的・内科的パイプラインを提案する。
検査の結果,抽出ミス,電卓論理ミスマッチ,臨床曖昧さなどにより,原著ラベルの顕著な部分が医学的根拠の真相から逸脱していることが判明した。
論文 参考訳(メタデータ) (2025-12-22T18:59:34Z) - Scalable Utility-Aware Multiclass Calibration [53.28176049547449]
ユーティリティキャリブレーション(英: Utility calibration)は、特定のユーティリティ関数に対するキャリブレーション誤差を測定する一般的なフレームワークである。
我々は、このフレームワークが既存のキャリブレーションメトリクスを統一し、再解釈する方法を実証する。
論文 参考訳(メタデータ) (2025-10-29T12:32:14Z) - Conformal Lesion Segmentation for 3D Medical Images [82.92159832699583]
本稿では,データ駆動しきい値の校正をコンフォーマル化することで,テスト時間FNRが目標許容値以下であることを保証する,リスク制約付きフレームワークを提案する。
5つのバックボーンモデルにまたがる6つの3D-LSデータセット上でのCLSの統計的健全性と予測性能を検証し,臨床実践におけるリスク認識セグメンテーションの展開に関する実用的な知見を得た。
論文 参考訳(メタデータ) (2025-10-19T08:21:00Z) - Mind the Gap: Benchmarking LLM Uncertainty, Discrimination, and Calibration in Specialty-Aware Clinical QA [4.501692468580528]
臨床質問応答(QA)に焦点を当てた不確実性評価手法の評価を行った。
本稿では,推論指向モデルに基づく行動特徴に基づく,新しい軽量な手法を提案する。
以上の結果から,不確実性はモノリシックな性質ではなく,臨床専門性や質問タイプに依存していることが明らかとなった。
論文 参考訳(メタデータ) (2025-06-12T14:48:25Z) - CRG Score: A Distribution-Aware Clinical Metric for Radiology Report Generation [6.930435788495898]
CRGスコア(CRG Score, CRGスコア, CRGスコア, CRGスコア, CRGスコア, CRGスコア, CRGスコア, CRGスコア, CRGスコア, CRGスコア, CRGスコア, CRGスコア, CRGスコア, CRGスコア, CRGスコア, CRGスコア, CRGスコア)
ラベル分布に基づく罰則のバランスをとることにより、より公平で堅牢な評価を可能にし、臨床に整合した報酬機能として機能する。
論文 参考訳(メタデータ) (2025-05-22T17:02:28Z) - A Consequentialist Critique of Binary Classification Evaluation Practices [4.603739046972463]
ICML、FAccT、CHILといった主要なカンファレンスでは、トップKメトリクスや一定のしきい値が好まれています。
我々は、この決定論的フレームワークを使用して、評価指標を最適なユースケースにマッピングし、Pythonパッケージであるbriertoolsとともに、より広範なBrierスコアの採用を促進する。
論文 参考訳(メタデータ) (2025-04-06T15:58:01Z) - From Uncertainty to Precision: Enhancing Binary Classifier Performance
through Calibration [0.3495246564946556]
モデル予測スコアはイベント確率として一般的に見なされるので、キャリブレーションは正確な解釈に不可欠である。
歪み評価のための様々なキャリブレーション尺度の感度を解析し,改良された指標であるローカルスコアを導入する。
これらの知見をランダムフォレスト分類器と回帰器を用いて実世界のシナリオに適用し、キャリブレーションを同時に測定しながら信用デフォルトを予測する。
論文 参考訳(メタデータ) (2024-02-12T16:55:19Z) - Likelihood Ratio Confidence Sets for Sequential Decision Making [51.66638486226482]
確率に基づく推論の原理を再検討し、確率比を用いて妥当な信頼シーケンスを構築することを提案する。
本手法は, 精度の高い問題に特に適している。
提案手法は,オンライン凸最適化への接続に光を当てることにより,推定器の最適シーケンスを確実に選択する方法を示す。
論文 参考訳(メタデータ) (2023-11-08T00:10:21Z) - Calibration by Distribution Matching: Trainable Kernel Calibration
Metrics [56.629245030893685]
カーネルベースのキャリブレーションメトリクスを導入し、分類と回帰の両方で一般的なキャリブレーションの形式を統一・一般化する。
これらの指標は、異なるサンプル推定を許容しており、キャリブレーションの目的を経験的リスク最小化に組み込むのが容易である。
決定タスクにキャリブレーションメトリクスを調整し、正確な損失推定を行ない、後悔しない決定を行うための直感的なメカニズムを提供する。
論文 参考訳(メタデータ) (2023-10-31T06:19:40Z) - Calibrating LLM-Based Evaluator [92.17397504834825]
マルチステージで勾配のないアプローチであるAutoCalibrateを提案し,LLMに基づく評価器を人間の好みに合わせて調整・調整する。
人間の嗜好を明示的にモデル化する代わりに、まず暗黙的に人間のラベルに含めます。
複数のテキスト品質評価データセットに関する実験は、校正による専門家評価との相関性を大幅に改善したことを示す。
論文 参考訳(メタデータ) (2023-09-23T08:46:11Z) - Towards Reliable Medical Image Segmentation by utilizing Evidential Calibrated Uncertainty [52.03490691733464]
本稿では,医療画像セグメンテーションネットワークにシームレスに統合可能な,実装が容易な基礎モデルであるDEviSを紹介する。
主観的論理理論を利用して、医用画像分割の問題に対する確率と不確実性を明示的にモデル化する。
DeviSには不確実性を考慮したフィルタリングモジュールが組み込まれている。
論文 参考訳(メタデータ) (2023-01-01T05:02:46Z) - Better Uncertainty Calibration via Proper Scores for Classification and
Beyond [15.981380319863527]
各校正誤差を適切なスコアに関連付ける適切な校正誤差の枠組みを導入する。
この関係は、モデルのキャリブレーションの改善を確実に定量化するために利用することができる。
論文 参考訳(メタデータ) (2022-03-15T12:46:08Z) - Improving the compromise between accuracy, interpretability and
personalization of rule-based machine learning in medical problems [0.08594140167290096]
特定の患者に対してルールが正しいか否かを予測するための新しいコンポーネントを導入し、その手順にパーソナライズを導入する。
3つの公開臨床データセットを用いた検証結果から,選択したルールセットの予測性能の向上も可能であることが示された。
論文 参考訳(メタデータ) (2021-06-15T01:19:04Z) - Unsupervised Calibration under Covariate Shift [92.02278658443166]
ドメインシフト下でのキャリブレーションの問題を導入し、それに対処するための重要サンプリングに基づくアプローチを提案する。
実世界のデータセットと合成データセットの両方において,本手法の有効性を評価し検討した。
論文 参考訳(メタデータ) (2020-06-29T21:50:07Z) - Calibration of Neural Networks using Splines [51.42640515410253]
キャリブレーション誤差の測定は、2つの経験的分布を比較します。
古典的コルモゴロフ・スミルノフ統計テスト(KS)にインスパイアされたビンニングフリーキャリブレーション尺度を導入する。
提案手法は,KS誤差に対する既存の手法と,他の一般的なキャリブレーション手法とを一貫して比較する。
論文 参考訳(メタデータ) (2020-06-23T07:18:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。