論文の概要: Label-free estimation of clinically relevant performance metrics under distribution shifts
- arxiv url: http://arxiv.org/abs/2507.22776v1
- Date: Wed, 30 Jul 2025 15:37:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-31 16:14:18.295678
- Title: Label-free estimation of clinically relevant performance metrics under distribution shifts
- Title(参考訳): 分布シフト下における臨床関連指標のラベルフリー推定
- Authors: Tim Flühmann, Alceu Bissoto, Trung-Dung Hoang, Lisa M. Koch,
- Abstract要約: 本稿では,完全乱雑行列を直接推定する既存の性能予測手法の一般化を紹介する。
実世界の分布シフトにおいて胸部X線データをベンチマークする。
我々のシミュレートされたシフトシナリオは、現在の性能推定手法の重要な障害モードを明らかにした。
- 参考スコア(独自算出の注目度): 3.8961057201295244
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Performance monitoring is essential for safe clinical deployment of image classification models. However, because ground-truth labels are typically unavailable in the target dataset, direct assessment of real-world model performance is infeasible. State-of-the-art performance estimation methods address this by leveraging confidence scores to estimate the target accuracy. Despite being a promising direction, the established methods mainly estimate the model's accuracy and are rarely evaluated in a clinical domain, where strong class imbalances and dataset shifts are common. Our contributions are twofold: First, we introduce generalisations of existing performance prediction methods that directly estimate the full confusion matrix. Then, we benchmark their performance on chest x-ray data in real-world distribution shifts as well as simulated covariate and prevalence shifts. The proposed confusion matrix estimation methods reliably predicted clinically relevant counting metrics on medical images under distribution shifts. However, our simulated shift scenarios exposed important failure modes of current performance estimation techniques, calling for a better understanding of real-world deployment contexts when implementing these performance monitoring techniques for postmarket surveillance of medical AI models.
- Abstract(参考訳): 画像分類モデルの安全な臨床展開には,パフォーマンスモニタリングが不可欠である。
しかし、ターゲットデータセットでは、地上構造ラベルが利用できないことが多いため、実世界のモデル性能の直接評価は不可能である。
最新の性能推定手法は、信頼度スコアを利用して目標精度を推定することでこの問題に対処する。
期待できる方向性にもかかわらず、確立された手法は主にモデルの精度を推定し、強力なクラス不均衡とデータセットシフトが一般的である臨床領域では、ほとんど評価されない。
まず、完全に混乱した行列を直接推定する既存の性能予測手法の一般化を紹介します。
次に,実世界の分布変化と共変量および有病率変化のシミュレーションにより,胸部X線データの性能をベンチマークした。
本提案手法は, 分布シフト下での医用画像上の臨床的に関連性のある計数指標を確実に予測する。
しかし、我々のシミュレートされたシフトシナリオは、現在のパフォーマンス推定手法の重要な障害モードを明らかにし、医療AIモデルのポストマーケット監視のためにこれらのパフォーマンス監視技術を実装する際に、実際のデプロイメント状況をよりよく理解するよう要求した。
関連論文リスト
- Safeguarding AI in Medical Imaging: Post-Hoc Out-of-Distribution Detection with Normalizing Flows [3.3968168503957625]
現在のOOD検出方法は、事前訓練されたモデルに非現実的な再訓練または修正を要求する。
本稿では,既存の事前学習モデルとシームレスに統合する,ポストホック正規化フローベースアプローチを提案する。
我々の方法は84.61%のAUROCを達成し、ViM (80.65%) やMDS (80.87%) といった最先端の手法より優れていた。
論文 参考訳(メタデータ) (2025-02-17T10:31:24Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Evaluating Predictive Uncertainty and Robustness to Distributional Shift
Using Real World Data [0.0]
シフト天気予報データセットを用いて、一般的な回帰作業のためのメトリクスを提案する。
また,これらの指標を用いたベースライン手法の評価を行った。
論文 参考訳(メタデータ) (2021-11-08T17:32:10Z) - On the Practicality of Deterministic Epistemic Uncertainty [106.06571981780591]
決定論的不確実性法(DUM)は,分布外データの検出において高い性能を達成する。
DUMが十分に校正されており、現実のアプリケーションにシームレスにスケールできるかどうかは不明だ。
論文 参考訳(メタデータ) (2021-07-01T17:59:07Z) - Scalable Marginal Likelihood Estimation for Model Selection in Deep
Learning [78.83598532168256]
階層型モデル選択は、推定困難のため、ディープラーニングではほとんど使われない。
本研究は,検証データが利用できない場合,限界的可能性によって一般化が向上し,有用であることを示す。
論文 参考訳(メタデータ) (2021-04-11T09:50:24Z) - Evaluating Model Robustness and Stability to Dataset Shift [7.369475193451259]
機械学習モデルの安定性を解析するためのフレームワークを提案する。
本手法では,アルゴリズムが性能の悪い分布を決定するために,元の評価データを用いる。
我々は,アルゴリズムの性能を"Worst-case"分布で推定する。
論文 参考訳(メタデータ) (2020-10-28T17:35:39Z) - Unlabelled Data Improves Bayesian Uncertainty Calibration under
Covariate Shift [100.52588638477862]
後続正則化に基づく近似ベイズ推定法を開発した。
前立腺癌の予後モデルを世界規模で導入する上で,本手法の有用性を実証する。
論文 参考訳(メタデータ) (2020-06-26T13:50:19Z) - GenDICE: Generalized Offline Estimation of Stationary Values [108.17309783125398]
重要なアプリケーションでは,効果的な推定が依然として可能であることを示す。
我々のアプローチは、定常分布と経験分布の差を補正する比率を推定することに基づいている。
結果として得られるアルゴリズム、GenDICEは単純で効果的である。
論文 参考訳(メタデータ) (2020-02-21T00:27:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。