論文の概要: meval: A Statistical Toolbox for Fine-Grained Model Performance Analysis
- arxiv url: http://arxiv.org/abs/2512.17409v1
- Date: Fri, 19 Dec 2025 10:01:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-22 19:25:54.336069
- Title: meval: A Statistical Toolbox for Fine-Grained Model Performance Analysis
- Title(参考訳): meval: 詳細なモデルパフォーマンス分析のための統計ツールボックス
- Authors: Dishantkumar Sutariya, Eike Petersen,
- Abstract要約: 患者と記録特性の階層化による機械学習モデルの性能解析が標準となっている。
このような分析を統計的に厳密な方法で行うことは自明ではない。
本稿では,これらの課題に対処する統計ツールボックスを提案する。
- 参考スコア(独自算出の注目度): 1.8620637029128548
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Analyzing machine learning model performance stratified by patient and recording properties is becoming the accepted norm and often yields crucial insights about important model failure modes. Performing such analyses in a statistically rigorous manner is non-trivial, however. Appropriate performance metrics must be selected that allow for valid comparisons between groups of different sample sizes and base rates; metric uncertainty must be determined and multiple comparisons be corrected for, in order to assess whether any observed differences may be purely due to chance; and in the case of intersectional analyses, mechanisms must be implemented to find the most `interesting' subgroups within combinatorially many subgroup combinations. We here present a statistical toolbox that addresses these challenges and enables practitioners to easily yet rigorously assess their models for potential subgroup performance disparities. While broadly applicable, the toolbox is specifically designed for medical imaging applications. The analyses provided by the toolbox are illustrated in two case studies, one in skin lesion malignancy classification on the ISIC2020 dataset and one in chest X-ray-based disease classification on the MIMIC-CXR dataset.
- Abstract(参考訳): 患者と記録プロパティによって階層化された機械学習モデルのパフォーマンスを解析することは、受け入れられる標準となり、重要なモデル障害モードに関する重要な洞察を得ることが多い。
しかし、統計的に厳密な方法でそのような分析を行うのは自明ではない。
異なるサンプルサイズとベースレートのグループの有効比較を可能にする適切なパフォーマンス指標が選択されなければならない; 計量の不確実性は決定され、複数の比較が修正されなければならない; 観測された違いが偶然に純粋なものであるかどうかを評価するために; 交叉解析の場合、多くのサブグループの組み合わせの中で最も「興味深い」サブグループを見つけるためのメカニズムが実装されなければならない。
本稿では,これらの課題に対処する統計ツールボックスを提案する。
広く応用されているが、このツールボックスは医用イメージング用途に特化して設計されている。
ツールボックスによる解析は,ISIC2020データセットによる皮膚病変の悪性度分類とMIMIC-CXRデータセットによる胸部X線疾患分類の2つのケーススタディで示された。
関連論文リスト
- On Arbitrary Predictions from Equally Valid Models [49.56463611078044]
モデル多重性(英: Model multiplicity)とは、同じ患者に対して矛盾する予測を認める複数の機械学習モデルを指す。
たとえ小さなアンサンブルであっても、実際は予測的多重性を緩和・緩和できることを示す。
論文 参考訳(メタデータ) (2025-07-25T16:15:59Z) - Exploration of the Rashomon Set Assists Trustworthy Explanations for
Medical Data [4.499833362998488]
本稿では,Rashomon集合におけるモデル探索の新たなプロセスを紹介し,従来のモデリング手法を拡張した。
動作の異なるモデルを検出するために,$textttRashomon_DETECT$アルゴリズムを提案する。
モデル間の変動効果の差を定量化するために,機能的データ解析に基づくプロファイル分散指数(PDI)を導入する。
論文 参考訳(メタデータ) (2023-08-22T13:53:43Z) - Empirical Analysis of Model Selection for Heterogeneous Causal Effect Estimation [24.65301562548798]
本研究では,因果推論におけるモデル選択の問題,特に条件付き平均処理効果(CATE)の推定について検討する。
本研究では,本研究で導入されたサロゲートモデル選択指標と,本研究で導入された新しい指標のベンチマークを行う。
論文 参考訳(メタデータ) (2022-11-03T16:26:06Z) - Adversarial Sample Enhanced Domain Adaptation: A Case Study on
Predictive Modeling with Electronic Health Records [57.75125067744978]
ドメイン適応を容易にするデータ拡張手法を提案する。
逆生成したサンプルはドメイン適応時に使用される。
その結果,本手法の有効性とタスクの一般性が確認された。
論文 参考訳(メタデータ) (2021-01-13T03:20:20Z) - Characterizing Fairness Over the Set of Good Models Under Selective
Labels [69.64662540443162]
同様の性能を実現するモデルセットに対して,予測公正性を特徴付けるフレームワークを開発する。
到達可能なグループレベルの予測格差の範囲を計算するためのトラクタブルアルゴリズムを提供します。
選択ラベル付きデータの実証的な課題に対処するために、我々のフレームワークを拡張します。
論文 参考訳(メタデータ) (2021-01-02T02:11:37Z) - Semi-supervised Medical Image Classification with Relation-driven
Self-ensembling Model [71.80319052891817]
医用画像分類のための関係駆動型半教師付きフレームワークを提案する。
これは、摂動下で与えられた入力の予測一貫性を促進することでラベルのないデータを利用する。
本手法は,シングルラベルおよびマルチラベル画像分類のシナリオにおいて,最先端の半教師付き学習手法よりも優れる。
論文 参考訳(メタデータ) (2020-05-15T06:57:54Z) - An Extensive Study on Cross-Dataset Bias and Evaluation Metrics
Interpretation for Machine Learning applied to Gastrointestinal Tract
Abnormality Classification [2.985964157078619]
GI領域における疾患の自動解析は、コンピュータ科学や医学関連雑誌でホットな話題となっている。
クロスデータセットによる評価指標と機械学習モデルの明確な理解は、この分野の研究を新たな品質レベルに導くために不可欠である。
16種類のGIトラクタ条件を分類できる5つの異なる機械学習モデルの包括的評価を行う。
論文 参考訳(メタデータ) (2020-05-08T08:59:31Z) - Predictive Modeling of ICU Healthcare-Associated Infections from
Imbalanced Data. Using Ensembles and a Clustering-Based Undersampling
Approach [55.41644538483948]
本研究は,集中治療室における危険因子の同定と医療関連感染症の予測に焦点をあてる。
感染発生率の低減に向けた意思決定を支援することを目的とする。
論文 参考訳(メタデータ) (2020-05-07T16:13:12Z) - Group Heterogeneity Assessment for Multilevel Models [68.95633278540274]
多くのデータセットは固有のマルチレベル構造を含む。
この構造を考慮に入れることは、そのようなデータ上で行われた統計分析の正確性と校正にとって重要である。
本稿では,データ内のグループ化変数のレベルの違いを効率的に評価するフレキシブルなフレームワークを提案する。
論文 参考訳(メタデータ) (2020-05-06T12:42:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。