論文の概要: The curious case of the test set AUROC
- arxiv url: http://arxiv.org/abs/2312.16188v1
- Date: Tue, 19 Dec 2023 17:40:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-15 13:05:15.563394
- Title: The curious case of the test set AUROC
- Title(参考訳): テストセットAUROCの興味深い事例
- Authors: Michael Roberts, Alon Hazan, S\"oren Dittmer, James H.F. Rudd, and
Carola-Bibiane Sch\"onlieb
- Abstract要約: テストROC曲線のみから得られるスコアを考えると、モデルがどのように機能するか、その一般化する能力について、より狭い洞察しか得られない、と我々は論じる。
- 参考スコア(独自算出の注目度): 0.5242869847419834
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Whilst the size and complexity of ML models have rapidly and significantly
increased over the past decade, the methods for assessing their performance
have not kept pace. In particular, among the many potential performance
metrics, the ML community stubbornly continues to use (a) the area under the
receiver operating characteristic curve (AUROC) for a validation and test
cohort (distinct from training data) or (b) the sensitivity and specificity for
the test data at an optimal threshold determined from the validation ROC.
However, we argue that considering scores derived from the test ROC curve alone
gives only a narrow insight into how a model performs and its ability to
generalise.
- Abstract(参考訳): MLモデルのサイズと複雑さは過去10年間で急速に増加してきたが、パフォーマンスを評価する方法はペースを保っていない。
特に、多くの潜在的なパフォーマンス指標の中で、MLコミュニティは頑固に使い続けている。
a) 検証及び試験コホート(訓練データとは別)のための受信機動作特性曲線(AUROC)の下の領域
b)検証ROCから決定された最適しきい値における試験データの感度及び特異性。
しかし、テストROC曲線から得られるスコアを考慮すれば、モデルがどのように機能するか、その一般化能力についてのみ、狭い洞察が得られると論じる。
関連論文リスト
- Is K-fold cross validation the best model selection method for Machine
Learning? [0.0]
K-foldクロスバリデーション(K-fold cross-validation)は、機械学習の結果が偶然に生成される可能性を確認する最も一般的なアプローチである。
K-fold CVと実際の誤差(K-fold CUBV)のアッパーバウンドに基づく新規な試験が構成される。
論文 参考訳(メタデータ) (2024-01-29T18:46:53Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z) - Conservative Prediction via Data-Driven Confidence Minimization [66.35245313125934]
機械学習モデルのエラーは、特に医療のような安全クリティカルな領域では、コストがかかる。
本稿では、不確実性データセットに対する信頼性を最小化するデータ駆動型信頼性最小化(DCM)を提案する。
実験の結果、DCMは8つのID-OODデータセットペアに対して、最先端のOOD検出方法よりも一貫して優れていることがわかった。
論文 参考訳(メタデータ) (2023-06-08T07:05:36Z) - Preserving Knowledge Invariance: Rethinking Robustness Evaluation of
Open Information Extraction [50.62245481416744]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。
我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。
さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文 参考訳(メタデータ) (2023-05-23T12:05:09Z) - GREAT Score: Global Robustness Evaluation of Adversarial Perturbation
using Generative Models [74.43215520371506]
GREATスコア(GREAT Score)と呼ばれる新しいフレームワークを提案する。
我々は,ロバストベンチにおける攻撃ベースモデルと比較し,高い相関性を示し,GREATスコアのコストを大幅に削減した。
GREAT Scoreは、プライバシーに敏感なブラックボックスモデルのリモート監査に使用することができる。
論文 参考訳(メタデータ) (2023-04-19T14:58:27Z) - A Targeted Accuracy Diagnostic for Variational Approximations [8.969208467611896]
変分推論(VI)はマルコフ・チェイン・モンテカルロ(MCMC)の魅力的な代替品である
既存の方法は、全変分分布の品質を特徴付ける。
配電近似精度(TADDAA)のためのTArgeted診断法を提案する。
論文 参考訳(メタデータ) (2023-02-24T02:50:18Z) - Learning brain MRI quality control: a multi-factorial generalization
problem [0.0]
本研究の目的は,MRIQCパイプラインの性能評価である。
分析はMRIQCの前処理ステップに焦点を合わせ、パイプラインをそれなしでテストした。
我々は、CATIデータセットのような異種集団のデータで訓練されたモデルが、目に見えないデータの最良のスコアを提供すると結論付けた。
論文 参考訳(メタデータ) (2022-05-31T15:46:44Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Scalable Marginal Likelihood Estimation for Model Selection in Deep
Learning [78.83598532168256]
階層型モデル選択は、推定困難のため、ディープラーニングではほとんど使われない。
本研究は,検証データが利用できない場合,限界的可能性によって一般化が向上し,有用であることを示す。
論文 参考訳(メタデータ) (2021-04-11T09:50:24Z) - Model Rectification via Unknown Unknowns Extraction from Deployment
Samples [8.0497115494227]
本稿では, 訓練後のモデル修正を, 教師付き方式で実施することを目的とした, 汎用的なアルゴリズムフレームワークを提案する。
RTSCVは未知の未知(u.u.s)を抽出する
RTSCVは最先端のアプローチよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2021-02-08T11:46:19Z) - Estimating the Prediction Performance of Spatial Models via Spatial
k-Fold Cross Validation [1.7205106391379026]
機械学習では、モデルの性能を評価するときにデータが独立していると仮定することが多い。
空間自己相関(spatial autocorrelation, SAC)は、標準クロスバリデーション(CV)法により、楽観的に偏りのある予測性能推定を生成する。
本研究では,SACによる楽観的バイアスを伴わないモデル予測性能を評価するため,空間k-fold Cross Validation (SKCV) と呼ばれるCV法の改良版を提案する。
論文 参考訳(メタデータ) (2020-05-28T19:55:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。