論文の概要: The curious case of the test set AUROC
- arxiv url: http://arxiv.org/abs/2312.16188v1
- Date: Tue, 19 Dec 2023 17:40:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-15 13:05:15.563394
- Title: The curious case of the test set AUROC
- Title(参考訳): テストセットAUROCの興味深い事例
- Authors: Michael Roberts, Alon Hazan, S\"oren Dittmer, James H.F. Rudd, and
Carola-Bibiane Sch\"onlieb
- Abstract要約: テストROC曲線のみから得られるスコアを考えると、モデルがどのように機能するか、その一般化する能力について、より狭い洞察しか得られない、と我々は論じる。
- 参考スコア(独自算出の注目度): 0.5242869847419834
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Whilst the size and complexity of ML models have rapidly and significantly
increased over the past decade, the methods for assessing their performance
have not kept pace. In particular, among the many potential performance
metrics, the ML community stubbornly continues to use (a) the area under the
receiver operating characteristic curve (AUROC) for a validation and test
cohort (distinct from training data) or (b) the sensitivity and specificity for
the test data at an optimal threshold determined from the validation ROC.
However, we argue that considering scores derived from the test ROC curve alone
gives only a narrow insight into how a model performs and its ability to
generalise.
- Abstract(参考訳): MLモデルのサイズと複雑さは過去10年間で急速に増加してきたが、パフォーマンスを評価する方法はペースを保っていない。
特に、多くの潜在的なパフォーマンス指標の中で、MLコミュニティは頑固に使い続けている。
a) 検証及び試験コホート(訓練データとは別)のための受信機動作特性曲線(AUROC)の下の領域
b)検証ROCから決定された最適しきい値における試験データの感度及び特異性。
しかし、テストROC曲線から得られるスコアを考慮すれば、モデルがどのように機能するか、その一般化能力についてのみ、狭い洞察が得られると論じる。
関連論文リスト
- Investigating the Impact of Hard Samples on Accuracy Reveals In-class Data Imbalance [4.291589126905706]
AutoMLドメインでは、モデルの有効性を評価するための重要な指標として、テスト精度が宣言される。
しかし、主性能指標としての試験精度の信頼性は疑問視されている。
トレーニングセットとテストセット間のハードサンプルの分布は、これらのセットの難易度に影響を与える。
本稿では,ハードサンプル識別法を比較するためのベンチマーク手法を提案する。
論文 参考訳(メタデータ) (2024-09-22T11:38:14Z) - Multi-stream deep learning framework to predict mild cognitive impairment with Rey Complex Figure Test [10.324611550865926]
2つの異なる処理ストリームを統合するマルチストリームディープラーニングフレームワークを開発した。
提案したマルチストリームモデルは,外部検証においてベースラインモデルよりも優れた性能を示した。
本モデルは,早期スクリーニングのための費用対効果のあるツールとして機能する,臨床現場における実用的意味を持つ。
論文 参考訳(メタデータ) (2024-09-04T17:08:04Z) - Investigating the Robustness of Counterfactual Learning to Rank Models: A Reproducibility Study [61.64685376882383]
ランク付け学習(CLTR: Counterfactual Learning to rank)は、IRコミュニティにおいて、ログ化された大量のユーザインタラクションデータを活用してランキングモデルをトレーニングする能力において、大きな注目を集めている。
本稿では,複雑かつ多様な状況における既存のCLTRモデルのロバスト性について検討する。
その結果, DLAモデルとIPS-DCMは, PS-PBMやPSSよりも, オフラインの確率推定による堅牢性が高いことがわかった。
論文 参考訳(メタデータ) (2024-04-04T10:54:38Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z) - Low-Cost High-Power Membership Inference Attacks [15.240271537329534]
メンバーシップ推論攻撃は、特定のデータポイントがモデルのトレーニングに使用されたかどうかを検出することを目的としている。
我々は,計算オーバーヘッドの少ない,堅牢なメンバシップ推論攻撃を行うための新しい統計的試験を設計する。
RMIAは、機械学習における実用的かつ正確なデータプライバシーリスク評価の基礎を成している。
論文 参考訳(メタデータ) (2023-12-06T03:18:49Z) - From Static Benchmarks to Adaptive Testing: Psychometrics in AI Evaluation [60.14902811624433]
本稿では,静的評価手法から適応テストへのパラダイムシフトについて論じる。
これには、ベンチマークで各テスト項目の特性と価値を推定し、リアルタイムでアイテムを動的に調整することが含まれる。
我々は、AI評価にサイコメトリックを採用する現在のアプローチ、アドバンテージ、そして根底にある理由を分析します。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - Quality In / Quality Out: Data quality more relevant than model choice in anomaly detection with the UGR'16 [0.29998889086656577]
ベンチマークデータセットの比較的小さな変更は、考慮された特定のML手法よりも、モデルパフォーマンスに著しく影響することを示します。
また、不正確なラベル付けの結果、測定されたモデル性能が不確かであることも示す。
論文 参考訳(メタデータ) (2023-05-31T12:03:12Z) - Preserving Knowledge Invariance: Rethinking Robustness Evaluation of Open Information Extraction [49.15931834209624]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。
我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。
さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文 参考訳(メタデータ) (2023-05-23T12:05:09Z) - A Targeted Accuracy Diagnostic for Variational Approximations [8.969208467611896]
変分推論(VI)はマルコフ・チェイン・モンテカルロ(MCMC)の魅力的な代替品である
既存の方法は、全変分分布の品質を特徴付ける。
配電近似精度(TADDAA)のためのTArgeted診断法を提案する。
論文 参考訳(メタデータ) (2023-02-24T02:50:18Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Scalable Marginal Likelihood Estimation for Model Selection in Deep
Learning [78.83598532168256]
階層型モデル選択は、推定困難のため、ディープラーニングではほとんど使われない。
本研究は,検証データが利用できない場合,限界的可能性によって一般化が向上し,有用であることを示す。
論文 参考訳(メタデータ) (2021-04-11T09:50:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。