論文の概要: Area under the ROC Curve has the Most Consistent Evaluation for Binary Classification
- arxiv url: http://arxiv.org/abs/2408.10193v2
- Date: Sun, 17 Nov 2024 20:33:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:30:57.767451
- Title: Area under the ROC Curve has the Most Consistent Evaluation for Binary Classification
- Title(参考訳): ROC曲線下の領域は、二項分類における最も一貫性のある評価を有する
- Authors: Jing Li,
- Abstract要約: 本研究は, 有病率の異なるデータ間でのモデル評価において, 測定値の整合性について検討する。
有病率の影響を受けない評価指標は、個々のモデルの一貫性のある評価と、モデルの集合の一貫性のあるランキングを提供する。
- 参考スコア(独自算出の注目度): 3.1850615666574806
- License:
- Abstract: The proper use of model evaluation metrics is important for model evaluation and model selection in binary classification tasks. This study investigates how consistent different metrics are at evaluating models across data of different prevalence while the relationships between different variables and the sample size are kept constant. Analyzing 156 data scenarios, 18 model evaluation metrics and five commonly used machine learning models as well as a naive random guess model, I find that evaluation metrics that are less influenced by prevalence offer more consistent evaluation of individual models and more consistent ranking of a set of models. In particular, Area Under the ROC Curve (AUC) which takes all decision thresholds into account when evaluating models has the smallest variance in evaluating individual models and smallest variance in ranking of a set of models. A close threshold analysis using all possible thresholds for all metrics further supports the hypothesis that considering all decision thresholds helps reduce the variance in model evaluation with respect to prevalence change in data. The results have significant implications for model evaluation and model selection in binary classification tasks.
- Abstract(参考訳): モデル評価指標の適切な利用は、2進分類タスクにおけるモデル評価とモデル選択に重要である。
本研究では、異なる変数とサンプルサイズの関係を一定に保ちながら、異なる有病率のデータ間でモデルを評価する上で、異なる指標がいかに一貫したものであるかを検討する。
156データシナリオ,18モデル評価メトリクス,および5つの一般的な機械学習モデル,および単純無作為なランダムな推測モデルを分析してみると,有病率の影響を受けない評価指標は,個々のモデルのより一貫性のある評価と,モデルの一貫性のあるランキングを提供する。
特に、モデルを評価する際にすべての決定しきい値を考慮に入れたROC曲線(AUC)では、個々のモデルの評価において最小のばらつきがあり、モデルのランキングにおいて最小のばらつきがある。
すべてのメトリクスに対する全ての可能なしきい値を用いた近接しきい値解析は、すべての決定しきい値を考慮することで、データの頻度変化に対するモデル評価のばらつきを減らすことができるという仮説をさらに支持する。
その結果、2進分類タスクにおけるモデル評価とモデル選択に大きな影響を及ぼす。
関連論文リスト
- Anchor Points: Benchmarking Models with Much Fewer Examples [88.02417913161356]
6つの人気のある言語分類ベンチマークでは、多数の点の正しいクラスに対するモデル信頼度はモデル間で強く相関している。
Anchor Point Selectionは,データセット全体にわたるモデル動作をキャプチャする,データセットの小さなサブセットを選択する手法である。
平均絶対誤差が低いデータセットの他のすべての点について、クラスごとの予測モデルを推定するために、いくつかのアンカーポイントを使用することができる。
論文 参考訳(メタデータ) (2023-09-14T17:45:51Z) - Comparing Foundation Models using Data Kernels [13.099029073152257]
基礎モデルの埋め込み空間幾何学を直接比較するための方法論を提案する。
提案手法はランダムグラフ理論に基づいており, 埋め込み類似性の有効な仮説検証を可能にする。
本稿では, 距離関数を付加したモデルの多様体が, 下流の指標と強く相関することを示す。
論文 参考訳(メタデータ) (2023-05-09T02:01:07Z) - IMACS: Image Model Attribution Comparison Summaries [16.80986701058596]
我々は,勾配に基づくモデル属性とアグリゲーションと可視化技術を組み合わせたIMACSを提案する。
IMACSは評価データセットから適切な入力特徴を抽出し、類似性に基づいてクラスタ化し、類似した入力特徴に対するモデル属性の違いを可視化する。
本稿では,衛星画像上で訓練した2つのモデル間の領域シフトによる行動差を明らかにする方法を示す。
論文 参考訳(メタデータ) (2022-01-26T21:35:14Z) - A Unified Statistical Learning Model for Rankings and Scores with
Application to Grant Panel Review [1.240096657086732]
ランク付けとスコアは、審査員がオブジェクトのコレクションにおける好みや品質の知覚を表現するために使用する2つの一般的なデータタイプである。
各タイプのデータを個別に研究するためのモデルが多数存在するが、両タイプのデータを同時に取得する統一統計モデルは存在しない。
このギャップを埋めるために,Mallows-Binomialモデルを提案し,BinomialスコアモデルとMallowsの$phi$ランキングモデルを組み合わせた。
論文 参考訳(メタデータ) (2022-01-07T16:56:52Z) - Deep Learning Models for Knowledge Tracing: Review and Empirical
Evaluation [2.423547527175807]
我々は,オープンで広く利用されているデータセットを用いた深層学習知識追跡(DLKT)モデルをレビューし,評価する。
評価されたDLKTモデルは、以前報告した結果の再現性と評価のために再実装されている。
論文 参考訳(メタデータ) (2021-12-30T14:19:27Z) - Selecting the suitable resampling strategy for imbalanced data
classification regarding dataset properties [62.997667081978825]
医学、情報検索、サイバーセキュリティ、ソーシャルメディアなどの多くのアプリケーションドメインでは、分類モデルの導入に使用されるデータセットは、各クラスのインスタンスの不平等な分布を持つことが多い。
この状況は不均衡データ分類と呼ばれ、少数民族の例では予測性能が低い。
オーバーサンプリングとアンダーサンプリングの技術は、各クラスの例の数とバランスをとることでこの問題に対処する、よく知られた戦略である。
論文 参考訳(メタデータ) (2021-12-15T18:56:39Z) - Model-based metrics: Sample-efficient estimates of predictive model
subpopulation performance [11.994417027132807]
健康状態の表示、診断、予測のために現在一般的に開発されている機械学習モデル$-$は、様々なパフォーマンス指標で評価される。
サブ集団のパフォーマンスメトリクスは、通常、そのサブグループのデータのみを使用して計算されるため、より小さなグループに対する分散推定が高くなる。
本稿では,予測モデルスコアの条件分布を記述した評価モデル$-$を用いて,モデルベース計量(MBM)の推定値を生成する。
論文 参考訳(メタデータ) (2021-04-25T19:06:34Z) - How Faithful is your Synthetic Data? Sample-level Metrics for Evaluating
and Auditing Generative Models [95.8037674226622]
ドメインに依存しない方法で生成モデルの忠実度,多様性,一般化性能を特徴付ける3次元評価指標を提案する。
当社のメトリクスは、精度リコール分析により統計的発散測定を統合し、モデル忠実度と多様性のサンプルおよび分布レベルの診断を可能にします。
論文 参考訳(メタデータ) (2021-02-17T18:25:30Z) - Characterizing Fairness Over the Set of Good Models Under Selective
Labels [69.64662540443162]
同様の性能を実現するモデルセットに対して,予測公正性を特徴付けるフレームワークを開発する。
到達可能なグループレベルの予測格差の範囲を計算するためのトラクタブルアルゴリズムを提供します。
選択ラベル付きデータの実証的な課題に対処するために、我々のフレームワークを拡張します。
論文 参考訳(メタデータ) (2021-01-02T02:11:37Z) - Robust Finite Mixture Regression for Heterogeneous Targets [70.19798470463378]
本稿では,サンプルクラスタの探索と,複数の不完全な混合型ターゲットを同時にモデル化するFMRモデルを提案する。
我々は、高次元の学習フレームワークの下で、無症状のオラクルのパフォーマンス境界をモデルに提供します。
その結果,我々のモデルは最先端の性能を達成できることがわかった。
論文 参考訳(メタデータ) (2020-10-12T03:27:07Z) - LOGAN: Local Group Bias Detection by Clustering [86.38331353310114]
コーパスレベルでバイアスを評価することは、モデルにバイアスがどのように埋め込まれているかを理解するのに十分ではない、と我々は主張する。
クラスタリングに基づく新しいバイアス検出手法であるLOGANを提案する。
毒性分類および対象分類タスクの実験は、LOGANが局所領域のバイアスを特定することを示している。
論文 参考訳(メタデータ) (2020-10-06T16:42:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。