論文の概要: Machine Learning Evaluation Metric Discrepancies across Programming Languages and Their Components: Need for Standardization
- arxiv url: http://arxiv.org/abs/2411.12032v1
- Date: Mon, 18 Nov 2024 20:07:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-20 13:38:16.524242
- Title: Machine Learning Evaluation Metric Discrepancies across Programming Languages and Their Components: Need for Standardization
- Title(参考訳): プログラミング言語とそのコンポーネント間の機械学習評価の相違点:標準化の必要性
- Authors: Mohammad R. Salmanpour, Morteza Alizadeh, Ghazal Mousavi, Saba Sadeghi, Sajad Amiri, Mehrdad Oveisi, Arman Rahmim, Ilker Hacihaliloglu,
- Abstract要約: 本研究では,分類,回帰,クラスタリング,相関解析,統計的テスト,セグメンテーション,イメージ・ツー・イメージ(I2I)翻訳などのタスクのメトリクスを評価する。
メトリクスはPythonライブラリ、Rパッケージ、Matlab関数で比較され、一貫性を評価し、相違点を強調した。
- 参考スコア(独自算出の注目度): 2.4125217894669184
- License:
- Abstract: This study evaluates metrics for tasks such as classification, regression, clustering, correlation analysis, statistical tests, segmentation, and image-to-image (I2I) translation. Metrics were compared across Python libraries, R packages, and Matlab functions to assess their consistency and highlight discrepancies. The findings underscore the need for a unified roadmap to standardize metrics, ensuring reliable and reproducible ML evaluations across platforms. This study examined a wide range of evaluation metrics across various tasks and found only some to be consistent across platforms, such as (i) Accuracy, Balanced Accuracy, Cohens Kappa, F-beta Score, MCC, Geometric Mean, AUC, and Log Loss in binary classification; (ii) Accuracy, Cohens Kappa, and F-beta Score in multi-class classification; (iii) MAE, MSE, RMSE, MAPE, Explained Variance, Median AE, MSLE, and Huber in regression; (iv) Davies-Bouldin Index and Calinski-Harabasz Index in clustering; (v) Pearson, Spearman, Kendall's Tau, Mutual Information, Distance Correlation, Percbend, Shepherd, and Partial Correlation in correlation analysis; (vi) Paired t-test, Chi-Square Test, ANOVA, Kruskal-Wallis Test, Shapiro-Wilk Test, Welchs t-test, and Bartlett's test in statistical tests; (vii) Accuracy, Precision, and Recall in 2D segmentation; (viii) Accuracy in 3D segmentation; (ix) MAE, MSE, RMSE, and R-Squared in 2D-I2I translation; and (x) MAE, MSE, and RMSE in 3D-I2I translation. Given observation of discrepancies in a number of metrics (e.g. precision, recall and F1 score in binary classification, WCSS in clustering, multiple statistical tests, and IoU in segmentation, amongst multiple metrics), this study concludes that ML evaluation metrics require standardization and recommends that future research use consistent metrics for different tasks to effectively compare ML techniques and solutions.
- Abstract(参考訳): 本研究では,分類,回帰,クラスタリング,相関解析,統計的テスト,セグメンテーション,イメージ・ツー・イメージ(I2I)翻訳などのタスクのメトリクスを評価する。
メトリクスはPythonライブラリ、Rパッケージ、Matlab関数で比較され、一貫性を評価し、相違点を強調した。
この調査結果は、メトリクスを標準化するための統一されたロードマップの必要性を強調し、プラットフォーム間の信頼性と再現可能なML評価を保証する。
本研究は,様々なタスクを対象とした幅広い評価指標について検討し,プラットフォーム間で整合性のあるもの,例えばプラットフォーム間で整合性のあるもののみを見出した。
(i)二分分類における精度、バランス精度、Cohens Kappa、F-beta Score、MCC、Geometric Mean、AUC及びログ損失
(二)マルチクラス分類における精度、Cohens Kappa及びF-betaスコア
三 回帰において、MAE、MSE、RMSE、MAPE、説明変数、メディアAE、MSLE及びハマー
(4)クラスタリングにおけるDavies-Bouldin IndexとCalinski-Harabasz Index
五 ピアソン、スピアマン、ケンドールのタウ、相互情報、距離相関、パークベンド、シェパード、部分相関
(vi)Paired t-test, Chi-Square Test, ANOVA, Kruskal-Wallis Test, Shapiro-Wilk Test, Welchs t-test, Bartlett's test in statistics test
(二)2次元分割における精度、精度及びリコール
(viii) 3Dセグメンテーションの精度
(ix)2D-I2I翻訳におけるMAE、MSE、RMSE、R-Squared
(x)3D-I2I翻訳におけるMAE,MSE,RMSE
複数のメトリクス(例えば、バイナリ分類における精度、リコール、F1スコア、クラスタリングにおけるWCSS、複数の統計テスト、セグメンテーションにおけるIoU)における相違点の観測から、ML評価メトリクスは標準化を必要とし、将来の研究では、さまざまなタスクに一貫したメトリクスを使用して、ML技術とソリューションを効果的に比較することを推奨している。
関連論文リスト
- Multiclass ROC [6.941573057921458]
ペアワイズ・マルチクラス・True Positive Rate(TPR)とFalse Positive Rate(FPR)を要約した評価指標を提供する。
これらの分解ベクターに対する統合は、パフォーマンスに関する2値のAUC等価サマリを提供する。
提案手法をベンチマークデータセット上でのペア平均AUC統計値と比較した。
論文 参考訳(メタデータ) (2024-04-19T19:25:10Z) - We Need to Talk About Classification Evaluation Metrics in NLP [34.73017509294468]
自然言語処理(NLP)モデルでは、一般化可能性は通常、精度、F-Measure、AUC-ROCといった標準メトリクスで測定される。
メトリクスの多様性とそれらのアプリケーションの任意性は、使用すべき最高のメトリックに対して、NLP内に合意がないことを示唆している。
ランダムガウス正規化Informednessメトリックがタスク性能の相似ベースラインであることを実証する。
論文 参考訳(メタデータ) (2024-01-08T11:40:48Z) - Revisiting Evaluation Metrics for Semantic Segmentation: Optimization
and Evaluation of Fine-grained Intersection over Union [113.20223082664681]
そこで本研究では,mIoUsの微細化と,それに対応する最悪の指標を提案する。
これらのきめ細かいメトリクスは、大きなオブジェクトに対するバイアスの低減、よりリッチな統計情報、モデルとデータセット監査に関する貴重な洞察を提供する。
ベンチマークでは,1つの測定値に基づかないことの必要性を強調し,微細なmIoUsが大きな物体への偏りを減少させることを確認した。
論文 参考訳(メタデータ) (2023-10-30T03:45:15Z) - Revisiting Long-tailed Image Classification: Survey and Benchmarks with
New Evaluation Metrics [88.39382177059747]
メトリクスのコーパスは、長い尾の分布で学習するアルゴリズムの正確性、堅牢性、およびバウンダリを測定するために設計されている。
ベンチマークに基づいて,CIFAR10およびCIFAR100データセット上での既存手法の性能を再評価する。
論文 参考訳(メタデータ) (2023-02-03T02:40:54Z) - Learning to predict test effectiveness [1.4213973379473652]
この記事では、テストがクラスをカバーできる範囲を、Coverageabilityと呼ばれる新しいメトリクスで予測する機械学習モデルを提供する。
各クラスで自動生成されるテストスイートのサイズとカバレッジの観点から,テストの有効性を評価する数学的モデルを提供する。
論文 参考訳(メタデータ) (2022-08-20T07:26:59Z) - A New Evaluation Method: Evaluation Data and Metrics for Chinese Grammar
Error Correction [4.60495447017298]
同じ誤り訂正モデルの評価値は、異なる単語分割システムや異なる言語モデルの下で大きく変化する可能性がある。
本稿では,CGECの基準ベースと基準レスの2次元における3つの新しい評価指標を提案する。
論文 参考訳(メタデータ) (2022-04-30T09:40:04Z) - MuCGEC: a Multi-Reference Multi-Source Evaluation Dataset for Chinese
Grammatical Error Correction [51.3754092853434]
MuCGECは中国語文法誤り訂正(CGEC)のためのマルチ参照評価データセットである
3つの中国語-as-a-Second-Language(CSL)学習資料から収集された7,063文からなる。
各文は3つのアノテータによって修正され、その修正は専門家によって慎重にレビューされ、1文あたりの参照数は2.3である。
論文 参考訳(メタデータ) (2022-04-23T05:20:38Z) - A Statistical Analysis of Summarization Evaluation Metrics using
Resampling Methods [60.04142561088524]
信頼区間は比較的広く,信頼性の高い自動測定値の信頼性に高い不確実性を示す。
多くのメトリクスはROUGEよりも統計的改善を示していないが、QAEvalとBERTScoreという2つの最近の研究は、いくつかの評価設定で行われている。
論文 参考訳(メタデータ) (2021-03-31T18:28:14Z) - GO FIGURE: A Meta Evaluation of Factuality in Summarization [131.1087461486504]
本稿では,現実性評価指標を評価するメタ評価フレームワークGO FIGUREを紹介する。
10個の実測値のベンチマーク分析により、我々のフレームワークが堅牢で効率的な評価を提供することが明らかとなった。
また、QAメトリクスは、ドメイン間の事実性を測定する標準的なメトリクスよりも一般的に改善されているが、パフォーマンスは、質問を生成する方法に大きく依存していることも明らかにしている。
論文 参考訳(メタデータ) (2020-10-24T08:30:20Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。