論文の概要: Evaluating Software Defect Prediction Models via the Area Under the ROC Curve Can Be Misleading
- arxiv url: http://arxiv.org/abs/2604.20742v1
- Date: Wed, 22 Apr 2026 16:28:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-23 15:36:11.22989
- Title: Evaluating Software Defect Prediction Models via the Area Under the ROC Curve Can Be Misleading
- Title(参考訳): ROC曲線下の領域によるソフトウェア欠陥予測モデルの評価は誤解を招く可能性がある
- Authors: Luigi Lavazza, Gabriele Rotoloni, Sandro Morasca,
- Abstract要約: ROC曲線に基づくSDPモデル評価とAUCの信頼性について検討する。
一般的に用いられている評価基準が間違った結論につながる可能性があることを示す。
- 参考スコア(独自算出の注目度): 0.7279730418361998
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Background: Receiver Operating Characteristic (ROC) curves are widely used to evaluate the performance of Software Defect Prediction (SDP) models that estimate module fault-proneness, i.e., the probability that a module is faulty. A ROC curve maps a model's performance in terms of True Positive Rate and False Positive Rate for any possible threshold set on fault-proneness. The Area Under the ROC Curve (AUC) summarizes the performance of a model across all possible thresholds. Traditionally, ROC curves completely above the bisector of the ROC space are considered better than random, and high AUC values are associated with good performance. Aim: We investigate whether these beliefs are correct, hence if SDP model evaluation based on ROC curves and AUC is reliable. Method: We decorate ROC curves by highlighting the points corresponding to threshold values. We also represent True Positive Rate and False Positive Rate as functions of the threshold. Thus, we can evaluate whether a model classifies both faulty and non-faulty modules better than the random model. Results: We show that commonly used evaluation criteria may lead to wrong conclusions. Conclusions: A high value of AUC does not guarantee that both the True Positive Rate and the False Positive Rate of a model are better than the random model's for all possible thresholds. Either decorated ROC curves or alternative representations are needed to appreciate all the relevant aspects of SDP models.
- Abstract(参考訳): 背景: 受信者動作特性 (ROC) 曲線は, モジュール故障率を推定するソフトウェア欠陥予測 (SDP) モデルの性能を評価するために広く用いられている。
ROC曲線は、故障確率に設定された任意のしきい値に対して、正の正の値と偽の正の値でモデルの性能をマッピングする。
ROC曲線下の領域(AUC)は、あらゆる可能なしきい値にわたってモデルのパフォーマンスを要約している。
伝統的に ROC 曲線は ROC 空間のバイセクタよりも完全に上であり、高い AUC 値が良い性能に結びついていると考えられる。
Aim: これらの信念が正しいかを検討するため, ROC曲線とAUCに基づくSDPモデル評価が信頼性が高いかを検討した。
方法: しきい値に対応する点をハイライトすることにより, ROC曲線をデコレートする。
また、正の正の値と偽の正の値も閾値の関数として表しています。
したがって、モデルがランダムモデルよりも欠陥モジュールと非デフォルトモジュールの両方を分類するかどうかを評価することができる。
結果: 一般的に用いられている評価基準が, 誤った結論を導出する可能性が示唆された。
結論: AUCの高値は、モデルにおける正の正の値と偽の正の値の両方が、可能なすべてのしきい値に対してランダムモデルよりも優れていることを保証しません。
装飾されたROC曲線または代替表現は、SDPモデルのすべての関連する側面を理解するために必要である。
関連論文リスト
- Learning Ordinal Probabilistic Reward from Preferences [25.069054134899744]
確率的リワードモデル(PRM: Probabilistic Reward Model)を提案する。
提案手法では,報酬を決定論的スカラーとしてモデル化する代わりに,ランダム変数として扱い,各応答の品質の完全な確率分布を学習する。
OPRM上に構築したRerea Flooding Tuning(RgFT)と呼ばれるデータ効率のトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2026-02-13T06:43:02Z) - Model Correlation Detection via Random Selection Probing [62.093777777813756]
既存の類似性に基づく手法では、モデルパラメータにアクセスしたり、しきい値なしでスコアを生成する必要がある。
本稿では,モデル相関検出を統計的テストとして定式化する仮説テストフレームワークであるランダム選択探索(RSP)を紹介する。
RSPは相関の証拠を定量化する厳密なp-値を生成する。
論文 参考訳(メタデータ) (2025-09-29T01:40:26Z) - The Lie of the Average: How Class Incremental Learning Evaluation Deceives You? [48.83567710215299]
クラスインクリメンタルラーニング(CIL)では、モデルが学習済みのクラスを忘れずに、新しいクラスを継続的に学習する必要がある。
我々は、ロバストなCIL評価プロトコルは、性能分布全体を正確に特徴付け、推定するべきであると論じる。
我々は,タスク間類似度を用いて,極端なクラスシーケンスを適応的に識別し,サンプリングする評価プロトコルEDGEを提案する。
論文 参考訳(メタデータ) (2025-09-26T17:00:15Z) - ROC-n-reroll: How verifier imperfection affects test-time scaling [23.16719763215363]
テストタイムスケーリングは、推論中に追加の計算を活用することで、言語モデルのパフォーマンスを向上させることを目的としている。
BoNとRSは、テストタイムのスケーリングを可能にする検証器を使用するテクニックである。
これらの手法のインスタンスレベルの精度は, 検証器のROC曲線の幾何学的に特徴付けられる。
論文 参考訳(メタデータ) (2025-07-16T16:44:29Z) - A Probabilistic Perspective on Unlearning and Alignment for Large Language Models [48.96686419141881]
大規模言語モデル(LLM)のための最初の形式的確率的評価フレームワークを紹介する。
すなわち,モデルの出力分布に関する確率保証の高い新しい指標を提案する。
私たちのメトリクスはアプリケーションに依存しないので、デプロイ前にモデル機能についてより信頼性の高い見積を行うことができます。
論文 参考訳(メタデータ) (2024-10-04T15:44:23Z) - High Precision Causal Model Evaluation with Conditional Randomization [10.23470075454725]
因果誤差を推定するための新しい低分散推定器(ペア推定器)を提案する。
モデルと真の実験効果の両方に同じIPW推定器を適用することにより、IPWによる分散を効果的にキャンセルし、より小さな分散を実現する。
提案手法は,IPW推定器自体の複雑な変更を伴わずに,条件付きランダム化設定における因果推論モデルを評価するための,単純かつ強力な解を提供する。
論文 参考訳(メタデータ) (2023-11-03T13:22:27Z) - Empirical Optimal Risk to Quantify Model Trustworthiness for Failure
Detection [1.192436948211501]
AIシステムにおける障害検出は、安全クリティカルなタスクのデプロイにおける重要な安全保護である。
リスクカバレッジ曲線(RC)は、データカバレッジ率と受け入れられたデータのパフォーマンスの間のトレードオフを明らかにする。
本稿では,最適RC曲線(E-AUoptRC)に基づくエクササイズ領域を提案する。
論文 参考訳(メタデータ) (2023-08-06T18:11:42Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Hierarchical Gaussian Process Models for Regression Discontinuity/Kink
under Sharp and Fuzzy Designs [0.0]
回帰不連続/リンク(RD/RK)を用いた因果推論のための非パラメトリックベイズ推定器を提案する。
これらの推定器は、中間ベイズニューラルネットワーク層を持つ階層型GPモデルに拡張される。
モンテカルロシミュレーションにより、我々の推定器は、精度、カバレッジ、間隔長の点で競合する推定器よりもよく、しばしばよく機能することを示した。
論文 参考訳(メタデータ) (2021-10-03T04:23:56Z) - Evaluating State-of-the-Art Classification Models Against Bayes
Optimality [106.50867011164584]
正規化フローを用いて学習した生成モデルのベイズ誤差を正確に計算できることを示す。
われわれの手法を用いて、最先端の分類モデルについて徹底的な調査を行う。
論文 参考訳(メタデータ) (2021-06-07T06:21:20Z) - Evaluating probabilistic classifiers: Reliability diagrams and score
decompositions revisited [68.8204255655161]
確率的に統計的に一貫性があり、最適に結合し、再現可能な信頼性図を自動生成するCORP手法を導入する。
コーパスは非パラメトリックアイソトニック回帰に基づいており、プール・アジャセント・ヴァイオレータ(PAV)アルゴリズムによって実装されている。
論文 参考訳(メタデータ) (2020-08-07T08:22:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。