論文の概要: The impact of using biased performance metrics on software defect
prediction research
- arxiv url: http://arxiv.org/abs/2103.10201v1
- Date: Thu, 18 Mar 2021 12:09:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-19 13:52:22.407104
- Title: The impact of using biased performance metrics on software defect
prediction research
- Title(参考訳): ソフトウェア欠陥予測研究におけるバイアス付き性能指標の使用の影響
- Authors: Jingxiu Yao and Martin Shepperd
- Abstract要約: F1 と非偏差 Matthews 相関係数 (MCC) を用いて, 関連する実験を見つけ出し, 欠陥予測性能の全ての一対比較を抽出した。
残念ながら、F1がソフトウェア欠陥予測研究で広く使われていることを示す証拠も見つかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Context: Software engineering researchers have undertaken many experiments
investigating the potential of software defect prediction algorithms.
Unfortunately, some widely used performance metrics are known to be
problematic, most notably F1, but nevertheless F1 is widely used.
Objective: To investigate the potential impact of using F1 on the validity of
this large body of research.
Method: We undertook a systematic review to locate relevant experiments and
then extract all pairwise comparisons of defect prediction performance using F1
and the un-biased Matthews correlation coefficient (MCC).
Results: We found a total of 38 primary studies. These contain 12,471 pairs
of results. Of these, 21.95% changed direction when the MCC metric is used
instead of the biased F1 metric. Unfortunately, we also found evidence
suggesting that F1 remains widely used in software defect prediction research.
Conclusions: We reiterate the concerns of statisticians that the F1 is a
problematic metric outside of an information retrieval context, since we are
concerned about both classes (defect-prone and not defect-prone units). This
inappropriate usage has led to a substantial number (more than one fifth) of
erroneous (in terms of direction) results. Therefore we urge researchers to (i)
use an unbiased metric and (ii) publish detailed results including confusion
matrices such that alternative analyses become possible.
- Abstract(参考訳): コンテキスト: ソフトウェア工学研究者は、ソフトウェア欠陥予測アルゴリズムの可能性について多くの実験を行った。
残念ながら、いくつかの広く使用されているパフォーマンス指標は問題であることが知られており、特にF1は広く使われている。
目的: この大規模研究の妥当性に対するf1の使用の潜在的影響を検討すること。
方法: 本研究は,F1と非バイアスマシューズ相関係数(MCC)を用いて, 関連実験の探索を行い, 欠陥予測性能の相互比較を行った。
結果: 初等的研究は38件であった。
12,471対の結果を含む。
これらのうち、MCCメートル法が偏りのあるF1メートル法の代わりに使われる場合、21.95%の方向が変化した。
残念ながら、F1がソフトウェア欠陥予測研究で広く使われていることを示す証拠も見つかった。
結論:我々は,f1 が情報検索コンテキスト以外で問題となる指標であるという統計学者の懸念を繰り返す。
この不適切な使用は、誤った(方向の)結果のかなりの数(5分の1以上)を導いた。
したがって、研究者は(i)偏りのない計量を使い、(ii)代替分析が可能となるような混乱行列を含む詳細な結果を公表するよう促す。
関連論文リスト
- TESSERACT: Eliminating Experimental Bias in Malware Classification
across Space and Time (Extended Version) [18.146377453918724]
マルウェア検知器は、常に進化するオペレーティングシステムや攻撃方法によって、しばしば性能劣化を経験する。
本論文は, 検出作業における2つの実験バイアス源により, 一般的に報告される結果が膨らんでいることを論じる。
論文 参考訳(メタデータ) (2024-02-02T12:27:32Z) - Are fairness metric scores enough to assess discrimination biases in
machine learning? [4.073786857780967]
我々は,Biosデータセットに焦点をあて,学習課題は,その伝記に基づいて個人の職業を予測することである。
我々は、グループワイドフェアネスメトリクスを扱う理論的議論の重要な制限に対処する。
そして、トレーニングセットのサイズが、合理的に正確な予測を学習するのに十分な場合、どの程度の信頼性が一般的なバイアスの尺度に異なるのかを問う。
論文 参考訳(メタデータ) (2023-06-08T15:56:57Z) - Whole Page Unbiased Learning to Rank [59.52040055543542]
アンバイアスド・ラーニング・トゥ・ランク(ULTR)アルゴリズムは、バイアスド・クリックデータを用いたアンバイアスド・ランキングモデルを学ぶために提案される。
本稿では,BALというアルゴリズムをランク付けするバイアス非依存学習を提案する。
実世界のデータセットによる実験結果から,BALの有効性が検証された。
論文 参考訳(メタデータ) (2022-10-19T16:53:08Z) - New Metric Formulas that Include Measurement Errors in Machine Learning
for Natural Sciences [0.0]
機械学習の物理学問題への応用は、科学文献に広く見られる。
残念なことに、機械学習モデルのトレーニングに使用されるデータの計測エラーはほとんど無視されている。
本稿では、対象変数の測定誤差を考慮に入れた一般的なメトリクスの式を導出することにより、この欠陥に対処する。
論文 参考訳(メタデータ) (2022-09-30T17:02:31Z) - Valid Inference After Causal Discovery [73.87055989355737]
我々は、因果関係発見後の推論に有効なツールを開発する。
因果発見とその後の推論アルゴリズムの組み合わせは,高度に膨らんだ誤発見率をもたらすことを示す。
論文 参考訳(メタデータ) (2022-08-11T17:40:45Z) - D-BIAS: A Causality-Based Human-in-the-Loop System for Tackling
Algorithmic Bias [57.87117733071416]
D-BIASは、人間のループ内AIアプローチを具現化し、社会的バイアスを監査し軽減する視覚対話型ツールである。
ユーザは、因果ネットワークにおける不公平な因果関係を識別することにより、グループに対する偏見の存在を検出することができる。
それぞれのインタラクション、例えばバイアスのある因果縁の弱体化/削除は、新しい(偏りのある)データセットをシミュレートするために、新しい方法を用いている。
論文 参考訳(メタデータ) (2022-08-10T03:41:48Z) - Defect Prediction Using Stylistic Metrics [2.286041284499166]
本稿では,プロジェクト内およびプロジェクト内欠陥予測におけるスタイリスティックな指標の影響を分析することを目的とする。
実験は5つの人気のあるオープンソースプロジェクトの14のリリースで実施されている。
論文 参考訳(メタデータ) (2022-06-22T10:11:05Z) - Cross Pairwise Ranking for Unbiased Item Recommendation [57.71258289870123]
我々はCPR(Cross Pairwise Ranking)という新しい学習パラダイムを開発する。
CPRは、露出メカニズムを知らずに不偏の推奨を達成する。
理論的には、この方法が学習に対するユーザ/イテムの適合性の影響を相殺することを証明する。
論文 参考訳(メタデータ) (2022-04-26T09:20:27Z) - Reenvisioning Collaborative Filtering vs Matrix Factorization [65.74881520196762]
近年,行列因数分解に基づく協調フィルタリングモデルや,ニューラルネットワーク(ANN)を用いた類似性の学習が注目されている。
推薦エコシステム内でのANNの発表が最近疑問視され、効率性と有効性に関していくつかの比較がなされている。
本研究では,これらの手法が相補的評価次元に与える影響を解析しながら,超精度評価にもたらす可能性を示す。
論文 参考訳(メタデータ) (2021-07-28T16:29:38Z) - Anomaly Detection: How to Artificially Increase your F1-Score with a
Biased Evaluation Protocol [0.11470070927586014]
異常検出は機械学習において広く研究されている領域である。
パフォーマンスを比較するために使用される最も一般的なメトリクスは、F1スコア、AUC、AVPRである。
F1スコアとAVPRは汚染率に非常に敏感である。
論文 参考訳(メタデータ) (2021-06-30T12:36:01Z) - Estimating Structural Target Functions using Machine Learning and
Influence Functions [103.47897241856603]
統計モデルから特定可能な関数として生じる対象関数の統計的機械学習のための新しい枠組みを提案する。
このフレームワークは問題とモデルに依存しないものであり、応用統計学における幅広い対象パラメータを推定するのに使用できる。
我々は、部分的に観測されていない情報を持つランダム/二重ロバストな問題において、いわゆる粗大化に特に焦点をあてた。
論文 参考訳(メタデータ) (2020-08-14T16:48:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。