論文の概要: An Audit of Machine Learning Experiments on Software Defect Prediction
- arxiv url: http://arxiv.org/abs/2601.18477v1
- Date: Mon, 26 Jan 2026 13:31:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.844594
- Title: An Audit of Machine Learning Experiments on Software Defect Prediction
- Title(参考訳): ソフトウェア欠陥予測に関する機械学習実験の監査
- Authors: Giuseppe Destefanis, Leila Yousefi, Martin Shepperd, Allan Tucker, Stephen Swift, Steve Counsell, Mahir Arzoky,
- Abstract要約: 機械学習アルゴリズムは、欠陥のあるソフトウェアコンポーネントを予測するために広く使われている。
本稿では,最近のソフトウェア欠陥予測(SDP)研究を,その設計,解析,報告の実践から評価する。
- 参考スコア(独自算出の注目度): 1.2743036577573925
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Background: Machine learning algorithms are widely used to predict defect prone software components. In this literature, computational experiments are the main means of evaluation, and the credibility of results depends on experimental design and reporting. Objective: This paper audits recent software defect prediction (SDP) studies by assessing their experimental design, analysis, and reporting practices against accepted norms from statistics, machine learning, and empirical software engineering. The aim is to characterise current practice and assess the reproducibility of published results. Method: We audited SDP studies indexed in SCOPUS between 2019 and 2023, focusing on design and analysis choices such as outcome measures, out of sample validation strategies, and the use of statistical inference. Nine study issues were evaluated. Reproducibility was assessed using the instrument proposed by González Barahona and Robles. Results: The search identified approximately 1,585 SDP experiments published during the period. From these, we randomly sampled 101 papers, including 61 journal and 40 conference publications, with almost 50 percent behind paywalls. We observed substantial variation in research practice. The number of datasets ranged from 1 to 365, learners or learner variants from 1 to 34, and performance measures from 1 to 9. About 45 percent of studies applied formal statistical inference. Across the sample, we identified 427 issues, with a median of four per paper, and only one paper without issues. Reproducibility ranged from near complete to severely limited. We also identified two cases of tortured phrases and possible paper mill activity. Conclusions: Experimental design and reporting practices vary widely, and almost half of the studies provide insufficient detail to support reproduction. The audit indicates substantial scope for improvement.
- Abstract(参考訳): 背景: 機械学習アルゴリズムは、欠陥のあるソフトウェアコンポーネントを予測するために広く使用されている。
この文献では、計算実験が主要な評価方法であり、結果の信頼性は実験設計と報告に依存する。
目的:本論文は,最近のソフトウェア欠陥予測(SDP)研究を,統計学,機械学習,経験的ソフトウェア工学から受け入れられた規範に対する実験的設計,分析,報告のプラクティスを評価することによって評価する。
目的は、現在の実践を特徴づけ、公表された結果の再現性を評価することである。
方法:2019年から2023年にかけてSCOPUSで実施したSDP調査を,結果評価,サンプル検証方略,統計的推測の活用などの設計と分析の選択に焦点をあてた。
9つの研究課題が評価された。
再現性はゴンザレス・バラオナとロブレスによって提案された楽器を用いて評価された。
結果: 調査の結果, この期間に公表された約1,585個のSDP実験が確認された。
この結果から、61のジャーナルと40のカンファレンス出版物を含む101の論文をランダムにサンプリングしました。
我々は研究実践のかなりの変化を観察した。
データセットの数は1から365、学習者または学習者の変種は1から34、パフォーマンス指標は1から9である。
研究の約45%が公式な統計的推測を適用した。
サンプル全体では,427件,中央値4件,問題のない論文は1件に過ぎなかった。
再現性は、ほぼ完全なものから非常に制限されたものまで様々であった。
また,拷問句の2例と製紙活動の可能性も確認した。
結論: 実験的な設計と報告の実践は様々であり, ほぼ半数の研究では, 再現支援に不十分な詳細が報告されている。
監査は改善のかなりの範囲を示している。
関連論文リスト
- Prediction-Powered Causal Inferences [59.98498488132307]
予測型因果推論(PPCI)に焦点をあてる
まず, 条件付きキャリブレーションにより, 人口レベルでの有効なPPCIが保証されることを示す。
次に、実験間での十分な表現制約伝達の妥当性を導入する。
論文 参考訳(メタデータ) (2025-02-10T10:52:17Z) - "Estimating software project effort using analogies": Reflections after 28 years [0.0]
本稿は, (i) 達成されたこと, (ii) 耐えられたこと, (iii) 振り返りの利点によって達成できたことについて検討する。
当初の研究では、ベンチマーク、サンプル外テスト、データ/ツールの共有による実証的な検証を強調していた。
論文 参考訳(メタデータ) (2025-01-24T15:44:25Z) - Crossover Designs in Software Engineering Experiments: Review of the State of Analysis [4.076290837395956]
Vegasらは、ソフトウェア工学(SE)研究におけるクロスオーバー設計の実践状況についてレビューした。
本稿では,2015年から2024年にかけてのSE出版物におけるクロスオーバー設計実験の現状について概説する。
明確なガイドラインにもかかわらず、有効性に対する脅威は29.5%に過ぎなかった。
論文 参考訳(メタデータ) (2024-08-14T14:49:25Z) - "Medium-n studies" in computing education conferences [4.057470201629211]
我々は、コンピュータサイエンス教育研究者が直面する異なる環境で、いつ、いつ、いつ、p値を計算するべきかについての考察を概説する。
本稿では,要約データを提示し,レビュアーガイドラインに関する予備的な観察を行う。
論文 参考訳(メタデータ) (2023-11-01T15:25:49Z) - Too Good To Be True: performance overestimation in (re)current practices
for Human Activity Recognition [49.1574468325115]
データセグメンテーションのためのスライディングウィンドウと、標準のランダムk倍のクロスバリデーションが続くと、バイアスのある結果が得られる。
この問題に対する科学界の認識を高めることは重要であり、その否定的な影響は見落とされつつある。
異なるタイプのデータセットと異なるタイプの分類モデルを用いたいくつかの実験により、問題を示し、メソッドやデータセットとは独立して持続することを示すことができる。
論文 参考訳(メタデータ) (2023-10-18T13:24:05Z) - A Double Machine Learning Approach to Combining Experimental and Observational Data [58.05402364136958]
実験と観測を組み合わせた二重機械学習手法を提案する。
本フレームワークは, より軽度な仮定の下で, 外部の妥当性と無知性に対するファルシフィケーションテストを提案する。
論文 参考訳(メタデータ) (2023-07-04T02:53:11Z) - The MultiBERTs: BERT Reproductions for Robustness Analysis [86.29162676103385]
事前トレーニングの再実行は、パフォーマンスに関して、かなり異なる結論をもたらす可能性がある。
我々は25個のBERTベースのチェックポイントの集合であるMultiBERTを紹介する。
目標は、研究者が事前訓練の手順について、堅牢で統計的に正当化された結論を描けるようにすることである。
論文 参考訳(メタデータ) (2021-06-30T15:56:44Z) - With Little Power Comes Great Responsibility [54.96675741328462]
アンダーパワー実験により、統計的ノイズと有意義なモデル改善の違いを識別することがより困難になる。
小さなテストセットは、ほとんどの試行錯誤が、最先端のモデルと比較しても、十分なパワーが得られないことを意味している。
機械翻訳では,2000文の典型的テストセットが約75%のパワーで1 BLEU点の差を検出する。
論文 参考訳(メタデータ) (2020-10-13T18:00:02Z) - Showing Your Work Doesn't Always Work [73.63200097493576]
『Show Your Work: Improved Reporting of Experimental Results』では、最高の学習モデルの有効性を報告している。
解析的にそれらの推定器は偏りがあり、エラーを起こしやすい仮定を用いていることを示す。
我々は、偏見のない代替案を導き、統計的シミュレーションから経験的な証拠で主張を裏付ける。
論文 参考訳(メタデータ) (2020-04-28T17:59:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。