論文の概要: Early Life Cycle Software Defect Prediction. Why? How?
- arxiv url: http://arxiv.org/abs/2011.13071v3
- Date: Tue, 9 Feb 2021 01:13:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-20 12:24:01.136684
- Title: Early Life Cycle Software Defect Prediction. Why? How?
- Title(参考訳): 初期のライフサイクルソフトウェア欠陥予測。
なぜだ?
どうやって?
- Authors: N.C. Shrikanth, Suvodeep Majumder and Tim Menzies
- Abstract要約: 私たちは84ヶ月間、何百もの人気のあるGitHubプロジェクトを分析しました。
これらのプロジェクト全体で、欠陥のほとんどはライフサイクルのごく初期段階に発生します。
これらの結果が、他の研究者たちに、自分たちの仕事に"単純さ優先"アプローチを採用するよう促すことを願っています。
- 参考スコア(独自算出の注目度): 37.48549087467758
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many researchers assume that, for software analytics, "more data is better."
We write to show that, at least for learning defect predictors, this may not be
true. To demonstrate this, we analyzed hundreds of popular GitHub projects.
These projects ran for 84 months and contained 3,728 commits (median values).
Across these projects, most of the defects occur very early in their life
cycle. Hence, defect predictors learned from the first 150 commits and four
months perform just as well as anything else. This means that, at least for the
projects studied here, after the first few months, we need not continually
update our defect prediction models. We hope these results inspire other
researchers to adopt a "simplicity-first" approach to their work. Some domains
require a complex and data-hungry analysis. But before assuming complexity, it
is prudent to check the raw data looking for "short cuts" that can simplify the
analysis.
- Abstract(参考訳): 多くの研究者は、ソフトウェア分析では"もっとデータの方が良い"と考えている。
我々は、少なくとも欠陥予測を学習するためには、これは正しくないかもしれないことを示すために書いている。
これを実証するために、何百もの人気のあるGitHubプロジェクトを分析しました。
これらのプロジェクトは84ヶ月にわたって実行され、3,728のコミット(中間値)を含んでいた。
これらのプロジェクト全体で、欠陥のほとんどはライフサイクルのごく初期段階に発生します。
従って、最初の150コミットと4ヶ月から学んだ欠陥予測者は、他のものと同じように実行します。
つまり、少なくともここで研究されているプロジェクトでは、最初の数ヶ月後には、欠陥予測モデルを継続的に更新する必要はありません。
これらの結果が、他の研究者たちに、自分たちの仕事に"単純さ優先"アプローチを採用するよう促すことを願っています。
一部のドメインは複雑なデータ分析を必要とする。
しかし、複雑さを仮定する前に、分析を単純化する"ショートカット"を探す生データをチェックするのは賢明です。
関連論文リスト
- Language models scale reliably with over-training and on downstream tasks [121.69867718185125]
スケーリング法則は、高価なトレーニング実行を引き出すための有用なガイドである。
しかし、現在の研究と言語モデルがどのように訓練されているかには差がある。
対照的に、スケーリング法則は主に推論における損失を予測するが、モデルは通常下流のタスクのパフォーマンスで比較される。
論文 参考訳(メタデータ) (2024-03-13T13:54:00Z) - Zero-Regret Performative Prediction Under Inequality Constraints [5.513958040574729]
本稿では不等式制約下での性能予測について検討する。
我々は,ある程度の精度しか必要としない頑健な原始双対フレームワークを開発する。
次に、位置ファミリに対する適応的原始双対アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-22T04:54:26Z) - Evaluating Graph Neural Networks for Link Prediction: Current Pitfalls
and New Benchmarking [66.83273589348758]
リンク予測は、グラフのエッジの一部のみに基づいて、目に見えないエッジが存在するかどうかを予測しようとする。
近年,この課題にグラフニューラルネットワーク(GNN)を活用すべく,一連の手法が導入されている。
これらの新しいモデルの有効性をよりよく評価するために、新しい多様なデータセットも作成されている。
論文 参考訳(メタデータ) (2023-06-18T01:58:59Z) - Learning from Very Little Data: On the Value of Landscape Analysis for
Predicting Software Project Health [13.19204187502255]
本報告では、ニSNEAKの健康計画への応用についてのみ検討する。しかしながら、この手法が幅広い問題に適用されるのを防ぐため、原則として何も見つからない。
論文 参考訳(メタデータ) (2023-01-16T19:27:16Z) - Non-Clairvoyant Scheduling with Predictions Revisited [77.86290991564829]
非論理的スケジューリングでは、優先度不明な処理条件でジョブをスケジューリングするためのオンライン戦略を見つけることが課題である。
我々はこのよく研究された問題を、アルゴリズム設計に(信頼できない)予測を統合する、最近人気の高い学習強化された設定で再検討する。
これらの予測には所望の特性があり, 高い性能保証を有するアルゴリズムと同様に, 自然な誤差測定が可能であることを示す。
論文 参考訳(メタデータ) (2022-02-21T13:18:11Z) - Graph-Based Machine Learning Improves Just-in-Time Defect Prediction [0.38073142980732994]
グラフベースの機械学習を使用して、Just-In-Time(JIT)の欠陥予測を改善します。
私たちの最高のモデルでは、コード変更がF1スコアが最大77.55%の欠陥につながるかどうかを予測できます。
これは、最先端のJIT欠陥予測よりも152%高いF1スコアと3%高いMCCを示している。
論文 参考訳(メタデータ) (2021-10-11T16:00:02Z) - Learning to Predict Trustworthiness with Steep Slope Loss [69.40817968905495]
本研究では,現実の大規模データセットにおける信頼性の予測問題について検討する。
我々は、先行技術損失関数で訓練された信頼性予測器が、正しい予測と誤った予測の両方を信頼に値するものとみなす傾向があることを観察する。
そこで我々は,2つのスライド状の曲線による不正確な予測から,特徴w.r.t.正しい予測を分離する,新たな急勾配損失を提案する。
論文 参考訳(メタデータ) (2021-09-30T19:19:09Z) - The Early Bird Catches the Worm: Better Early Life Cycle Defect
Predictors [23.22715542777918]
240のGitHubプロジェクトでは、そのデータの情報はプロジェクトの初期の部分に向かって行き詰まっている。
最初の150のコミットから学んだ欠陥予測モデルは、最先端の代替手段よりもうまく機能する。
論文 参考訳(メタデータ) (2021-05-24T03:49:09Z) - Revisiting Process versus Product Metrics: a Large Scale Analysis [32.37197747513998]
我々は700のGithubプロジェクトから722,471件のコミットを使って、以前の小規模な結果を再確認した。
分析の規模が大きくなるまでには、まだ小さな分析結果が残っていることが分かっています。
我々は、小論文の分析による計量的重要性の結果を信頼するのは賢明ではないと警告する。
論文 参考訳(メタデータ) (2020-08-21T16:26:22Z) - Probabilistic Regression for Visual Tracking [193.05958682821444]
本稿では,確率論的回帰定式化を提案し,追跡に適用する。
入力画像が与えられたターゲット状態の条件付き確率密度を予測する。
トラッカーは6つのデータセットに新しい最先端のデータをセットし、LaSOTでは59.8%、TrackingNetでは75.8%のAUCを達成した。
論文 参考訳(メタデータ) (2020-03-27T17:58:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。