論文の概要: Revisiting Process versus Product Metrics: a Large Scale Analysis
- arxiv url: http://arxiv.org/abs/2008.09569v3
- Date: Tue, 26 Oct 2021 13:50:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-26 22:20:44.552378
- Title: Revisiting Process versus Product Metrics: a Large Scale Analysis
- Title(参考訳): プロセスと製品メトリクスの再検討:大規模分析
- Authors: Suvodeep Majumder, Pranav Mody, Tim Menzies
- Abstract要約: 我々は700のGithubプロジェクトから722,471件のコミットを使って、以前の小規模な結果を再確認した。
分析の規模が大きくなるまでには、まだ小さな分析結果が残っていることが分かっています。
我々は、小論文の分析による計量的重要性の結果を信頼するのは賢明ではないと警告する。
- 参考スコア(独自算出の注目度): 32.37197747513998
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Numerous methods can build predictive models from software data. However,
what methods and conclusions should we endorse as we move from analytics
in-the-small (dealing with a handful of projects) to analytics in-the-large
(dealing with hundreds of projects)?
To answer this question, we recheck prior small-scale results (about process
versus product metrics for defect prediction and the granularity of metrics)
using 722,471 commits from 700 Github projects. We find that some analytics
in-the-small conclusions still hold when scaling up to analytics in-the-large.
For example, like prior work, we see that process metrics are better predictors
for defects than product metrics (best process/product-based learners
respectively achieve recalls of 98\%/44\% and AUCs of 95\%/54\%, median
values).
That said, we warn that it is unwise to trust metric importance results from
analytics in-the-small studies since those change dramatically when moving to
analytics in-the-large. Also, when reasoning in-the-large about hundreds of
projects, it is better to use predictions from multiple models (since single
model predictions can become confused and exhibit a high variance).
- Abstract(参考訳): 多くの手法がソフトウェアデータから予測モデルを構築することができる。
しかしながら、小さな(少数のプロジェクトによる)分析から大規模な分析(数百のプロジェクトによる)に移行する上で、どのような方法と結論を支持すべきだろうか?
この質問に答えるために、700のgithubプロジェクトからの722,471コミットを使用して、事前の小さな結果(欠陥予測のためのプロセスと製品メトリクス、メトリクスの粒度)を再チェックします。
分析の規模が大きくなるまでには、まだ小さな分析結果が残っていることが分かっています。
例えば、以前の作業と同様、プロセスメトリクスは製品メトリクスよりも欠陥の予測因子として優れている(最高のプロセス/製品ベースの学習者はそれぞれ98\%/44\%、AUCは95\%/54\%、中央値)。
とは言っても、分析対象を大規模に移行する際に大きく変化するため、小さな研究における分析結果の計量的重要性を信頼するのは賢明ではないと警告する。
また、数百のプロジェクトについて推論する場合、複数のモデルからの予測を使う方がよい(単一のモデル予測が混乱し、高いばらつきを示すため)。
関連論文リスト
- Critical Example Mining for Vehicle Trajectory Prediction using Flow-based Generative Models [10.40439055916036]
本稿では,トラジェクトリの希少性を推定するデータ駆動手法を提案する。
観測の希少度を全軌跡と組み合わせることで,予測が比較的難しいデータのサブセットを効果的に同定する。
論文 参考訳(メタデータ) (2024-10-21T15:02:30Z) - Small Effect Sizes in Malware Detection? Make Harder Train/Test Splits! [51.668411293817464]
業界関係者は、モデルが数億台のマシンにデプロイされているため、マルウェア検出精度の小さな改善に気を配っている。
学術研究はしばしば1万のサンプルの順序で公開データセットに制限される。
利用可能なサンプルのプールから難易度ベンチマークを生成するためのアプローチを考案する。
論文 参考訳(メタデータ) (2023-12-25T21:25:55Z) - Variational Factorization Machines for Preference Elicitation in
Large-Scale Recommender Systems [17.050774091903552]
本稿では, 標準のミニバッチ降下勾配を用いて容易に最適化できる因子化機械 (FM) の変分定式化を提案する。
提案アルゴリズムは,ユーザおよび項目パラメータに近似した後続分布を学習し,予測に対する信頼区間を導出する。
いくつかのデータセットを用いて、予測精度の点で既存の手法と同等または優れた性能を示す。
論文 参考訳(メタデータ) (2022-12-20T00:06:28Z) - Azimuth: Systematic Error Analysis for Text Classification [3.1679600401346706]
Azimuthは、テキスト分類のエラー解析を行うオープンソースツールである。
本稿では,データセット分析とモデル品質評価を組み合わせたアプローチを提案する。
論文 参考訳(メタデータ) (2022-12-16T01:10:41Z) - Why we should respect analysis results as data [0.0]
臨床研究データの解析も結果の形でデータを生成するのが一般的である。
知見を文脈に組み込んだ分析は科学的研究の基盤となっているが、分析結果はしばしばデータソースとして無視される。
本稿では,分析結果標準と共通データモデルを組み合わせた「一度計算し,何度も使用」する手法を提案する。
論文 参考訳(メタデータ) (2022-04-21T08:34:07Z) - Similarities and Differences between Machine Learning and Traditional
Advanced Statistical Modeling in Healthcare Analytics [0.6999740786886537]
機械学習と統計モデリングは、同様の数学的原理に基づいて補完的である。
優れたアナリストとデータサイエンティストは、技術と適切な応用の両方に精通しているべきです。
論文 参考訳(メタデータ) (2022-01-07T14:36:46Z) - Flexible Model Aggregation for Quantile Regression [92.63075261170302]
量子回帰は、予測の不確実性を定量化する必要性によって動機付けられた統計学習の基本的な問題である。
条件付き量子モデルの任意の数を集約する手法について検討する。
この論文で検討するモデルはすべて、現代のディープラーニングツールキットに適合します。
論文 参考訳(メタデータ) (2021-02-26T23:21:16Z) - Generalized Matrix Factorization: efficient algorithms for fitting
generalized linear latent variable models to large data arrays [62.997667081978825]
一般化線形潜在変数モデル(GLLVM)は、そのような因子モデルを非ガウス応答に一般化する。
GLLVMのモデルパラメータを推定する現在のアルゴリズムは、集約的な計算を必要とし、大規模なデータセットにスケールしない。
本稿では,GLLVMを高次元データセットに適用するための新しい手法を提案する。
論文 参考訳(メタデータ) (2020-10-06T04:28:19Z) - Interpolation and Learning with Scale Dependent Kernels [91.41836461193488]
非パラメトリックリッジレス最小二乗の学習特性について検討する。
スケール依存カーネルで定義される推定器の一般的な場合を考える。
論文 参考訳(メタデータ) (2020-06-17T16:43:37Z) - Machine learning for causal inference: on the use of cross-fit
estimators [77.34726150561087]
より優れた統計特性を得るために、二重ローバストなクロスフィット推定器が提案されている。
平均因果効果(ACE)に対する複数の推定器の性能評価のためのシミュレーション研究を行った。
機械学習で使用する場合、二重確率のクロスフィット推定器は、バイアス、分散、信頼区間のカバレッジで他のすべての推定器よりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-04-21T23:09:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。