論文の概要: Learning from Very Little Data: On the Value of Landscape Analysis for
Predicting Software Project Health
- arxiv url: http://arxiv.org/abs/2301.06577v2
- Date: Wed, 11 Oct 2023 17:10:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-16 04:24:49.367415
- Title: Learning from Very Little Data: On the Value of Landscape Analysis for
Predicting Software Project Health
- Title(参考訳): ごく小さなデータから学ぶ:ソフトウェアプロジェクトの健全性を予測するための景観分析の価値について
- Authors: Andre Lustosa, Tim Menzies
- Abstract要約: 本報告では、ニSNEAKの健康計画への応用についてのみ検討する。しかしながら、この手法が幅広い問題に適用されるのを防ぐため、原則として何も見つからない。
- 参考スコア(独自算出の注目度): 13.19204187502255
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When data is scarce, software analytics can make many mistakes. For example,
consider learning predictors for open source project health (e.g. the number of
closed pull requests in twelve months time). The training data for this task
may be very small (e.g. five years of data, collected every month means just 60
rows of training data). The models generated from such tiny data sets can make
many prediction errors.
Those errors can be tamed by a {\em landscape analysis} that selects better
learner control parameters. Our niSNEAK tool (a)~clusters the data to find the
general landscape of the hyperparameters; then (b)~explores a few
representatives from each part of that landscape. niSNEAK is both faster and
more effective than prior state-of-the-art hyperparameter optimization
algorithms (e.g. FLASH, HYPEROPT, OPTUNA).
The configurations found by niSNEAK have far less error than other methods.
For example, for project health indicators such as $C$= number of commits;
$I$=number of closed issues, and $R$=number of closed pull requests, niSNEAK's
12 month prediction errors are \{I=0\%, R=33\%\,C=47\%\}
Based on the above, we recommend landscape analytics (e.g. niSNEAK)
especially when learning from very small data sets. This paper only explores
the application of niSNEAK to project health. That said, we see nothing in
principle that prevents the application of this technique to a wider range of
problems.
To assist other researchers in repeating, improving, or even refuting our
results, all our scripts and data are available on GitHub at
https://github.com/zxcv123456qwe/niSneak
- Abstract(参考訳): データが不足している場合、ソフトウェア分析は多くの間違いを犯す可能性がある。
例えば、オープンソースプロジェクトの健全性(例えば12ヶ月のクローズドプルリクエストの数)の学習予測子を考えてみましょう。
このタスクのトレーニングデータは、非常に小さい(例えば、毎月収集される5年間のデータは、たった60行のトレーニングデータである)。
このような小さなデータセットから生成されたモデルは、多くの予測エラーを引き起こす可能性がある。
これらのエラーは、より良い学習者制御パラメータを選択する {\em landscape analysis} によって処理できる。
我々のNiSNEAKツール
(a)~ ハイパーパラメータの一般的なランドスケープを見つけるためにデータをクラスタ化します。
(b)-その風景の各部分からいくつかの代表を探索する。
niSNEAKは、従来の最先端ハイパーパラメータ最適化アルゴリズム(FLASH、HYPEROPT、OPTUNAなど)よりも高速かつ効果的である。
nisneakが発見したコンフィギュレーションは他のメソッドよりもはるかにエラーが少ない。
例えば、$C$=コミット数、$I$=クローズドな問題の数、$R$=クローズドなプルリクエスト数などのプロジェクトのヘルス指標では、niSNEAKの12ヶ月の予測エラーは{I=0\%, R=33\%\,C=47\%\}である。
本論文は、ニSNEAKの健康計画への応用についてのみ検討する。
とはいえ、このテクニックを幅広い問題に適用することを妨げる原則は何もありません。
他の研究者が結果を繰り返し、改善したり、反証したりするのを助けるため、我々のスクリプトとデータはGitHubでhttps://github.com/zxcv123456qwe/niSneakで入手できる。
関連論文リスト
- Just How Flexible are Neural Networks in Practice? [89.80474583606242]
ニューラルネットワークは、パラメータを持つ少なくとも多くのサンプルを含むトレーニングセットに適合できると広く信じられている。
しかし実際には、勾配や正規化子など、柔軟性を制限したトレーニング手順によるソリューションしか見つからない。
論文 参考訳(メタデータ) (2024-06-17T12:24:45Z) - Streamlining Software Reviews: Efficient Predictive Modeling with Minimal Examples [11.166755101891402]
本稿では,ソフトウェア解析における新たな課題を提案する。
このプロセスでは、中小企業(対象分野の専門家)のパネルがソフトウェア動作の例をレビューし、ソフトウェア操作を改善する方法を推奨します。
このレビュープロセスを支援するために、私たちは予測モデルをトレーニングし、いくつかのオラクルが次の例を好む/好まないかを推測する手法を探る。
31のケーススタディでは、そのような予測モデルを12から30のラベルで構築できることが示されている。
論文 参考訳(メタデータ) (2024-05-21T16:42:02Z) - Is Hyper-Parameter Optimization Different for Software Analytics? [11.85735565104864]
SEデータはクラス間の"smoother"境界を持つことができる。
SMOOTHIEはより高速に動作し、SEデータでより良い予測を行う。
論文 参考訳(メタデータ) (2024-01-17T22:23:29Z) - Evaluating Graph Neural Networks for Link Prediction: Current Pitfalls
and New Benchmarking [66.83273589348758]
リンク予測は、グラフのエッジの一部のみに基づいて、目に見えないエッジが存在するかどうかを予測しようとする。
近年,この課題にグラフニューラルネットワーク(GNN)を活用すべく,一連の手法が導入されている。
これらの新しいモデルの有効性をよりよく評価するために、新しい多様なデータセットも作成されている。
論文 参考訳(メタデータ) (2023-06-18T01:58:59Z) - How Predictable Are Large Language Model Capabilities? A Case Study on
BIG-bench [52.11481619456093]
実験記録におけるBIGベンチの性能予測問題について検討する。
95%以上のR2$スコアは、実験記録の中に学習可能なパターンが存在することを示している。
BIG-bench Hardのように新しいモデルファミリーを評価できるサブセットが3倍程度小さくなっています。
論文 参考訳(メタデータ) (2023-05-24T09:35:34Z) - ASPEST: Bridging the Gap Between Active Learning and Selective
Prediction [56.001808843574395]
選択予測は、不確実な場合の予測を棄却する信頼性のあるモデルを学ぶことを目的としている。
アクティブラーニングは、最も有意義な例を問うことで、ラベリングの全体、すなわち人間の依存度を下げることを目的としている。
本研究では,移動対象領域からより情報のあるサンプルを検索することを目的とした,新たな学習パラダイムである能動的選択予測を導入する。
論文 参考訳(メタデータ) (2023-04-07T23:51:07Z) - When Less is More: On the Value of "Co-training" for Semi-Supervised
Software Defect Predictors [15.862838836160634]
本論文は714以上のプロジェクトに対して,55の半教師付き学習者に適用する。
半教師付き「協調学習法」は他の手法よりもかなりうまく機能することがわかった。
論文 参考訳(メタデータ) (2022-11-10T23:39:12Z) - The Early Bird Catches the Worm: Better Early Life Cycle Defect
Predictors [23.22715542777918]
240のGitHubプロジェクトでは、そのデータの情報はプロジェクトの初期の部分に向かって行き詰まっている。
最初の150のコミットから学んだ欠陥予測モデルは、最先端の代替手段よりもうまく機能する。
論文 参考訳(メタデータ) (2021-05-24T03:49:09Z) - How to distribute data across tasks for meta-learning? [59.608652082495624]
タスクごとのデータポイントの最適な数は予算に依存しますが、それは大きな予算のためのユニークな一定の値に収束します。
この結果から,データ収集の簡便かつ効率的な手順が示唆された。
論文 参考訳(メタデータ) (2021-03-15T15:38:47Z) - Injecting Knowledge in Data-driven Vehicle Trajectory Predictors [82.91398970736391]
車両軌道予測タスクは、一般的に知識駆動とデータ駆動の2つの視点から取り組まれている。
本稿では,これら2つの視点を効果的に結合する「現実的残留ブロック」 (RRB) の学習を提案する。
提案手法は,残留範囲を限定し,その不確実性を考慮した現実的な予測を行う。
論文 参考訳(メタデータ) (2021-03-08T16:03:09Z) - Early Life Cycle Software Defect Prediction. Why? How? [37.48549087467758]
私たちは84ヶ月間、何百もの人気のあるGitHubプロジェクトを分析しました。
これらのプロジェクト全体で、欠陥のほとんどはライフサイクルのごく初期段階に発生します。
これらの結果が、他の研究者たちに、自分たちの仕事に"単純さ優先"アプローチを採用するよう促すことを願っています。
論文 参考訳(メタデータ) (2020-11-26T00:13:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。