論文の概要: Optimizing Predictions for Very Small Data Sets: a case study on
Open-Source Project Health Prediction
- arxiv url: http://arxiv.org/abs/2301.06577v1
- Date: Mon, 16 Jan 2023 19:27:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-18 15:22:22.065225
- Title: Optimizing Predictions for Very Small Data Sets: a case study on
Open-Source Project Health Prediction
- Title(参考訳): 極小データセットの最適化予測:オープンソースのプロジェクトヘルス予測を事例として
- Authors: Andre Lustosa, Tim Menzies
- Abstract要約: ランドスケープ解析(SNEAKなど)は従来の最先端ハイパーパラメータ最適化アルゴリズムよりも高速かつ効果的であることを示す。
SNEAKは他のデータライトのSEドメインにも役立つかもしれない。
スクリプトとデータはGitHubでhttps://github.com/zxcv123456qwe/niSneak.comから入手可能です。
- 参考スコア(独自算出の注目度): 26.56743917195549
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When learning from very small data sets, the resulting models can make many
mistakes. For example, consider learning predictors for open source project
health. The training data for this task may be very small (e.g. five years of
data, collected every month means just 60 rows of training data). Using this
data, prior work had unacceptably large errors in their learned predictors. We
show that these high errors rates can be tamed by better configuration of the
control parameters of the machine learners. For example, we present here a {\em
landscape analytics} method (called SNEAK)
that (a)~clusters the data to find the general landscape of the
hyperparameters; then
(b)~explores a few representatives from each part of that landscape.
SNEAK is both
faster and and more effective than
prior state-of-the-art hyperparameter optimization algorithms (FLASH,
HYPEROPT, OPTUNA, and differential evolution). More importantly, the
configurations found by SNEAK had far less error that other methods.
We conjecture that SNEAK works so well since it finds the most informative
regions of the hyperparameters, then jumps to those regions. Other methods
(that do not reflect over the landscape) can waste time exploring less
informative options.
From this, we make the following conclusions. Firstly, for predicting open
source project health, we recommend landscape analytics (e.g.SNEAK). Secondly,
and more generally, when learning from very small data sets, using
hyperparameter optimization (e.g. SNEAK) to select learning control parameters.
Due to its speed and implementation simplicity, we suggest SNEAK might also be
useful in other ``data-light'' SE domains.
To assist other researchers in repeating, improving, or even refuting our
results, all our scripts and data are available on GitHub at
https://github.com/zxcv123456qwe/niSneak
- Abstract(参考訳): 非常に小さなデータセットから学ぶと、結果のモデルは多くの間違いを犯す可能性がある。
例えば、オープンソースプロジェクトの健全性のための学習予測子を考える。
このタスクのトレーニングデータは、非常に小さい(例えば、毎月収集される5年間のデータは、たった60行のトレーニングデータである)。
このデータを用いて、事前の作業は、学習した予測子に許容できない大きなエラーがあった。
機械学習者の制御パラメータのより優れた設定により,これらの高い誤差率に対処できることを示す。
例えば、ここではスニークと呼ばれる、ランドスケープ分析の方法を紹介します。
(a)~ ハイパーパラメータの一般的なランドスケープを見つけるためにデータをクラスタ化します。
(b)-その風景の各部分からいくつかの代表を探索する。
SNEAKは、従来の最先端ハイパーパラメータ最適化アルゴリズム(FLASH、HYPEROPT、OPTUNA、微分進化)よりも高速かつ効果的である。
さらに重要なことは、SNEAKが発見した構成は他の方法よりもはるかにエラーが少ないことである。
SNEAKはハイパーパラメータの最も情報性の高い領域を見つけ、それからそれらの領域にジャンプするので、うまく機能すると推測する。
その他の方法(風景を反映しない)は、あまり情報のない選択肢を探す時間を無駄にする可能性がある。
このことから、以下の結論が導かれる。
まず、オープンソースプロジェクトの健全性を予測するために、ランドスケープ分析(例えばsneak)を推奨します。
第二に、より一般的には、非常に小さなデータセットから学習する場合、ハイパーパラメータ最適化(SNEAKなど)を使用して学習制御パラメータを選択する。
そのスピードと実装の単純さから、SNEAKは他の `data-light' の SE ドメインにも役立つかもしれない。
他の研究者が結果を繰り返し、改善したり、反証したりするのを助けるため、我々のスクリプトとデータはGitHubでhttps://github.com/zxcv123456qwe/niSneakで入手できる。
関連論文リスト
- Just How Flexible are Neural Networks in Practice? [89.80474583606242]
ニューラルネットワークは、パラメータを持つ少なくとも多くのサンプルを含むトレーニングセットに適合できると広く信じられている。
しかし実際には、勾配や正規化子など、柔軟性を制限したトレーニング手順によるソリューションしか見つからない。
論文 参考訳(メタデータ) (2024-06-17T12:24:45Z) - Streamlining Software Reviews: Efficient Predictive Modeling with Minimal Examples [11.166755101891402]
本稿では,ソフトウェア解析における新たな課題を提案する。
このプロセスでは、中小企業(対象分野の専門家)のパネルがソフトウェア動作の例をレビューし、ソフトウェア操作を改善する方法を推奨します。
このレビュープロセスを支援するために、私たちは予測モデルをトレーニングし、いくつかのオラクルが次の例を好む/好まないかを推測する手法を探る。
31のケーススタディでは、そのような予測モデルを12から30のラベルで構築できることが示されている。
論文 参考訳(メタデータ) (2024-05-21T16:42:02Z) - Is Hyper-Parameter Optimization Different for Software Analytics? [11.85735565104864]
SEデータはクラス間の"smoother"境界を持つことができる。
SMOOTHIEはより高速に動作し、SEデータでより良い予測を行う。
論文 参考訳(メタデータ) (2024-01-17T22:23:29Z) - Evaluating Graph Neural Networks for Link Prediction: Current Pitfalls
and New Benchmarking [66.83273589348758]
リンク予測は、グラフのエッジの一部のみに基づいて、目に見えないエッジが存在するかどうかを予測しようとする。
近年,この課題にグラフニューラルネットワーク(GNN)を活用すべく,一連の手法が導入されている。
これらの新しいモデルの有効性をよりよく評価するために、新しい多様なデータセットも作成されている。
論文 参考訳(メタデータ) (2023-06-18T01:58:59Z) - How Predictable Are Large Language Model Capabilities? A Case Study on
BIG-bench [52.11481619456093]
実験記録におけるBIGベンチの性能予測問題について検討する。
95%以上のR2$スコアは、実験記録の中に学習可能なパターンが存在することを示している。
BIG-bench Hardのように新しいモデルファミリーを評価できるサブセットが3倍程度小さくなっています。
論文 参考訳(メタデータ) (2023-05-24T09:35:34Z) - ASPEST: Bridging the Gap Between Active Learning and Selective
Prediction [56.001808843574395]
選択予測は、不確実な場合の予測を棄却する信頼性のあるモデルを学ぶことを目的としている。
アクティブラーニングは、最も有意義な例を問うことで、ラベリングの全体、すなわち人間の依存度を下げることを目的としている。
本研究では,移動対象領域からより情報のあるサンプルを検索することを目的とした,新たな学習パラダイムである能動的選択予測を導入する。
論文 参考訳(メタデータ) (2023-04-07T23:51:07Z) - When Less is More: On the Value of "Co-training" for Semi-Supervised
Software Defect Predictors [15.862838836160634]
本論文は714以上のプロジェクトに対して,55の半教師付き学習者に適用する。
半教師付き「協調学習法」は他の手法よりもかなりうまく機能することがわかった。
論文 参考訳(メタデータ) (2022-11-10T23:39:12Z) - The Early Bird Catches the Worm: Better Early Life Cycle Defect
Predictors [23.22715542777918]
240のGitHubプロジェクトでは、そのデータの情報はプロジェクトの初期の部分に向かって行き詰まっている。
最初の150のコミットから学んだ欠陥予測モデルは、最先端の代替手段よりもうまく機能する。
論文 参考訳(メタデータ) (2021-05-24T03:49:09Z) - How to distribute data across tasks for meta-learning? [59.608652082495624]
タスクごとのデータポイントの最適な数は予算に依存しますが、それは大きな予算のためのユニークな一定の値に収束します。
この結果から,データ収集の簡便かつ効率的な手順が示唆された。
論文 参考訳(メタデータ) (2021-03-15T15:38:47Z) - Injecting Knowledge in Data-driven Vehicle Trajectory Predictors [82.91398970736391]
車両軌道予測タスクは、一般的に知識駆動とデータ駆動の2つの視点から取り組まれている。
本稿では,これら2つの視点を効果的に結合する「現実的残留ブロック」 (RRB) の学習を提案する。
提案手法は,残留範囲を限定し,その不確実性を考慮した現実的な予測を行う。
論文 参考訳(メタデータ) (2021-03-08T16:03:09Z) - Early Life Cycle Software Defect Prediction. Why? How? [37.48549087467758]
私たちは84ヶ月間、何百もの人気のあるGitHubプロジェクトを分析しました。
これらのプロジェクト全体で、欠陥のほとんどはライフサイクルのごく初期段階に発生します。
これらの結果が、他の研究者たちに、自分たちの仕事に"単純さ優先"アプローチを採用するよう促すことを願っています。
論文 参考訳(メタデータ) (2020-11-26T00:13:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。