Fugu-MT 論文翻訳(概要): Optimizing Predictions for Very Small Data Sets: a case study on Open-Source Project Health Prediction

論文の概要: Optimizing Predictions for Very Small Data Sets: a case study on Open-Source Project Health Prediction

arxiv url: http://arxiv.org/abs/2301.06577v1
Date: Mon, 16 Jan 2023 19:27:16 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-18 15:22:22.065225
Title: Optimizing Predictions for Very Small Data Sets: a case study on Open-Source Project Health Prediction
Title（参考訳）: 極小データセットの最適化予測:オープンソースのプロジェクトヘルス予測を事例として
Authors: Andre Lustosa, Tim Menzies
Abstract要約: ランドスケープ解析(SNEAKなど)は従来の最先端ハイパーパラメータ最適化アルゴリズムよりも高速かつ効果的であることを示す。 SNEAKは他のデータライトのSEドメインにも役立つかもしれない。スクリプトとデータはGitHubでhttps://github.com/zxcv123456qwe/niSneak.comから入手可能です。
参考スコア（独自算出の注目度）: 26.56743917195549
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: When learning from very small data sets, the resulting models can make many mistakes. For example, consider learning predictors for open source project health. The training data for this task may be very small (e.g. five years of data, collected every month means just 60 rows of training data). Using this data, prior work had unacceptably large errors in their learned predictors. We show that these high errors rates can be tamed by better configuration of the control parameters of the machine learners. For example, we present here a {\em landscape analytics} method (called SNEAK) that (a)~clusters the data to find the general landscape of the hyperparameters; then (b)~explores a few representatives from each part of that landscape. SNEAK is both faster and and more effective than prior state-of-the-art hyperparameter optimization algorithms (FLASH, HYPEROPT, OPTUNA, and differential evolution). More importantly, the configurations found by SNEAK had far less error that other methods. We conjecture that SNEAK works so well since it finds the most informative regions of the hyperparameters, then jumps to those regions. Other methods (that do not reflect over the landscape) can waste time exploring less informative options. From this, we make the following conclusions. Firstly, for predicting open source project health, we recommend landscape analytics (e.g.SNEAK). Secondly, and more generally, when learning from very small data sets, using hyperparameter optimization (e.g. SNEAK) to select learning control parameters. Due to its speed and implementation simplicity, we suggest SNEAK might also be useful in other ``data-light'' SE domains. To assist other researchers in repeating, improving, or even refuting our results, all our scripts and data are available on GitHub at https://github.com/zxcv123456qwe/niSneak
Abstract（参考訳）: 非常に小さなデータセットから学ぶと、結果のモデルは多くの間違いを犯す可能性がある。例えば、オープンソースプロジェクトの健全性のための学習予測子を考える。このタスクのトレーニングデータは、非常に小さい(例えば、毎月収集される5年間のデータは、たった60行のトレーニングデータである)。このデータを用いて、事前の作業は、学習した予測子に許容できない大きなエラーがあった。機械学習者の制御パラメータのより優れた設定により,これらの高い誤差率に対処できることを示す。例えば、ここではスニークと呼ばれる、ランドスケープ分析の方法を紹介します。 (a)~ ハイパーパラメータの一般的なランドスケープを見つけるためにデータをクラスタ化します。 (b)-その風景の各部分からいくつかの代表を探索する。 SNEAKは、従来の最先端ハイパーパラメータ最適化アルゴリズム(FLASH、HYPEROPT、OPTUNA、微分進化)よりも高速かつ効果的である。さらに重要なことは、SNEAKが発見した構成は他の方法よりもはるかにエラーが少ないことである。 SNEAKはハイパーパラメータの最も情報性の高い領域を見つけ、それからそれらの領域にジャンプするので、うまく機能すると推測する。その他の方法(風景を反映しない)は、あまり情報のない選択肢を探す時間を無駄にする可能性がある。このことから、以下の結論が導かれる。まず、オープンソースプロジェクトの健全性を予測するために、ランドスケープ分析(例えばsneak)を推奨します。第二に、より一般的には、非常に小さなデータセットから学習する場合、ハイパーパラメータ最適化(SNEAKなど)を使用して学習制御パラメータを選択する。そのスピードと実装の単純さから、SNEAKは他の `data-light' の SE ドメインにも役立つかもしれない。他の研究者が結果を繰り返し、改善したり、反証したりするのを助けるため、我々のスクリプトとデータはGitHubでhttps://github.com/zxcv123456qwe/niSneakで入手できる。

関連論文リスト

Just How Flexible are Neural Networks in Practice? [89.80474583606242]
ニューラルネットワークは、パラメータを持つ少なくとも多くのサンプルを含むトレーニングセットに適合できると広く信じられている。しかし実際には、勾配や正規化子など、柔軟性を制限したトレーニング手順によるソリューションしか見つからない。
論文参考訳（メタデータ） (2024-06-17T12:24:45Z)
Streamlining Software Reviews: Efficient Predictive Modeling with Minimal Examples [11.166755101891402]
本稿では,ソフトウェア解析における新たな課題を提案する。このプロセスでは、中小企業(対象分野の専門家)のパネルがソフトウェア動作の例をレビューし、ソフトウェア操作を改善する方法を推奨します。このレビュープロセスを支援するために、私たちは予測モデルをトレーニングし、いくつかのオラクルが次の例を好む/好まないかを推測する手法を探る。 31のケーススタディでは、そのような予測モデルを12から30のラベルで構築できることが示されている。
論文参考訳（メタデータ） (2024-05-21T16:42:02Z)
Is Hyper-Parameter Optimization Different for Software Analytics? [11.85735565104864]
SEデータはクラス間の"smoother"境界を持つことができる。 SMOOTHIEはより高速に動作し、SEデータでより良い予測を行う。
論文参考訳（メタデータ） (2024-01-17T22:23:29Z)
Evaluating Graph Neural Networks for Link Prediction: Current Pitfalls and New Benchmarking [66.83273589348758]
リンク予測は、グラフのエッジの一部のみに基づいて、目に見えないエッジが存在するかどうかを予測しようとする。近年,この課題にグラフニューラルネットワーク(GNN)を活用すべく,一連の手法が導入されている。これらの新しいモデルの有効性をよりよく評価するために、新しい多様なデータセットも作成されている。
論文参考訳（メタデータ） (2023-06-18T01:58:59Z)
How Predictable Are Large Language Model Capabilities? A Case Study on BIG-bench [52.11481619456093]
実験記録におけるBIGベンチの性能予測問題について検討する。 95%以上のR2$スコアは、実験記録の中に学習可能なパターンが存在することを示している。 BIG-bench Hardのように新しいモデルファミリーを評価できるサブセットが3倍程度小さくなっています。
論文参考訳（メタデータ） (2023-05-24T09:35:34Z)
ASPEST: Bridging the Gap Between Active Learning and Selective Prediction [56.001808843574395]
選択予測は、不確実な場合の予測を棄却する信頼性のあるモデルを学ぶことを目的としている。アクティブラーニングは、最も有意義な例を問うことで、ラベリングの全体、すなわち人間の依存度を下げることを目的としている。本研究では,移動対象領域からより情報のあるサンプルを検索することを目的とした,新たな学習パラダイムである能動的選択予測を導入する。
論文参考訳（メタデータ） (2023-04-07T23:51:07Z)
When Less is More: On the Value of "Co-training" for Semi-Supervised Software Defect Predictors [15.862838836160634]
本論文は714以上のプロジェクトに対して,55の半教師付き学習者に適用する。半教師付き「協調学習法」は他の手法よりもかなりうまく機能することがわかった。
論文参考訳（メタデータ） (2022-11-10T23:39:12Z)
The Early Bird Catches the Worm: Better Early Life Cycle Defect Predictors [23.22715542777918]
240のGitHubプロジェクトでは、そのデータの情報はプロジェクトの初期の部分に向かって行き詰まっている。最初の150のコミットから学んだ欠陥予測モデルは、最先端の代替手段よりもうまく機能する。
論文参考訳（メタデータ） (2021-05-24T03:49:09Z)
How to distribute data across tasks for meta-learning? [59.608652082495624]
タスクごとのデータポイントの最適な数は予算に依存しますが、それは大きな予算のためのユニークな一定の値に収束します。この結果から,データ収集の簡便かつ効率的な手順が示唆された。
論文参考訳（メタデータ） (2021-03-15T15:38:47Z)
Injecting Knowledge in Data-driven Vehicle Trajectory Predictors [82.91398970736391]
車両軌道予測タスクは、一般的に知識駆動とデータ駆動の2つの視点から取り組まれている。本稿では,これら2つの視点を効果的に結合する「現実的残留ブロック」 (RRB) の学習を提案する。提案手法は,残留範囲を限定し,その不確実性を考慮した現実的な予測を行う。
論文参考訳（メタデータ） (2021-03-08T16:03:09Z)
Early Life Cycle Software Defect Prediction. Why? How? [37.48549087467758]
私たちは84ヶ月間、何百もの人気のあるGitHubプロジェクトを分析しました。これらのプロジェクト全体で、欠陥のほとんどはライフサイクルのごく初期段階に発生します。これらの結果が、他の研究者たちに、自分たちの仕事に"単純さ優先"アプローチを採用するよう促すことを願っています。
論文参考訳（メタデータ） (2020-11-26T00:13:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。