論文の概要: Streamlining Software Reviews: Efficient Predictive Modeling with Minimal Examples
- arxiv url: http://arxiv.org/abs/2405.12920v1
- Date: Tue, 21 May 2024 16:42:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-22 12:40:41.969562
- Title: Streamlining Software Reviews: Efficient Predictive Modeling with Minimal Examples
- Title(参考訳): ソフトウェアレビューの合理化 - 最小限の例による効率的な予測モデリング
- Authors: Tim Menzies, Andre Lustosa,
- Abstract要約: 本稿では,ソフトウェア解析における新たな課題を提案する。
このプロセスでは、中小企業(対象分野の専門家)のパネルがソフトウェア動作の例をレビューし、ソフトウェア操作を改善する方法を推奨します。
このレビュープロセスを支援するために、私たちは予測モデルをトレーニングし、いくつかのオラクルが次の例を好む/好まないかを推測する手法を探る。
31のケーススタディでは、そのような予測モデルを12から30のラベルで構築できることが示されている。
- 参考スコア(独自算出の注目度): 11.166755101891402
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper proposes a new challenge problem for software analytics. In the process we shall call "software review", a panel of SMEs (subject matter experts) review examples of software behavior to recommend how to improve that's software's operation. SME time is usually extremely limited so, ideally, this panel can complete this optimization task after looking at just a small number of very informative, examples. To support this review process, we explore methods that train a predictive model to guess if some oracle will like/dislike the next example. Such a predictive model can work with the SMEs to guide them in their exploration of all the examples. Also, after the panelists leave, that model can be used as an oracle in place of the panel (to handle new examples, while the panelists are busy, elsewhere). In 31 case studies (ranging from from high-level decisions about software processes to low-level decisions about how to configure video encoding software), we show that such predictive models can be built using as few as 12 to 30 labels. To the best of our knowledge, this paper's success with only a handful of examples (and no large language model) is unprecedented. In accordance with the principles of open science, we offer all our code and data at https://github.com/timm/ez/tree/Stable-EMSE-paper so that others can repeat/refute/improve these results.
- Abstract(参考訳): 本稿では,ソフトウェア解析における新たな課題を提案する。
このプロセスでは、中小企業(対象分野の専門家)のパネルがソフトウェア動作の例をレビューし、ソフトウェア操作を改善する方法を推奨します。
通常、中小企業の時間は極端に限られているので、理想的には、このパネルはごく少数の非常に有益な例を見て、この最適化タスクを完了することができる。
このレビュープロセスを支援するために、私たちは予測モデルをトレーニングし、いくつかのオラクルが次の例を好む/好まないかを推測する手法を探る。
このような予測モデルは、すべての例を探索する際のガイドとして、中小企業と連携することができる。
また、パネリストが去った後、そのモデルは、パネルの代わりに託宣として使用できる(新しい例を扱うために、パネリストは忙しい他の場所で)。
31のケーススタディ(ソフトウェアプロセスに関する高レベルな決定から、ビデオエンコーディングソフトウェアの設定方法に関する低レベルな決定まで)では、このような予測モデルを12から30のラベルで構築できることを示します。
私たちの知る限りでは、少数の例(そして大きな言語モデルではない)でこの論文の成功は前例がない。
オープンサイエンスの原則に従って、私たちはすべてのコードとデータをhttps://github.com/timm/ez/tree/Stable-EMSE-paperで提供します。
関連論文リスト
- Enhancing Sample Selection by Cutting Mislabeled Easy Examples [62.13094877228772]
トレーニングプロセスの初期段階において,モデルによって正しく予測された誤ラベル例は,特にモデル性能に有害であることを示す。
モデルの後続のトレーニング状態を利用して,早期に同定された自信あるサブセットを再選択するアーリーカットを提案する。
論文 参考訳(メタデータ) (2025-02-12T09:12:45Z) - Can Large Language Models Improve SE Active Learning via Warm-Starts? [11.166755101891402]
アクティブラーナー」は、データの小さなサンプルから学んだモデルを使用して、ラベル付けの次に最も有益な例を見つけます。
本稿では,温暖化開始のためのLarge Language Models (LLM) の利用について検討する。
49のSEタスクにおいて、LLM生成したウォームスタートは低次元および中次元タスクの性能を大幅に改善した。
論文 参考訳(メタデータ) (2024-12-30T19:58:13Z) - Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs [76.43407125275202]
o1のようなモデルは、推論中に人間のような長時間の思考をエミュレートすることができる。
本論文は,これらのモデルにおける過度な考察の課題に関する,最初の包括的研究である。
精度を損なうことなく、過剰思考を緩和し、推論プロセスを合理化するための戦略を提案する。
論文 参考訳(メタデータ) (2024-12-30T18:55:12Z) - Demystifying Language Model Forgetting with Low-rank Example Associations [38.93348195407474]
大規模言語モデル(LLM)は、微調整時に上流データを忘れることに悩まされる。
我々は、言語モデリングや微調整後の命令チューニングの上流の例で発生する忘れを実証的に分析する。
経験的関連性に対して行列補完を伴う未知のタスクを微調整した場合,上流の例を忘れないように予測する。
論文 参考訳(メタデータ) (2024-06-20T06:46:23Z) - Resources for Brewing BEIR: Reproducible Reference Models and an
Official Leaderboard [47.73060223236792]
BEIRは18種類のドメイン/タスクの組み合わせで情報検索モデルを評価するためのベンチマークデータセットである。
我々の研究は、ベンチマークが完全な潜在能力を達成できない2つの欠点に対処しています。
論文 参考訳(メタデータ) (2023-06-13T00:26:18Z) - RetICL: Sequential Retrieval of In-Context Examples with Reinforcement Learning [53.52699766206808]
In-Context Learning (RetICL) のための検索式を提案する。
RetICLは数学用語の問題解決と科学的質問応答のタスクに基づいて評価し,一貫した性能や一致,学習可能なベースラインを示す。
論文 参考訳(メタデータ) (2023-05-23T20:15:56Z) - Toward a Theory of Causation for Interpreting Neural Code Models [49.906221295459275]
本稿では,ニューラルコードモデル(NCM)に特化したポストホック解釈法である$do_code$を紹介する。
$do_code$は、言語指向の説明を可能にする因果推論に基づいている。
その結果,NCMはコード構文の変化に敏感であることが判明した。
論文 参考訳(メタデータ) (2023-02-07T22:56:58Z) - Learning from Very Little Data: On the Value of Landscape Analysis for
Predicting Software Project Health [13.19204187502255]
本報告では、ニSNEAKの健康計画への応用についてのみ検討する。しかしながら、この手法が幅広い問題に適用されるのを防ぐため、原則として何も見つからない。
論文 参考訳(メタデータ) (2023-01-16T19:27:16Z) - Learning from Self-Sampled Correct and Partially-Correct Programs [96.66452896657991]
そこで本研究では,モデルが学習中にサンプリングを行い,自己サンプリングされた完全正当プログラムと部分正当プログラムの両方から学習することを提案する。
自己サンプリング型プログラムと部分修正型プログラムを併用することで,学習とサンプリングプロセスのガイドに役立てることができることを示す。
提案手法は,MLEを用いた単一の参照プログラムからの学習と比較して,パス@kの性能を3.1%から12.3%向上させる。
論文 参考訳(メタデータ) (2022-05-28T03:31:07Z) - Models, Pixels, and Rewards: Evaluating Design Trade-offs in Visual
Model-Based Reinforcement Learning [109.74041512359476]
視覚的MBRLアルゴリズムにおける予測モデルの設計決定について検討する。
潜在空間の使用など、しばしば重要と見なされる設計上の決定は、タスクのパフォーマンスにはほとんど影響しないことが分かりました。
我々は,この現象が探索とどのように関係しているか,および標準ベンチマークにおける下位スコーリングモデルのいくつかが,同じトレーニングデータでトレーニングされた場合のベストパフォーマンスモデルと同等の性能を発揮するかを示す。
論文 参考訳(メタデータ) (2020-12-08T18:03:21Z) - Extending the statistical software package Engine for Likelihood-Free
Inference [0.0]
この論文は、ソフトウェアパッケージ Engine for Likelihood-Free Inference (ELFI) におけるRobust optimisation Monte Carlo (ROMC) メソッドの実装に焦点を当てている。
我々の実装は、シミュレーターベースのモデルで推論を実行したい実践者に対して、堅牢で効率的なソリューションを提供します。
論文 参考訳(メタデータ) (2020-11-08T13:22:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。