Fugu-MT 論文翻訳(概要): Streamlining Software Reviews: Efficient Predictive Modeling with Minimal Examples

論文の概要: Streamlining Software Reviews: Efficient Predictive Modeling with Minimal Examples

arxiv url: http://arxiv.org/abs/2405.12920v1
Date: Tue, 21 May 2024 16:42:02 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-22 12:40:41.969562
Title: Streamlining Software Reviews: Efficient Predictive Modeling with Minimal Examples
Title（参考訳）: ソフトウェアレビューの合理化 - 最小限の例による効率的な予測モデリング
Authors: Tim Menzies, Andre Lustosa,
Abstract要約: 本稿では,ソフトウェア解析における新たな課題を提案する。このプロセスでは、中小企業(対象分野の専門家)のパネルがソフトウェア動作の例をレビューし、ソフトウェア操作を改善する方法を推奨します。このレビュープロセスを支援するために、私たちは予測モデルをトレーニングし、いくつかのオラクルが次の例を好む/好まないかを推測する手法を探る。 31のケーススタディでは、そのような予測モデルを12から30のラベルで構築できることが示されている。
参考スコア（独自算出の注目度）: 11.166755101891402
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper proposes a new challenge problem for software analytics. In the process we shall call "software review", a panel of SMEs (subject matter experts) review examples of software behavior to recommend how to improve that's software's operation. SME time is usually extremely limited so, ideally, this panel can complete this optimization task after looking at just a small number of very informative, examples. To support this review process, we explore methods that train a predictive model to guess if some oracle will like/dislike the next example. Such a predictive model can work with the SMEs to guide them in their exploration of all the examples. Also, after the panelists leave, that model can be used as an oracle in place of the panel (to handle new examples, while the panelists are busy, elsewhere). In 31 case studies (ranging from from high-level decisions about software processes to low-level decisions about how to configure video encoding software), we show that such predictive models can be built using as few as 12 to 30 labels. To the best of our knowledge, this paper's success with only a handful of examples (and no large language model) is unprecedented. In accordance with the principles of open science, we offer all our code and data at https://github.com/timm/ez/tree/Stable-EMSE-paper so that others can repeat/refute/improve these results.
Abstract（参考訳）: 本稿では,ソフトウェア解析における新たな課題を提案する。このプロセスでは、中小企業(対象分野の専門家)のパネルがソフトウェア動作の例をレビューし、ソフトウェア操作を改善する方法を推奨します。通常、中小企業の時間は極端に限られているので、理想的には、このパネルはごく少数の非常に有益な例を見て、この最適化タスクを完了することができる。このレビュープロセスを支援するために、私たちは予測モデルをトレーニングし、いくつかのオラクルが次の例を好む/好まないかを推測する手法を探る。このような予測モデルは、すべての例を探索する際のガイドとして、中小企業と連携することができる。また、パネリストが去った後、そのモデルは、パネルの代わりに託宣として使用できる(新しい例を扱うために、パネリストは忙しい他の場所で)。 31のケーススタディ(ソフトウェアプロセスに関する高レベルな決定から、ビデオエンコーディングソフトウェアの設定方法に関する低レベルな決定まで)では、このような予測モデルを12から30のラベルで構築できることを示します。私たちの知る限りでは、少数の例(そして大きな言語モデルではない)でこの論文の成功は前例がない。オープンサイエンスの原則に従って、私たちはすべてのコードとデータをhttps://github.com/timm/ez/tree/Stable-EMSE-paperで提供します。

関連論文リスト

Fine-tuning for Better Few Shot Prompting: An Empirical Comparison for Short Answer Grading [0.5825410941577593]
ファインチューニング手法は歴史的に多くのユーザにとってアクセス不能な大規模計算クラスタを必要としてきた。 OpenAIの微調整サービスのような新しいクローズドモデルアプローチは、100の例で結果をもたらす。これら2つの微調整手法の評価を行い, 自動短時間解答グレーディングのための数ショットプロンプトとの相互作用を測定した。
論文参考訳（メタデータ） (2025-08-06T03:52:55Z)
Satori-SWE: Evolutionary Test-Time Scaling for Sample-Efficient Software Engineering [51.7496756448709]
言語モデル(LM)は、コーディングベンチマークではうまく機能するが、現実のソフトウェア工学のタスクでは苦労する。既存のアプローチは、高品質なデータによる教師付き微調整に依存している。本研究では, 生成を進化過程として扱うサンプル効率の高い手法であるテスト時間スケーリング(EvoScale)を提案する。
論文参考訳（メタデータ） (2025-05-29T16:15:36Z)
Enhancing Sample Selection by Cutting Mislabeled Easy Examples [62.13094877228772]
トレーニングプロセスの初期段階において,モデルによって正しく予測された誤ラベル例は,特にモデル性能に有害であることを示す。モデルの後続のトレーニング状態を利用して,早期に同定された自信あるサブセットを再選択するアーリーカットを提案する。
論文参考訳（メタデータ） (2025-02-12T09:12:45Z)
Can Large Language Models Improve SE Active Learning via Warm-Starts? [11.166755101891402]
アクティブラーナー」は、データの小さなサンプルから学んだモデルを使用して、ラベル付けの次に最も有益な例を見つけます。本稿では,温暖化開始のためのLarge Language Models (LLM) の利用について検討する。 49のSEタスクにおいて、LLM生成したウォームスタートは低次元および中次元タスクの性能を大幅に改善した。
論文参考訳（メタデータ） (2024-12-30T19:58:13Z)
Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs [76.43407125275202]
o1のようなモデルは、推論中に人間のような長時間の思考をエミュレートすることができる。本論文は,これらのモデルにおける過度な考察の課題に関する,最初の包括的研究である。精度を損なうことなく、過剰思考を緩和し、推論プロセスを合理化するための戦略を提案する。
論文参考訳（メタデータ） (2024-12-30T18:55:12Z)
Demystifying Language Model Forgetting with Low-rank Example Associations [38.93348195407474]
大規模言語モデル(LLM)は、微調整時に上流データを忘れることに悩まされる。我々は、言語モデリングや微調整後の命令チューニングの上流の例で発生する忘れを実証的に分析する。
論文参考訳（メタデータ） (2024-06-20T06:46:23Z)
Language models are weak learners [71.33837923104808]
本研究では,プロンプトベースの大規模言語モデルは弱い学習者として効果的に動作可能であることを示す。これらのモデルをブースティングアプローチに組み込むことで、モデル内の知識を活用して、従来のツリーベースのブースティングよりも優れています。結果は、プロンプトベースのLLMが、少数の学習者だけでなく、より大きな機械学習パイプラインのコンポーネントとして機能する可能性を示している。
論文参考訳（メタデータ） (2023-06-25T02:39:19Z)
Resources for Brewing BEIR: Reproducible Reference Models and an Official Leaderboard [47.73060223236792]
BEIRは18種類のドメイン/タスクの組み合わせで情報検索モデルを評価するためのベンチマークデータセットである。我々の研究は、ベンチマークが完全な潜在能力を達成できない2つの欠点に対処しています。
論文参考訳（メタデータ） (2023-06-13T00:26:18Z)
RetICL: Sequential Retrieval of In-Context Examples with Reinforcement Learning [53.52699766206808]
In-Context Learning (RetICL) のための検索式を提案する。 RetICLは数学用語の問題解決と科学的質問応答のタスクに基づいて評価し,一貫した性能や一致,学習可能なベースラインを示す。
論文参考訳（メタデータ） (2023-05-23T20:15:56Z)
Toward a Theory of Causation for Interpreting Neural Code Models [49.906221295459275]
本稿では,ニューラルコードモデル(NCM)に特化したポストホック解釈法である$do_code$を紹介する。 $do_code$は、言語指向の説明を可能にする因果推論に基づいている。その結果,NCMはコード構文の変化に敏感であることが判明した。
論文参考訳（メタデータ） (2023-02-07T22:56:58Z)
Learning from Very Little Data: On the Value of Landscape Analysis for Predicting Software Project Health [13.19204187502255]
本報告では、ニSNEAKの健康計画への応用についてのみ検討する。しかしながら、この手法が幅広い問題に適用されるのを防ぐため、原則として何も見つからない。
論文参考訳（メタデータ） (2023-01-16T19:27:16Z)
Learning from Self-Sampled Correct and Partially-Correct Programs [96.66452896657991]
そこで本研究では,モデルが学習中にサンプリングを行い,自己サンプリングされた完全正当プログラムと部分正当プログラムの両方から学習することを提案する。自己サンプリング型プログラムと部分修正型プログラムを併用することで,学習とサンプリングプロセスのガイドに役立てることができることを示す。提案手法は,MLEを用いた単一の参照プログラムからの学習と比較して,パス@kの性能を3.1%から12.3%向上させる。
論文参考訳（メタデータ） (2022-05-28T03:31:07Z)
When in Doubt, Summon the Titans: Efficient Inference with Large Models [80.2673230098021]
本稿では,大規模モデルのモデル化の利点を実現する蒸留に基づく2段階の枠組みを提案する。簡単な"例のサブセットでのみ正確な予測を行うために、私たちは、大きな教師モデルを使用して、軽量な学生モデルをガイドします。提案した蒸留法は, 簡単な事例のみを扱うため, 学生規模でより積極的なトレードオフが可能であり, 推論の償却コストを低減できる。
論文参考訳（メタデータ） (2021-10-19T22:56:49Z)
Bayes DistNet -- A Robust Neural Network for Algorithm Runtime Distribution Predictions [1.8275108630751844]
ランダム化アルゴリズムは制約満足度問題 (CSP) やブール満足度問題 (SAT) の多くの最先端の解法で用いられている。従来の最先端の手法は、入力インスタンスが従う固定パラメトリック分布を直接予測しようとする。この新モデルは,低観測環境下での堅牢な予測性能と,検閲された観測処理を実現する。
論文参考訳（メタデータ） (2020-12-14T01:15:39Z)
Models, Pixels, and Rewards: Evaluating Design Trade-offs in Visual Model-Based Reinforcement Learning [109.74041512359476]
視覚的MBRLアルゴリズムにおける予測モデルの設計決定について検討する。潜在空間の使用など、しばしば重要と見なされる設計上の決定は、タスクのパフォーマンスにはほとんど影響しないことが分かりました。我々は,この現象が探索とどのように関係しているか,および標準ベンチマークにおける下位スコーリングモデルのいくつかが,同じトレーニングデータでトレーニングされた場合のベストパフォーマンスモデルと同等の性能を発揮するかを示す。
論文参考訳（メタデータ） (2020-12-08T18:03:21Z)
Extending the statistical software package Engine for Likelihood-Free Inference [0.0]
この論文は、ソフトウェアパッケージ Engine for Likelihood-Free Inference (ELFI) におけるRobust optimisation Monte Carlo (ROMC) メソッドの実装に焦点を当てている。我々の実装は、シミュレーターベースのモデルで推論を実行したい実践者に対して、堅牢で効率的なソリューションを提供します。
論文参考訳（メタデータ） (2020-11-08T13:22:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。