論文の概要: An Exploratory Study on Just-in-Time Multi-Programming-Language Bug Prediction
- arxiv url: http://arxiv.org/abs/2407.10906v1
- Date: Mon, 15 Jul 2024 17:06:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 14:10:37.703235
- Title: An Exploratory Study on Just-in-Time Multi-Programming-Language Bug Prediction
- Title(参考訳): Just-in-Time Multi-Programming-Language Bug予測に関する探索的研究
- Authors: Zengyang Li, Jiabao Ji, Peng Liang, Ran Mo, Hui Liu,
- Abstract要約: 本研究の目的は,ジャスト・イン・タイム (JIT) MPLB 予測モデルの構築である。
我々は18のApache MPLプロジェクトに基づいて構築したデータセットを用いて、プロジェクト内およびプロジェクト間コンテキストでモデルを評価する。
- 参考スコア(独自算出の注目度): 7.3648815418381135
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Context: An increasing number of software systems are written in multiple programming languages (PLs), which are called multi-programming-language (MPL) systems. MPL bugs (MPLBs) refers to the bugs whose resolution involves multiple PLs. Despite high complexity of MPLB resolution, there lacks MPLB prediction methods. Objective: This work aims to construct just-in-time (JIT) MPLB prediction models with selected prediction metrics, analyze the significance of the metrics, and then evaluate the performance of cross-project JIT MPLB prediction. Method: We develop JIT MPLB prediction models with the selected metrics using machine learning algorithms and evaluate the models in within-project and cross-project contexts with our constructed dataset based on 18 Apache MPL projects. Results: Random Forest is appropriate for JIT MPLB prediction. Changed LOC of all files, added LOC of all files, and the total number of lines of all files of the project currently are the most crucial metrics in JIT MPLB prediction. The prediction models can be simplified using a few top-ranked metrics. Training on the dataset from multiple projects can yield significantly higher AUC than training on the dataset from a single project for cross-project JIT MPLB prediction. Conclusions: JIT MPLB prediction models can be constructed with the selected set of metrics, which can be reduced to build simplified JIT MPLB prediction models, and cross-project JIT MPLB prediction is feasible.
- Abstract(参考訳): コンテキスト: マルチプログラミング言語(MPL)システムと呼ばれる複数のプログラミング言語(PL)で記述されるソフトウェアシステムが増えている。
MPLバグ(MPLBs)は、複数のPLを含むバグを指す。
MPLBの解像度は複雑だが、MPLBの予測方法が欠けている。
目的: 本研究の目的は, ジャスト・イン・タイム (JIT) MPLB 予測モデルを選択した予測指標を用いて構築し, メトリクスの意義を分析し, プロジェクト横断 MPLB 予測の性能を評価することである。
方法: 機械学習アルゴリズムを用いて選択したメトリクスを用いたJIT MPLB予測モデルを開発し、18のApache MPLプロジェクトに基づいて構築したデータセットを用いて、プロジェクト内およびプロジェクト間コンテキストにおけるモデルの評価を行う。
結果: Random Forest は JIT MPLB 予測に適しています。
すべてのファイルのLOCを変更し、すべてのファイルのLOCを追加し、現在、プロジェクトの全ファイルの行数はJIT MPLB予測において最も重要な指標である。
予測モデルは、いくつかのトップランクのメトリクスを使用して単純化することができる。
複数のプロジェクトからのデータセットのトレーニングは、プロジェクト間のJIT MPLB予測のために単一のプロジェクトからのデータセットのトレーニングよりもはるかに高いAUCが得られる。
結論: JIT MPLB予測モデルは、選択されたメトリクスセットで構築することができ、単純化されたJIT MPLB予測モデルを構築するために削減することができる。
関連論文リスト
- LLM-Select: Feature Selection with Large Language Models [64.5099482021597]
大規模言語モデル(LLM)は、データサイエンスの標準ツールに匹敵するパフォーマンスで、最も予測可能な機能を選択することができる。
以上の結果から,LSMはトレーニングに最適な機能を選択するだけでなく,そもそもどの機能を収集すべきかを判断する上でも有用である可能性が示唆された。
論文 参考訳(メタデータ) (2024-07-02T22:23:40Z) - Evaluating the Generalization Ability of Quantized LLMs: Benchmark, Analysis, and Toolbox [46.39670209441478]
大規模言語モデル(LLM)は、複数のシナリオでエキサイティングな進歩を見せている。
メモリフットプリントと推論コストを削減する効果的な方法として、量子化は低ビット幅での性能劣化にも直面する。
この研究は、評価システム、詳細な分析、一般的なツールボックスを含む、この研究トピックのための包括的なベンチマークスイートを提供する。
論文 参考訳(メタデータ) (2024-06-15T12:02:14Z) - LLMC: Benchmarking Large Language Model Quantization with a Versatile Compression Toolkit [55.73370804397226]
鍵圧縮技術である量子化は、大きな言語モデルを圧縮し、加速することにより、これらの要求を効果的に軽減することができる。
本稿では,プラグアンドプレイ圧縮ツールキットであるLLMCについて,量子化の影響を公平かつ体系的に検討する。
論文 参考訳(メタデータ) (2024-05-09T11:49:05Z) - MPIrigen: MPI Code Generation through Domain-Specific Language Models [3.5352856644774806]
本研究ではまず,MPIに基づく並列プログラム生成における最先端言語モデルの性能について検討する。
HPCorpusMPI上でMonoCoderを微調整することでMPIベースのプログラム生成のダウンストリームタスクを導入する。
この調整されたソリューションの成功は、並列計算コード生成のための最適化言語モデルにおいて、ドメイン固有の微調整の重要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-02-14T12:24:21Z) - PySCIPOpt-ML: Embedding Trained Machine Learning Models into Mixed-Integer Programs [0.7661676407098753]
機械学習予測器を最適化問題に組み込むオープンソースツールであるPySCIPOpt-MLを紹介した。
PySCIPOpt-MLは、広く使われているMLフレームワークとオープンソースのMIPソルバと対話することによって、ML制約を最適化問題に簡単に統合する方法を提供する。
本稿では,SurrogateLIB上での計算結果について述べる。
論文 参考訳(メタデータ) (2023-12-13T11:36:55Z) - LLM Performance Predictors are good initializers for Architecture Search [30.862329031678232]
大規模言語モデル(LLM)は、幅広いNLPタスクの解決において重要な要素となっている。
本研究では,LLMを用いて性能予測器(PP)を構築する新しいユースケースについて検討する。
PPプロンプト (LLM-PP) を用いた GPT-4 は,SOTA との平均絶対誤差でアーキテクチャの性能を予測できることを示す。
また、HS-NASはベンチマーク間でSOTA NASと非常によく似た性能を示し、検索時間を約50%削減し、場合によってはレイテンシ、GFLOP、モデルサイズを改善している。
論文 参考訳(メタデータ) (2023-10-25T15:34:30Z) - Enhancing Subtask Performance of Multi-modal Large Language Model [12.033301861738952]
MLLM(Multi-modal Large Language Model)は、マルチモーダルデータを扱う能力を持つLarge Language Model(LLM)から拡張されたモデルである。
本研究では、異なる評価手法に基づいて、同一サブタスクに焦点を当てた複数の事前学習モデルを選択する。
同じサブタスクに対する複数の事前学習モデルの結果をLLMを用いて比較し、そのサブタスクの結果として最もよい結果を選択する。
論文 参考訳(メタデータ) (2023-08-31T05:37:21Z) - MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。
各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。
ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。
品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文 参考訳(メタデータ) (2023-08-25T01:41:04Z) - Evaluating and Explaining Large Language Models for Code Using Syntactic
Structures [74.93762031957883]
本稿では,コード用大規模言語モデルに特有の説明可能性手法であるASTxplainerを紹介する。
その中核にあるASTxplainerは、トークン予測をASTノードに整合させる自動メソッドを提供する。
私たちは、最も人気のあるGitHubプロジェクトのキュレートデータセットを使用して、コード用の12の人気のあるLLMに対して、実証的な評価を行います。
論文 参考訳(メタデータ) (2023-08-07T18:50:57Z) - Memory-Based Optimization Methods for Model-Agnostic Meta-Learning and
Personalized Federated Learning [56.17603785248675]
モデルに依存しないメタラーニング (MAML) が人気のある研究分野となっている。
既存のMAMLアルゴリズムは、イテレーション毎にメタモデルを更新するためにいくつかのタスクとデータポイントをサンプリングすることで、エピソードのアイデアに依存している。
本稿では,MAMLのメモリベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-09T08:47:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。