論文の概要: Predicting post-release defects with knowledge units (KUs) of programming languages: an empirical study
- arxiv url: http://arxiv.org/abs/2412.02907v1
- Date: Tue, 03 Dec 2024 23:22:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-05 15:09:27.839783
- Title: Predicting post-release defects with knowledge units (KUs) of programming languages: an empirical study
- Title(参考訳): プログラミング言語の知識単位(KU)によるリリース後の欠陥予測 : 実証的研究
- Authors: Md Ahasanuzzaman, Gustavo A. Oliva, Ahmed E. Hassan, Zhen Ming, Jiang,
- Abstract要約: 本稿では,Javaプログラミング言語の知識単位(KU)の使用に関する実証的研究を報告する。
KUは、あるプログラミング言語の1つ以上のビルディングブロックによって提供される重要な機能の集合である。
8つのJavaシステムの28リリースをカバーする欠陥データセットを使用して、ソースコードを分析し、従来のコードメトリクスとKUインシデントの両方を抽出します。
- 参考スコア(独自算出の注目度): 25.96111422428881
- License:
- Abstract: Traditional code metrics (product and process metrics) have been widely used in defect prediction. However, these metrics have an inherent limitation: they do not reveal system traits that are tied to certain building blocks of a given programming language. Taking these building blocks of a programming language into account can lead to further insights about a software system and improve defect prediction. To fill this gap, this paper reports an empirical study on the usage of knowledge units (KUs) of the Java programming language. A KU is a cohesive set of key capabilities that are offered by one or more building blocks of a given programming language. This study aims to understand whether we can obtain richer results in defect prediction when using KUs in combination with traditional code metrics. Using a defect dataset covering 28 releases of 8 Java systems, we analyze source code to extract both traditional code metrics and KU incidences. We find empirical evidence that KUs are different and complementary to traditional metrics, thus indeed offering a new lens through which software systems can be analyzed. We build a defect prediction model called KUCLS, which leverages the KU-based features. Our KUCLS achieves a median AUC of 0.82 and significantly outperforms the CC_PROD (model built with product metrics). The normalized AUC improvement of the KUCLS over CC_PROD ranges from 5.1% to 28.9% across the studied releases. Combining KUs with traditional metrics in KUCLS_CC further improves performance, with AUC gains of 4.9% to 33.3% over CC and 5.6% to 59.9% over KUCLS. Finally, we develop a cost-effective model that significantly outperforms the CC. These encouraging results can be helpful to researchers who wish to further study the aspect of feature engineering and building models for defect prediction.
- Abstract(参考訳): 従来のコードメトリクス(製品とプロセスのメトリクス)は、欠陥予測に広く使われてきました。
しかし、これらのメトリクスには固有の制限があり、特定のプログラミング言語の特定の構成要素に結びついているシステムの特性を明らかにしない。
プログラミング言語のこれらの構成要素を考慮に入れれば、ソフトウェアシステムに関するさらなる洞察と欠陥予測の改善につながる可能性がある。
このギャップを埋めるために,本論文では,Javaプログラミング言語の知識単位(KU)の使用に関する実証的研究を報告する。
KUは、あるプログラミング言語の1つ以上のビルディングブロックによって提供される重要な機能の集合である。
本研究の目的は、従来のコードメトリクスと組み合わせてKUを使用する場合、よりリッチな欠陥予測結果が得られるかどうかを理解することである。
8つのJavaシステムの28リリースをカバーする欠陥データセットを使用して、ソースコードを分析し、従来のコードメトリクスとKUインシデントの両方を抽出します。
私たちは、KUが従来のメトリクスと異なり、補完的なものであるという実証的な証拠を見つけました。
KUCLSと呼ばれる欠陥予測モデルを構築し、KUベースの特徴を活用している。
我々のKUCLSは0.82の中央値AUCを達成し、CC_PROD(製品メトリクスで構築されたモデル)を著しく上回っている。
CC_PRODに対するKUCLSの正常化AUCの改善は、研究リリースの5.1%から28.9%の範囲である。
KUCLS_CCにおける従来の測定値と組み合わせることで、AUCはCCで4.9%、CCで33.3%、KUCLSで5.6%、59.9%向上した。
最後に,CCを著しく上回る費用対効果モデルを構築した。
これらの奨励的な結果は、機能工学の側面をさらに研究し、欠陥予測のためのモデルを構築したい研究者に役立ちます。
関連論文リスト
- Predicting long time contributors with knowledge units of programming languages: an empirical study [3.6840775431698893]
本稿では,LTCを予測するために,Javaプログラミング言語の知識単位(KU)の使用に関する実証的研究を報告する。
KUは、あるプログラミング言語の1つ以上のビルディングブロックによって提供される重要な機能の集合である。
我々は、KULTCと呼ばれる予測モデルを構築し、KUベースの特徴を5つの異なる次元に沿って活用する。
論文 参考訳(メタデータ) (2024-05-22T17:28:06Z) - Masked Thought: Simply Masking Partial Reasoning Steps Can Improve Mathematical Reasoning Learning of Language Models [102.72940700598055]
推論タスクでは、小さなエラーでも不正確な結果にカスケードすることができる。
入力の摂動に頼らず、外部リソースの導入を避ける手法を開発した。
私たちのトレーニングアプローチでは、思考の連鎖の中で特定のトークンをランダムにマスクします。
論文 参考訳(メタデータ) (2024-03-04T16:21:54Z) - Method-Level Bug Severity Prediction using Source Code Metrics and LLMs [0.628122931748758]
本稿では,ソースコードのメトリクス,大言語モデル(LLM)を用いたソースコード表現,およびバグ重大度ラベルの予測におけるそれらの組み合わせについて検討する。
以上の結果から,決定木モデルとランダムフォレストモデルは,いくつかの評価指標に関して,他のモデルよりも優れていたことが示唆された。
CodeBERTの微調整により、いくつかの評価指標の29%-140%の範囲でバグの重大度予測が大幅に改善される。
論文 参考訳(メタデータ) (2023-09-06T14:38:07Z) - KGA: A General Machine Unlearning Framework Based on Knowledge Gap
Alignment [51.15802100354848]
我々は,忘れやすさを誘発する一般学習フレームワークKGAを提案する。
大規模なデータセットの実験は、KGAがベースラインよりも包括的な改善をもたらすことを示している。
論文 参考訳(メタデータ) (2023-05-11T02:44:29Z) - PEOPL: Characterizing Privately Encoded Open Datasets with Public Labels [59.66777287810985]
プライバシとユーティリティのための情報理論スコアを導入し、不誠実なユーザの平均パフォーマンスを定量化する。
次に、ランダムなディープニューラルネットワークの使用を動機付ける符号化スキームのファミリーを構築する際のプリミティブを理論的に特徴づける。
論文 参考訳(メタデータ) (2023-03-31T18:03:53Z) - Cross Version Defect Prediction with Class Dependency Embeddings [17.110933073074584]
欠陥の予測にはクラス依存性ネットワーク(CDN)を使用し、静的コードメトリクスと組み合わせています。
本手法では,手動でメトリクスを構築することなくCDN情報を活用するために,ネットワーク埋め込み技術を用いている。
論文 参考訳(メタデータ) (2022-12-29T18:24:39Z) - Great Truths are Always Simple: A Rather Simple Knowledge Encoder for
Enhancing the Commonsense Reasoning Capacity of Pre-Trained Models [89.98762327725112]
自然言語における常識推論は、人工知能システムの望ましい能力である。
複雑なコモンセンス推論タスクを解決するための典型的な解決策は、知識対応グラフニューラルネットワーク(GNN)エンコーダで事前訓練された言語モデル(PTM)を強化することである。
有効性にもかかわらず、これらのアプローチは重いアーキテクチャ上に構築されており、外部知識リソースがPTMの推論能力をどのように改善するかを明確に説明できない。
論文 参考訳(メタデータ) (2022-05-04T01:27:36Z) - Precise Learning of Source Code Contextual Semantics via Hierarchical
Dependence Structure and Graph Attention Networks [28.212889828892664]
階層的な依存関係を組み込んだ新しいソースコードモデルを提案する。
本稿では,基本ブロックの構文構造,すなわち対応するASTをソースコードモデルに導入し,十分な情報を提供する。
その結果,本モデルではパラメータのスケールを50%削減し,プログラム分類タスクの精度を4%向上させることができた。
論文 参考訳(メタデータ) (2021-11-20T04:03:42Z) - Graph-Based Machine Learning Improves Just-in-Time Defect Prediction [0.38073142980732994]
グラフベースの機械学習を使用して、Just-In-Time(JIT)の欠陥予測を改善します。
私たちの最高のモデルでは、コード変更がF1スコアが最大77.55%の欠陥につながるかどうかを予測できます。
これは、最先端のJIT欠陥予測よりも152%高いF1スコアと3%高いMCCを示している。
論文 参考訳(メタデータ) (2021-10-11T16:00:02Z) - Re-Assessing the "Classify and Count" Quantification Method [88.60021378715636]
分類とカウント(CC)は、しばしば偏りのある推定器である。
以前の作業では、CCの適切に最適化されたバージョンを適切に使用できなかった。
最先端の手法に劣っているものの、ほぼ最先端の精度を実現している、と我々は主張する。
論文 参考訳(メタデータ) (2020-11-04T21:47:39Z) - Provably Robust Metric Learning [98.50580215125142]
既存のメトリクス学習アルゴリズムは、ユークリッド距離よりもロバストなメトリクスをもたらすことを示す。
対向摂動に対して頑健なマハラノビス距離を求めるための新しい距離学習アルゴリズムを提案する。
実験結果から,提案アルゴリズムは証明済みの堅牢な誤りと経験的堅牢な誤りの両方を改善した。
論文 参考訳(メタデータ) (2020-06-12T09:17:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。