論文の概要: Predicting post-release defects with knowledge units (KUs) of programming languages: an empirical study
- arxiv url: http://arxiv.org/abs/2412.02907v2
- Date: Mon, 03 Mar 2025 18:26:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:11:11.556945
- Title: Predicting post-release defects with knowledge units (KUs) of programming languages: an empirical study
- Title(参考訳): プログラミング言語の知識単位(KU)によるリリース後の欠陥予測 : 実証的研究
- Authors: Md Ahasanuzzaman, Gustavo A. Oliva, Ahmed E. Hassan, Zhen Ming, Jiang,
- Abstract要約: 欠陥予測はソフトウェアエンジニアリングにおいて重要な役割を担い、開発者は欠陥が原因のコードを識別し、ソフトウェアの品質を改善することができる。
このギャップに対処するため,ソフトウェアシステムの解析と欠陥予測のための新しい機能セットとして,プログラミング言語の知識単位(KU)を導入する。
KUは、あるプログラミング言語の1つ以上のビルディングブロックによって提供される重要な機能の集合である。
- 参考スコア(独自算出の注目度): 25.96111422428881
- License:
- Abstract: Defect prediction plays a crucial role in software engineering, enabling developers to identify defect-prone code and improve software quality. While extensive research has focused on refining machine learning models for defect prediction, the exploration of new data sources for feature engineering remains limited. Defect prediction models primarily rely on traditional metrics such as product, process, and code ownership metrics, which, while effective, do not capture language-specific traits that may influence defect proneness. To address this gap, we introduce Knowledge Units (KUs) of programming languages as a novel feature set for analyzing software systems and defect prediction. A KU is a cohesive set of key capabilities that are offered by one or more building blocks of a given programming language. We conduct an empirical study leveraging 28 KUs that are derived from Java certification exams and compare their effectiveness against traditional metrics in predicting post-release defects across 8 well-maintained Java software systems. Our results show that KUs provide significant predictive power, achieving a median AUC of 0.82, outperforming individual group of traditional metric-based models. Among KU features, Method & Encapsulation, Inheritance, and Exception Handling emerge as the most influential predictors. Furthermore, combining KUs with traditional metrics enhances prediction performance, yielding a median AUC of 0.89. We also introduce a cost-effective model using only 10 features, which maintains strong predictive performance while reducing feature engineering costs. Our findings demonstrate the value of KUs in predicting post-release defects, offering a complementary perspective to traditional metrics. This study can be helpful to researchers who wish to analyze software systems from a perspective that is complementary to that of traditional metrics.
- Abstract(参考訳): 欠陥予測はソフトウェアエンジニアリングにおいて重要な役割を担い、開発者は欠陥が原因のコードを識別し、ソフトウェアの品質を改善することができる。
欠陥予測のための機械学習モデルの精細化に焦点が当てられているが、機能エンジニアリングのための新しいデータソースの探索は依然として限られている。
欠陥予測モデルは、主に製品、プロセス、コードオーナシップのメトリクスのような伝統的なメトリクスに依存します。
このギャップに対処するため,ソフトウェアシステムの解析と欠陥予測のための新しい機能セットとして,プログラミング言語の知識単位(KU)を導入する。
KUは、あるプログラミング言語の1つ以上のビルディングブロックによって提供される重要な機能の集合である。
我々は、Java認定試験に由来する28のKUを活用して実証的研究を行い、その効果を8つの保守されたJavaソフトウェアシステム間でリリース後の欠陥を予測する従来のメトリクスと比較する。
以上の結果から,KUsは平均AUC0.82を達成し,従来の計量モデルよりも優れた予測能力を有することが示された。
KU機能の中では、最も影響力のある予測器として、メソッドとカプセル化、継承、例外ハンドリングが登場している。
さらに、KUと従来の測定値を組み合わせることで予測性能が向上し、中央値のAUCは0.89となる。
また,機能開発コストを削減しつつ,高い予測性能を維持した10機能のみを使用したコスト効率モデルも導入する。
本研究は,KUsがリリース後の欠陥を予測することの価値を示し,従来の指標を補完する視点を提供する。
この研究は,従来のメトリクスと相補的な観点からソフトウェアシステムを分析したい研究者にとって有用である。
関連論文リスト
- Predicting long time contributors with knowledge units of programming languages: an empirical study [3.6840775431698893]
本稿では,LTCを予測するために,Javaプログラミング言語の知識単位(KU)の使用に関する実証的研究を報告する。
KUは、あるプログラミング言語の1つ以上のビルディングブロックによって提供される重要な機能の集合である。
我々は、KULTCと呼ばれる予測モデルを構築し、KUベースの特徴を5つの異なる次元に沿って活用する。
論文 参考訳(メタデータ) (2024-05-22T17:28:06Z) - Masked Thought: Simply Masking Partial Reasoning Steps Can Improve Mathematical Reasoning Learning of Language Models [102.72940700598055]
推論タスクでは、小さなエラーでも不正確な結果にカスケードすることができる。
入力の摂動に頼らず、外部リソースの導入を避ける手法を開発した。
私たちのトレーニングアプローチでは、思考の連鎖の中で特定のトークンをランダムにマスクします。
論文 参考訳(メタデータ) (2024-03-04T16:21:54Z) - Method-Level Bug Severity Prediction using Source Code Metrics and LLMs [0.628122931748758]
本稿では,ソースコードのメトリクス,大言語モデル(LLM)を用いたソースコード表現,およびバグ重大度ラベルの予測におけるそれらの組み合わせについて検討する。
以上の結果から,決定木モデルとランダムフォレストモデルは,いくつかの評価指標に関して,他のモデルよりも優れていたことが示唆された。
CodeBERTの微調整により、いくつかの評価指標の29%-140%の範囲でバグの重大度予測が大幅に改善される。
論文 参考訳(メタデータ) (2023-09-06T14:38:07Z) - KGA: A General Machine Unlearning Framework Based on Knowledge Gap
Alignment [51.15802100354848]
我々は,忘れやすさを誘発する一般学習フレームワークKGAを提案する。
大規模なデータセットの実験は、KGAがベースラインよりも包括的な改善をもたらすことを示している。
論文 参考訳(メタデータ) (2023-05-11T02:44:29Z) - PEOPL: Characterizing Privately Encoded Open Datasets with Public Labels [59.66777287810985]
プライバシとユーティリティのための情報理論スコアを導入し、不誠実なユーザの平均パフォーマンスを定量化する。
次に、ランダムなディープニューラルネットワークの使用を動機付ける符号化スキームのファミリーを構築する際のプリミティブを理論的に特徴づける。
論文 参考訳(メタデータ) (2023-03-31T18:03:53Z) - Cross Version Defect Prediction with Class Dependency Embeddings [17.110933073074584]
欠陥の予測にはクラス依存性ネットワーク(CDN)を使用し、静的コードメトリクスと組み合わせています。
本手法では,手動でメトリクスを構築することなくCDN情報を活用するために,ネットワーク埋め込み技術を用いている。
論文 参考訳(メタデータ) (2022-12-29T18:24:39Z) - Great Truths are Always Simple: A Rather Simple Knowledge Encoder for
Enhancing the Commonsense Reasoning Capacity of Pre-Trained Models [89.98762327725112]
自然言語における常識推論は、人工知能システムの望ましい能力である。
複雑なコモンセンス推論タスクを解決するための典型的な解決策は、知識対応グラフニューラルネットワーク(GNN)エンコーダで事前訓練された言語モデル(PTM)を強化することである。
有効性にもかかわらず、これらのアプローチは重いアーキテクチャ上に構築されており、外部知識リソースがPTMの推論能力をどのように改善するかを明確に説明できない。
論文 参考訳(メタデータ) (2022-05-04T01:27:36Z) - Precise Learning of Source Code Contextual Semantics via Hierarchical
Dependence Structure and Graph Attention Networks [28.212889828892664]
階層的な依存関係を組み込んだ新しいソースコードモデルを提案する。
本稿では,基本ブロックの構文構造,すなわち対応するASTをソースコードモデルに導入し,十分な情報を提供する。
その結果,本モデルではパラメータのスケールを50%削減し,プログラム分類タスクの精度を4%向上させることができた。
論文 参考訳(メタデータ) (2021-11-20T04:03:42Z) - Graph-Based Machine Learning Improves Just-in-Time Defect Prediction [0.38073142980732994]
グラフベースの機械学習を使用して、Just-In-Time(JIT)の欠陥予測を改善します。
私たちの最高のモデルでは、コード変更がF1スコアが最大77.55%の欠陥につながるかどうかを予測できます。
これは、最先端のJIT欠陥予測よりも152%高いF1スコアと3%高いMCCを示している。
論文 参考訳(メタデータ) (2021-10-11T16:00:02Z) - Re-Assessing the "Classify and Count" Quantification Method [88.60021378715636]
分類とカウント(CC)は、しばしば偏りのある推定器である。
以前の作業では、CCの適切に最適化されたバージョンを適切に使用できなかった。
最先端の手法に劣っているものの、ほぼ最先端の精度を実現している、と我々は主張する。
論文 参考訳(メタデータ) (2020-11-04T21:47:39Z) - Provably Robust Metric Learning [98.50580215125142]
既存のメトリクス学習アルゴリズムは、ユークリッド距離よりもロバストなメトリクスをもたらすことを示す。
対向摂動に対して頑健なマハラノビス距離を求めるための新しい距離学習アルゴリズムを提案する。
実験結果から,提案アルゴリズムは証明済みの堅牢な誤りと経験的堅牢な誤りの両方を改善した。
論文 参考訳(メタデータ) (2020-06-12T09:17:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。