Fugu-MT 論文翻訳(概要): Refactoring $\neq$ Bug-Inducing: Improving Defect Prediction with Code Change Tactics Analysis

論文の概要: Refactoring $\neq$ Bug-Inducing: Improving Defect Prediction with Code Change Tactics Analysis

arxiv url: http://arxiv.org/abs/2507.19714v1
Date: Fri, 25 Jul 2025 23:29:25 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-29 16:23:56.065329
Title: Refactoring $\neq$ Bug-Inducing: Improving Defect Prediction with Code Change Tactics Analysis
Title（参考訳）: コード変更戦術分析による欠陥予測の改善
Authors: Feifei Niu, Junqian Shao, Christoph Mayr-Dorn, Liguo Huang, Wesley K. G. Assunção, Chuanyi Li, Jidong Ge, Alexander Egyed,
Abstract要約: Just-in-time defect prediction (JIT-DP) は、早期にソフトウェア欠陥を引き起こすコード変更の可能性を予測することを目的としている。これまでの研究は、その頻度にもかかわらず、評価フェーズと方法論フェーズの両方でコードを無視してきた。 JIT-Defects4Jデータセットのラベリング精度を13.7%向上させるコードと伝播を分類するためのCode chAnge Tactics (CAT)解析を提案する。
参考スコア（独自算出の注目度）: 54.361900378970134
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Just-in-time defect prediction (JIT-DP) aims to predict the likelihood of code changes resulting in software defects at an early stage. Although code change metrics and semantic features have enhanced prediction accuracy, prior research has largely ignored code refactoring during both the evaluation and methodology phases, despite its prevalence. Refactoring and its propagation often tangle with bug-fixing and bug-inducing changes within the same commit and statement. Neglecting refactoring can introduce bias into the learning and evaluation of JIT-DP models. To address this gap, we investigate the impact of refactoring and its propagation on six state-of-the-art JIT-DP approaches. We propose Code chAnge Tactics (CAT) analysis to categorize code refactoring and its propagation, which improves labeling accuracy in the JIT-Defects4J dataset by 13.7%. Our experiments reveal that failing to consider refactoring information in the dataset can diminish the performance of models, particularly semantic-based models, by 18.6% and 37.3% in F1-score. Additionally, we propose integrating refactoring information to enhance six baseline approaches, resulting in overall improvements in recall and F1-score, with increases of up to 43.2% and 32.5%, respectively. Our research underscores the importance of incorporating refactoring information in the methodology and evaluation of JIT-DP. Furthermore, our CAT has broad applicability in analyzing refactoring and its propagation for software maintenance.
Abstract（参考訳）: Just-in-time defect prediction (JIT-DP) は、早期にソフトウェア欠陥を引き起こすコード変更の可能性を予測することを目的としている。コード変更のメトリクスとセマンティックな特徴は予測精度を向上させたが、事前の研究は、その頻度にもかかわらず、評価フェーズと方法論フェーズの両方でコードリファクタリングをほとんど無視してきた。リファクタリングとその伝播は、しばしば同じコミットとステートメント内でバグ修正とバグ誘発的な変更と絡み合う。リファクタリングの無視はJIT-DPモデルの学習と評価にバイアスをもたらす可能性がある。このギャップに対処するために、リファクタリングとその伝播が6つの最先端JIT-DPアプローチに与える影響について検討する。 JIT-Defects4Jデータセットのラベル付け精度を13.7%向上させるコードリファクタリングとその伝搬を分類するコードchAnge Tactics (CAT) 解析を提案する。実験の結果,データセット内のリファクタリング情報を考慮しなければ,特にセマンティックベースモデルの性能が18.6%低下し,F1スコアが37.3%低下することがわかった。さらに,6つのベースラインアプローチを強化するリファクタリング情報の統合を提案し,リコールとF1スコアの全体的な改善を実現し,それぞれ43.2%,32.5%に向上した。本研究は,JIT-DPの方法論と評価にリファクタリング情報を取り入れることの重要性を強調した。さらに、我々のCATはリファクタリングの解析やソフトウェアメンテナンスの伝播に幅広い適用性を持っています。

関連論文リスト

The GT-Score: A Robust Objective Function for Reducing Overfitting in Data-Driven Trading Strategies [51.56484100374058]
GT-Scoreは、パフォーマンス、統計的重要性、一貫性、ダウンサイドリスクを統合する複合目的関数である。 GT-Scoreは、歩行前向きの検証において、ベースライン目的関数に対して、一般化比を98%改善する。これらの結果から, 抗オーバーフィッティング構造を組み込むことにより, 定量的研究におけるバックテストの信頼性を向上させることが示唆された。
論文参考訳（メタデータ） (2026-01-22T05:16:47Z)
From Human to Machine Refactoring: Assessing GPT-4's Impact on Python Class Quality and Readability [46.83143241367452]
リファクタリングは、プログラムの振る舞いを変えることなく、コード品質を改善することを目的としている。 LLM(Large Language Models)の最近の進歩は、コードの自動保存に新たな機会をもたらしている。 GPT-4o を用いて,クラスEval ベンチマークから 100 個の Python クラスに適用した LLM 型クラスに関する実証的研究を行った。以上の結果から, GPT-4oは, 可読性の低下を犠牲にしながら, コードの臭いを低減し, 品質指標を改善する行動保存剤を一般的に生産していることが示唆された。
論文参考訳（メタデータ） (2026-01-19T15:22:37Z)
Agentic Refactoring: An Empirical Study of AI Coding Agents [9.698067623031909]
OpenAI Codex、Claude Code、Cursorといったエージェントコーディングツールは、ソフトウェアエンジニアリングの展望を変えつつある。これらのAI駆動システムは、複雑な開発タスクの計画と実行が可能な自律的なチームメイトとして機能する。エージェントが実際にどのように利用されるのか、どのように人間駆動型なのか、そしてそれがコード品質に与える影響について、実証的な理解が欠如している。
論文参考訳（メタデータ） (2025-11-06T21:24:38Z)
Automated Repair of C Programs Using Large Language Models [0.0]
本研究では,Cプログラムの修復を自動化する上で,LLM(Large Language Models)の可能性について検討する。本稿では,SBFL(Spectrum-based Fault Localization),ランタイムフィードバック,Chain-of-Thought-structured(Chain-of-Thought-structured)を自動修復ループに統合するフレームワークを提案する。我々の手法は44.93%の修理精度を達成し、最先端のAPRベースラインに対する3.61%の絶対的な改善を示している。
論文参考訳（メタデータ） (2025-09-02T04:34:11Z)
An Empirical Study on Method-Level Performance Evolution in Open-Source Java Projects [14.908341749591594]
我々は15の成熟したオープンソースのJavaプロジェクトで、パフォーマンスの進化を分析する大規模な実証的研究を行った。その結果,メソッドレベルの変化の32.7%が測定可能なパフォーマンスに影響を及ぼすことが判明した。アルゴリズムの変更は、最高の改善可能性を示すが、かなりのレグレッションリスクを持つ。
論文参考訳（メタデータ） (2025-08-09T19:39:01Z)
Explainable Vulnerability Detection in C/C++ Using Edge-Aware Graph Attention Networks [0.2499907423888049]
本稿では,C/C++コードの脆弱性検出のためのグラフベースのフレームワークであるExplainVulDを提案する。平均精度88.25パーセント、F1スコア48.23パーセントをReVealデータセット上で30の独立ランで達成している。
論文参考訳（メタデータ） (2025-07-22T12:49:14Z)
KARE-RAG: Knowledge-Aware Refinement and Enhancement for RAG [63.82127103851471]
Retrieval-Augmented Generation (RAG)は、大規模言語モデルがより広範な知識ソースにアクセスすることを可能にする。ノイズの多いコンテンツを処理するために生成モデルの能力を向上させることは、ロバストなパフォーマンスに等しく重要であることを実証する。本稿では,3つの重要なイノベーションを通じて知識利用を改善するKARE-RAGを提案する。
論文参考訳（メタデータ） (2025-06-03T06:31:17Z)
Structured Thinking Matters: Improving LLMs Generalization in Causal Inference Tasks [0.7988085110283119]
Corr2Cause のデータセットによる最近の結果は、最先端の LLM がランダムベースラインをわずかに上回っていることを示している。我々は、構造化知識グラフを構築するためのモデルを導くことによって、その思考を構造化する能力を備えたモデルを提供する。 Qwen3-32Bモデル(推論モデル)を用いたCorr2Causeデータセットベンチマークのテストサブセットの実験は、標準的なダイレクトプロンプトメソッドよりも大幅に向上したことを示している。
論文参考訳（メタデータ） (2025-05-23T15:37:40Z)
LLM-Based Detection of Tangled Code Changes for Higher-Quality Method-Level Bug Datasets [5.191767648600372]
本稿では,コミットメッセージとメソッドレベルのコード差分の両方を活用することで,絡み合ったコード変化を検出するための大規模言語モデルの有用性について検討する。その結果,コミットメッセージとコード差分を組み合わせることで,モデルの性能が著しく向上することがわかった。 49のオープンソースプロジェクトにアプローチを適用することで、バグギーと非バグギーメソッド間のコードのメトリクスの分散分離性が向上します。
論文参考訳（メタデータ） (2025-05-13T06:26:13Z)
Partial Transportability for Domain Generalization [56.37032680901525]
本稿では, 部分的同定と輸送可能性の理論に基づいて, 対象分布の関数値の有界化に関する新たな結果を紹介する。我々の貢献は、輸送可能性問題に対する最初の一般的な評価手法を提供することである。本稿では,スケーラブルな推論を実現するための勾配に基づく最適化手法を提案する。
論文参考訳（メタデータ） (2025-03-30T22:06:37Z)
Evaluating the Effectiveness of Small Language Models in Detecting Refactoring Bugs [0.6133301815445301]
本研究では,Java と Python の2種類のバグ検出における小言語モデル (SLM) の有効性を評価する。この研究は16種類のタイプをカバーし、コンシューマグレードのハードウェアにゼロショットプロンプトを用いて、事前トレーニングを明示することなくモデルの正確性を推論する能力を評価する。プロプライエタリなo3-mini-highモデルは、タイプIの84.3%のバグを識別し、最も高い検出率を達成した。
論文参考訳（メタデータ） (2025-02-25T18:52:28Z)
ReLearn: Unlearning via Learning for Large Language Models [64.2802606302194]
本研究では、効果的なアンラーニングのためのデータ拡張および微調整パイプラインであるReLearnを提案する。このフレームワークでは、知識レベルの保存を測定するために、知識獲得率(KFR)と知識保持率(KRR)を導入している。実験の結果,ReLearnは高品質な出力を保ちながら,目標とするリセットを実現することができた。
論文参考訳（メタデータ） (2025-02-16T16:31:00Z)
Automated Refactoring of Non-Idiomatic Python Code: A Differentiated Replication with LLMs [54.309127753635366]
本研究は, GPT-4の有効性について検討し, 慣用行動の推奨と示唆について検討した。この結果から,従来は複雑なコード解析に基づくレコメンデータの実装が求められていた,LCMの課題達成の可能性が浮き彫りになった。
論文参考訳（メタデータ） (2025-01-28T15:41:54Z)
Continuously Learning Bug Locations [11.185300073739098]
バグローカライゼーションのための複数のサブタスク設定において連続学習(CL)技術を用いることの可能性を評価する。平均相反ランク (MRR) では最大61%,平均精度 (MAP) では44%,トップ@1 では83%,トップ@5 では56%,非定常条件では66%であった。
論文参考訳（メタデータ） (2024-12-15T19:37:15Z)
Masked Thought: Simply Masking Partial Reasoning Steps Can Improve Mathematical Reasoning Learning of Language Models [102.72940700598055]
推論タスクでは、小さなエラーでも不正確な結果にカスケードすることができる。入力の摂動に頼らず、外部リソースの導入を避ける手法を開発した。私たちのトレーニングアプローチでは、思考の連鎖の中で特定のトークンをランダムにマスクします。
論文参考訳（メタデータ） (2024-03-04T16:21:54Z)
Graph-Based Machine Learning Improves Just-in-Time Defect Prediction [0.38073142980732994]
グラフベースの機械学習を使用して、Just-In-Time(JIT)の欠陥予測を改善します。私たちの最高のモデルでは、コード変更がF1スコアが最大77.55%の欠陥につながるかどうかを予測できます。これは、最先端のJIT欠陥予測よりも152%高いF1スコアと3%高いMCCを示している。
論文参考訳（メタデータ） (2021-10-11T16:00:02Z)
Accurate and Robust Feature Importance Estimation under Distribution Shifts [49.58991359544005]
PRoFILEは、新しい特徴重要度推定法である。忠実さと頑健さの両面で、最先端のアプローチよりも大幅に改善されていることを示す。
論文参考訳（メタデータ） (2020-09-30T05:29:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。