論文の概要: CodeFlowLM: Incremental Just-In-Time Defect Prediction with Pretrained Language Models and Exploratory Insights into Defect Localization
- arxiv url: http://arxiv.org/abs/2512.00231v1
- Date: Fri, 28 Nov 2025 22:18:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.123497
- Title: CodeFlowLM: Incremental Just-In-Time Defect Prediction with Pretrained Language Models and Exploratory Insights into Defect Localization
- Title(参考訳): CodeFlowLM: 事前学習言語モデルによるインクリメンタルなジャストインタイム欠陥予測と欠陥ローカライゼーションの探索的考察
- Authors: Monique Louise Monteiro, George G. Cabral, Adriano L. I. OLiveira,
- Abstract要約: JIT-SDP(Just-In-Time Software Defect Prediction)のためのインクリメンタルラーニングフレームワークであるCodeFlowLMを紹介する。
従来のオンライン学習者とは異なり、CodeFlowLMは、概念のドリフト、クラス不均衡、検証遅延にゼロから再トレーニングすることなく対処するために、連続的な微調整を採用している。
GPT-5, Claude Sonnet 4.5, Gemini 2.5 Pro などの大規模言語モデル (LLM) のアテンションベースモデルに対する評価に拡張する。
- 参考スコア(独自算出の注目度): 1.3878785822379076
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This work introduces CodeFlowLM, an incremental learning framework for Just-In-Time Software Defect Prediction (JIT-SDP) that leverages pre-trained language models (PLMs). Unlike traditional online learners, CodeFlowLM employs continual fine-tuning to address concept drift, class imbalance, and verification latency without retraining from scratch. We evaluated encoder-only and encoder-decoder PLMs (notably CodeT5+ and UniXCoder) in JIT-SDP scenarios within and between projects, comparing them with the incremental baseline BORB. The results show that CodeFlowLM achieves up to 68% G-Mean gains, confirming its superior adaptability and robustness in evolving software environments. We further extend the analysis to Just-in-Time Defect Localization (JIT-DL), benchmarking Large Language Models (LLMs) such as GPT-5, Claude Sonnet 4.5, and Gemini 2.5 Pro against attention-based models. GPT-5 delivers comparable performance for Recall@20% and Effort@20% with higher stability, although attention-based methods retain an advantage in fine-grained ranking metrics (Top-k, IFA). A qualitative error analysis reveals that most false positives arise from (1) human-like conservative bias, (2) insufficient contextual information in diff-based prompts, and (3) potential dataset mislabeling in JIT-Defects4J. These findings highlight both the promise and the current limitations of LLM reasoning in defect localization. False negatives occur in smaller proportions. Overall, CodeFlowLM significantly advances the state of the art in incremental JIT-SDP, demonstrating superior adaptability and robustness in evolving software environments. Furthermore, our exploratory analysis of LLMs in JIT-DL not only benchmarks their performance against established attention-based models but also provides critical insights into the current limitations of prompt-based defect reasoning.
- Abstract(参考訳): この研究は、Just-In-Time Software Defect Prediction (JIT-SDP)のためのインクリメンタルな学習フレームワークであるCodeFlowLMを紹介した。
従来のオンライン学習者とは異なり、CodeFlowLMは、概念のドリフト、クラス不均衡、検証遅延にゼロから再トレーニングすることなく対処するために、連続的な微調整を採用している。
我々は,JIT-SDP シナリオにおけるエンコーダのみおよびエンコーダ-デコーダ PLM (特に CodeT5+ と UniXCoder) を評価し,インクリメンタルベースライン BORB と比較した。
その結果,CodeFlowLMは最大68%のG平均ゲインを達成し,ソフトウェア環境の進化における優れた適応性と堅牢性を確認した。
GPT-5, Claude Sonnet 4.5, Gemini 2.5 Pro などの大規模言語モデル (LLM) のアテンションベースモデルに対するベンチマークである Just-in-Time Defect Localization (JIT-DL) に解析を拡張した。
GPT-5はRecall@20%とEffort@20%と同等のパフォーマンスを高い安定性で提供する。
定性的誤り分析により,(1)ヒトのような保守的バイアス,(2)diffベースのプロンプトにおける文脈情報の不足,(3)JIT-Defects4Jにおける潜在的なデータセットの誤ラベルから,ほとんどの偽陽性が生じることが明らかとなった。
これらの知見は, 欠陥局在化におけるLLM推論の約束と現在の限界の両方を浮き彫りにした。
偽陰性は小さい割合で起こる。
全体として、CodeFlowLMはインクリメンタルJIT-SDPの最先端性を著しく向上させ、ソフトウェア環境の進化において優れた適応性と堅牢性を示す。
さらに、JIT-DLにおけるLCMの探索的分析は、既存の注目モデルに対して性能をベンチマークするだけでなく、プロンプトベースの欠陥推論の現在の限界に対する重要な洞察を提供する。
関連論文リスト
- Large Language Model Unlearning for Source Code [65.42425213605114]
PRODは、LLMがコード生成能力を保ちながら、望ましくないコード内容を忘れることができる新しいアンラーニングアプローチである。
本評価は,既存の未学習アプローチと比較して,忘れ品質とモデルユーティリティのバランスが良好であることを示す。
論文 参考訳(メタデータ) (2025-06-20T16:27:59Z) - Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。
実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文 参考訳(メタデータ) (2025-05-28T17:57:47Z) - Everything You Wanted to Know About LLM-based Vulnerability Detection But Were Afraid to Ask [30.819697001992154]
大規模言語モデルは、自動脆弱性検出のための有望なツールである。
LLMは現実世界の脆弱性を検出するのに本当に効果的か?
本稿では, LLM は (i) 信頼できないこと, (ii) コードパッチに敏感であること, (iii) モデルスケールにまたがる性能評価の3つを, 広く支持されているコミュニティの信念に異議を唱える。
論文 参考訳(メタデータ) (2025-04-18T05:32:47Z) - The Hitchhiker's Guide to Program Analysis, Part II: Deep Thoughts by LLMs [17.497629884237647]
BugLensは、バグ検出のための静的解析精度を大幅に向上させる、ポストリファインメントフレームワークである。
LLMは有望なコード理解能力を示すが、プログラム分析への直接の応用は信頼できない。
LLMは、セキュリティへの影響を評価し、ソースコードから制約を検証するため、構造化された推論ステップを通じてLLMをガイドする。
論文 参考訳(メタデータ) (2025-04-16T02:17:06Z) - Self-Evolving Critique Abilities in Large Language Models [59.861013614500024]
本稿では,Large Language Models (LLM) の批判能力の向上について検討する。
SCRITは、LCMを自己生成データで訓練し、批判能力を進化させるフレームワークである。
分析の結果,SCRITの性能はデータやモデルサイズと正の相関関係にあることが明らかとなった。
論文 参考訳(メタデータ) (2025-01-10T05:51:52Z) - LLM2: Let Large Language Models Harness System 2 Reasoning [65.89293674479907]
大規模言語モデル(LLM)は、無数のタスクにまたがって印象的な機能を示してきたが、時には望ましくない出力が得られる。
本稿では LLM とプロセスベースの検証器を組み合わせた新しいフレームワーク LLM2 を紹介する。
LLMs2は妥当な候補を生成するのに責任を持ち、検証者は望ましい出力と望ましくない出力を区別するためにタイムリーなプロセスベースのフィードバックを提供する。
論文 参考訳(メタデータ) (2024-12-29T06:32:36Z) - A Multi-Agent Approach to Fault Localization via Graph-Based Retrieval and Reflexion [8.22737389683156]
従来のフォールトローカライゼーション技術は、広範なトレーニングデータセットと高い計算資源を必要とする。
大規模言語モデル(LLM)の最近の進歩は、コード理解と推論を強化することで、新たな機会を提供する。
LLM4FLは3つの特殊なLLMエージェントを利用するマルチエージェントの故障局所化フレームワークである。
14のJavaプロジェクトから675の障害を含むDefects4Jベンチマークで評価され、LLM4FLはAutoFLよりも18.55%、SoapFLより4.82%、Top-1の精度が18.55%向上した。
論文 参考訳(メタデータ) (2024-09-20T16:47:34Z) - Large Language Models for Test-Free Fault Localization [11.080712737595174]
テストカバレッジ情報なしでバグの行を特定できる言語モデルに基づくフォールトローカライズ手法を提案する。
5億5000万、60億、160億のパラメータを持つ言語モデルを、手作業でキュレートされた小さなプログラムコーパスで微調整します。
実験により、LLMAOは最先端の機械学習フォールトローカライゼーション(MLFL)ベースラインを2.3%-54.4%改善し、トップ5の結果を14.4%-35.6%改善した。
論文 参考訳(メタデータ) (2023-10-03T01:26:39Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。