論文の概要: From Illusion to Insight: Change-Aware File-Level Software Defect Prediction Using Agentic AI
- arxiv url: http://arxiv.org/abs/2512.23875v1
- Date: Mon, 29 Dec 2025 21:32:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.224122
- Title: From Illusion to Insight: Change-Aware File-Level Software Defect Prediction Using Agentic AI
- Title(参考訳): IllusionからInsightへ:エージェントAIを用いたファイルレベルソフトウェア欠陥予測
- Authors: Mohsen Hesamolhokama, Behnam Rohani, Amirahmad Shafiee, MohammadAmin Fazli, Jafar Habibi,
- Abstract要約: ファイルレベルのソフトウェア欠陥予測(SDP)の報告された進歩の多くは、実際には、精度の錯覚に過ぎない。
我々は、SDPを変更対応の予測タスクとして再構成し、連続したプロジェクトバージョン内のファイルのコード変更をモデルが推論する。
複数の ProMISE プロジェクトで行った実験から,従来のモデルではF1の膨らみを達成できた。
- 参考スコア(独自算出の注目度): 2.8583947164719348
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Much of the reported progress in file-level software defect prediction (SDP) is, in reality, nothing but an illusion of accuracy. Over the last decades, machine learning and deep learning models have reported increasing performance across software versions. However, since most files persist across releases and retain their defect labels, standard evaluation rewards label-persistence bias rather than reasoning about code changes. To address this issue, we reformulate SDP as a change-aware prediction task, in which models reason over code changes of a file within successive project versions, rather than relying on static file snapshots. Building on this formulation, we propose an LLM-driven, change-aware, multi-agent debate framework. Our experiments on multiple PROMISE projects show that traditional models achieve inflated F1, while failing on rare but critical defect-transition cases. In contrast, our change-aware reasoning and multi-agent debate framework yields more balanced performance across evolution subsets and significantly improves sensitivity to defect introductions. These results highlight fundamental flaws in current SDP evaluation practices and emphasize the need for change-aware reasoning in practical defect prediction. The source code is publicly available.
- Abstract(参考訳): ファイルレベルのソフトウェア欠陥予測(SDP)の報告された進歩の多くは、実際には、精度の錯覚にすぎない。
過去数十年間、機械学習とディープラーニングモデルは、ソフトウェアバージョン全体でパフォーマンスが向上していることを報告してきた。
しかしながら、ほとんどのファイルはリリース全体にわたって持続し、欠陥ラベルを保持するため、標準的な評価はコードの変更を推論するのではなく、ラベルのパーシステンスバイアスを報いる。
この問題に対処するため,我々はSDPを,静的なファイルスナップショットに頼るのではなく,連続するプロジェクトバージョン内のファイルのコード変更をモデルとして,変更を意識した予測タスクとして再構築する。
この定式化に基づいて, LLM駆動型, 変更対応, マルチエージェントの議論フレームワークを提案する。
複数の ProMISE プロジェクトで行った実験から,従来のモデルではF1の膨らみを達成できた。
対照的に、我々の変更認識推論とマルチエージェントの議論フレームワークは、進化サブセット間でよりバランスの取れたパフォーマンスをもたらし、欠陥導入に対する感度を大幅に改善します。
これらの結果は、現在のSDP評価プラクティスの根本的な欠陥を強調し、実際的な欠陥予測における変更認識推論の必要性を強調している。
ソースコードは公開されている。
関連論文リスト
- PrefixNLI: Detecting Factual Inconsistencies as Soon as They Arise [60.63315470285562]
MiniTruePrefixesは、テキストプレフィックスよりも事実上の矛盾をよりよく検出する、新しい特殊モデルである。
制御されたデコードフレームワークにMiniTruePrefixesを組み込むことで,抽象的な要約における現実の一貫性が大幅に向上することを示す。
論文 参考訳(メタデータ) (2025-11-03T09:07:44Z) - Adapting Language Balance in Code-Switching Speech [60.296574524609575]
大規模な基礎モデルは、コードスイッチングテストケースといまだに苦労しています。
我々は、世代間のコンテキストバイアスを軽減するために、微分可能なサロゲートを使用します。
アラビア語と中国語による実験では、モデルの切り替え位置をより正確に予測できることが示されている。
論文 参考訳(メタデータ) (2025-10-21T15:23:55Z) - Probing Pre-trained Language Models on Code Changes: Insights from ReDef, a High-Confidence Just-in-Time Defect Prediction Dataset [0.0]
本稿では,22の大規模C/C++プロジェクトから得られた関数レベル修正の信頼性の高いベンチマークであるReDefを紹介する。
欠陥ケースはコミットの反転によって固定され、クリーンケースはポストホック履歴チェックによって検証される。
このパイプラインは3,164の欠陥と10,268のクリーンな修正をもたらし、既存のリソースよりも信頼性の高いラベルを提供する。
論文 参考訳(メタデータ) (2025-09-11T07:07:11Z) - Bug Destiny Prediction in Large Open-Source Software Repositories through Sentiment Analysis and BERT Topic Modeling [3.481985817302898]
バグが解決する前に利用可能な機能を活用して、予測精度を高めます。
本手法は感情分析を取り入れ,感情性スコアと感情分類の両方を導出する。
結果は、感情分析がバグの最終的な結果の貴重な予測要因であることを示している。
論文 参考訳(メタデータ) (2025-04-22T15:18:14Z) - Leveraging Large Language Models for Efficient Failure Analysis in Game Development [47.618236610219554]
本稿では,テストの失敗の原因となるコードの変更を自動的に識別する手法を提案する。
このメソッドは、LLM(Large Language Models)を利用して、エラーメッセージと対応するコード変更を関連付ける。
当社のアプローチは新たに作成したデータセットで71%の精度に達しています。
論文 参考訳(メタデータ) (2024-06-11T09:21:50Z) - Code Revert Prediction with Graph Neural Networks: A Case Study at J.P. Morgan Chase [10.961209762486684]
コードリバース予測は、コード変更がソフトウェア開発で逆転またはロールバックされる可能性を予測または予測することを目的としている。
コード欠陥検出の以前の方法は、独立した機能に依存していたが、コードスクリプト間の関係を無視していた。
本稿では,コードインポートグラフとコード特徴を統合した,コード逆転予測のための系統的研究について述べる。
論文 参考訳(メタデータ) (2024-03-14T15:54:29Z) - Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。
ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-14T17:00:19Z) - Fault-Aware Neural Code Rankers [64.41888054066861]
サンプルプログラムの正しさを予測できる故障認識型ニューラルネットワークローダを提案する。
我々のフォールト・アウェア・ローダは、様々なコード生成モデルのpass@1精度を大幅に向上させることができる。
論文 参考訳(メタデータ) (2022-06-04T22:01:05Z) - Graph-Based Machine Learning Improves Just-in-Time Defect Prediction [0.38073142980732994]
グラフベースの機械学習を使用して、Just-In-Time(JIT)の欠陥予測を改善します。
私たちの最高のモデルでは、コード変更がF1スコアが最大77.55%の欠陥につながるかどうかを予測できます。
これは、最先端のJIT欠陥予測よりも152%高いF1スコアと3%高いMCCを示している。
論文 参考訳(メタデータ) (2021-10-11T16:00:02Z) - Robust and Transferable Anomaly Detection in Log Data using Pre-Trained
Language Models [59.04636530383049]
クラウドのような大規模コンピュータシステムにおける異常や障害は、多くのユーザに影響を与える。
システム情報の主要なトラブルシューティングソースとして,ログデータの異常検出のためのフレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-23T09:17:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。