論文の概要: Improved Bug Localization with AI Agents Leveraging Hypothesis and Dynamic Cognition
- arxiv url: http://arxiv.org/abs/2601.12522v1
- Date: Sun, 18 Jan 2026 18:12:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.663148
- Title: Improved Bug Localization with AI Agents Leveraging Hypothesis and Dynamic Cognition
- Title(参考訳): 仮説と動的認知を活用するAIエージェントによるバグ局在の改善
- Authors: Asif Mohammed Samir, Mohammad Masudur Rahman,
- Abstract要約: ソフトウェアバグは技術提供者(AT&Tなど)に毎年数十億ドルを費やし、開発者はバグ解決に約50%を費やしている。
従来のバグローカライゼーションの手法は、コードのコンポーネントを分離して不審さを分析することが多い。
大規模言語モデル(LLM)やエージェントAI技術の最近の進歩は、強力な潜在的なコード理解を示す一方で、コード探索中に因果推論を欠いている。
我々は、因果推論、コールグラフベースの根本原因分析、コンテキストが可能な複数のAIエージェントによる上記の制限を克服する、バグローカライゼーションのための新しいエージェントテクニック、CogniGentを提案する。
- 参考スコア(独自算出の注目度): 0.9298382208776371
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Software bugs cost technology providers (e.g., AT&T) billions annually and cause developers to spend roughly 50% of their time on bug resolution. Traditional methods for bug localization often analyze the suspiciousness of code components (e.g., methods, documents) in isolation, overlooking their connections with other components in the codebase. Recent advances in Large Language Models (LLMs) and agentic AI techniques have shown strong potential for code understanding, but still lack causal reasoning during code exploration and struggle to manage growing context effectively, limiting their capability. In this paper, we present a novel agentic technique for bug localization -- CogniGent -- that overcomes the limitations above by leveraging multiple AI agents capable of causal reasoning, call-graph-based root cause analysis and context engineering. It emulates developers-inspired debugging practices (a.k.a., dynamic cognitive debugging) and conducts hypothesis testing to support bug localization. We evaluate CogniGent on a curated dataset of 591 bug reports using three widely adopted performance metrics and compare it against six established baselines from the literature. Experimental results show that our technique consistently outperformed existing traditional and LLM-based techniques, achieving MAP improvements of 23.33-38.57% at the document and method levels. Similar gains were observed in MRR, with increases of 25.14-53.74% at both granularity levels. Statistical significance tests also confirm the superiority of our technique. By addressing the reasoning, dependency, and context limitations, CogniGent advances the state of bug localization, bridging human-like cognition with agentic automation for improved performance.
- Abstract(参考訳): ソフトウェアバグは技術提供者(AT&Tなど)が毎年何十億ドルも費やしているため、開発者はバグ解決に約50%を費やしている。
従来のバグローカライゼーションのメソッドは、コードベース内の他のコンポーネントとの接続を見渡すことで、コードコンポーネント(例えば、メソッド、ドキュメント)の怪しげさを分離して分析することが多い。
大規模言語モデル(LLM)やエージェントAI技術の最近の進歩は、コード理解の強力な可能性を示しているが、コード探索中に因果推論が欠如し、成長するコンテキストを効果的に管理し、その能力を制限する。
本稿では,複数のAIエージェントを因果推論,コールグラフに基づく根本原因分析,コンテキストエンジニアリングに活用することにより,上記の制限を克服する,バグローカライゼーションのための新しいエージェントテクニックであるCogniGentを提案する。
開発者にインスパイアされたデバッグプラクティス(動的認知デバッグ)をエミュレートし、バグのローカライゼーションをサポートするために仮説テストを実行する。
我々は,広く採用されている3つのパフォーマンス指標を用いて,591件のバグレポートを収集したデータセット上でCogniGentを評価し,文献から得られた6つのベースラインと比較した。
実験結果から,本手法は従来手法とLCM方式を一貫して上回り,文書および手法レベルでのMAP改善率は23.33-38.57%であった。
MRRでは、どちらの粒度でも25.14-53.74%の増加が見られた。
また,本手法の優位性についても統計的に検証した。
推論、依存性、コンテキスト制限に対処することで、CogniGentはバグのローカライゼーションの状態を前進させ、エージェント自動化による人間のような認識をブリッジしてパフォーマンスを向上させる。
関連論文リスト
- BugPilot: Complex Bug Generation for Efficient Learning of SWE Skills [59.003563837981886]
高品質なバグは、次世代の言語モデルベースソフトウェアエンジニアリング(SWE)エージェントをトレーニングする鍵となる。
難易度および多種多様なバグを合成する新しい方法を提案する。
論文 参考訳(メタデータ) (2025-10-22T17:58:56Z) - Executable Knowledge Graphs for Replicating AI Research [65.41207324831583]
Executable Knowledge Graphs (xKG) は、科学文献から抽出された技術的洞察、コードスニペット、ドメイン固有の知識を自動的に統合するモジュラーでプラグイン可能な知識基盤である。
コードはhttps://github.com/zjunlp/xKGでリリースされる。
論文 参考訳(メタデータ) (2025-10-20T17:53:23Z) - Improving IR-based Bug Localization with Semantics-Driven Query Reduction [0.9298382208776371]
我々は、バグレポートに対してソフトウェアバグをローカライズするための新しいアプローチであるIQLocを提案する。
我々は、トランスフォーマーベースのモデルのプログラム意味論的理解を活用して、コードの不確実性を推論する。
IQLocは、スタックトレースを持つバグレポートの91.67%、コード要素を含むバグレポートの72.73%、自然言語の記述のみを含むバグレポートの65.38%を改善する。
論文 参考訳(メタデータ) (2025-10-06T03:43:38Z) - CoCoNUTS: Concentrating on Content while Neglecting Uninformative Textual Styles for AI-Generated Peer Review Detection [60.52240468810558]
我々は、AI生成ピアレビューの詳細なデータセットの上に構築されたコンテンツ指向ベンチマークであるCoCoNUTSを紹介する。
また、マルチタスク学習フレームワークを介してAIレビュー検出を行うCoCoDetを開発し、レビューコンテンツにおけるAIのより正確で堅牢な検出を実現する。
論文 参考訳(メタデータ) (2025-08-28T06:03:11Z) - Improved IR-based Bug Localization with Intelligent Relevance Feedback [2.9312156642007294]
ソフトウェアバグは、開発とメンテナンスにおいて重大な課題となり、実践者は、バグを扱うのに約50%の時間を費やします。
既存の多くのテクニックでは、バグレポートとソースコードの間のテキストおよび意味的関連性を使用して、報告されたバグをローカライズするために、Information Retrieval (IR)を採用している。
本稿では,バグレポートとコードの関連性を評価することによって,コンテキストギャップに対処する新たなバグローカライゼーション手法であるBRaInを提案する。
論文 参考訳(メタデータ) (2025-01-17T20:29:38Z) - Continuously Learning Bug Locations [11.185300073739098]
バグローカライゼーションのための複数のサブタスク設定において連続学習(CL)技術を用いることの可能性を評価する。
平均相反ランク (MRR) では最大61%,平均精度 (MAP) では44%,トップ@1 では83%,トップ@5 では56%,非定常条件では66%であった。
論文 参考訳(メタデータ) (2024-12-15T19:37:15Z) - A Comparative Study of Transformer-based Neural Text Representation
Techniques on Bug Triaging [8.831760500324318]
我々は、バグトリアージのタスクにおいて、ファイントゥーントランスフォーマーベースの言語モデルに関する最初の調査の1つを提供している。
DeBERTaは、開発者とコンポーネントの割り当てのトリアージタスクの中で、最も効果的なテクニックです。
論文 参考訳(メタデータ) (2023-10-10T18:09:32Z) - BigIssue: A Realistic Bug Localization Benchmark [89.8240118116093]
BigIssueは、現実的なバグローカライゼーションのためのベンチマークである。
実際のJavaバグと合成Javaバグの多様性を備えた一般的なベンチマークを提供する。
われわれは,バグローカライゼーションの最先端技術として,APRの性能向上と,現代の開発サイクルへの適用性の向上を期待している。
論文 参考訳(メタデータ) (2022-07-21T20:17:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。