Fugu-MT 論文翻訳(概要): Improved Bug Localization with AI Agents Leveraging Hypothesis and Dynamic Cognition

論文の概要: Improved Bug Localization with AI Agents Leveraging Hypothesis and Dynamic Cognition

arxiv url: http://arxiv.org/abs/2601.12522v1
Date: Sun, 18 Jan 2026 18:12:21 GMT
ステータス: 翻訳完了
システム内更新日: 2026-01-21 22:47:22.663148
Title: Improved Bug Localization with AI Agents Leveraging Hypothesis and Dynamic Cognition
Title（参考訳）: 仮説と動的認知を活用するAIエージェントによるバグ局在の改善
Authors: Asif Mohammed Samir, Mohammad Masudur Rahman,
Abstract要約: ソフトウェアバグは技術提供者(AT&Tなど)に毎年数十億ドルを費やし、開発者はバグ解決に約50%を費やしている。従来のバグローカライゼーションの手法は、コードのコンポーネントを分離して不審さを分析することが多い。大規模言語モデル(LLM)やエージェントAI技術の最近の進歩は、強力な潜在的なコード理解を示す一方で、コード探索中に因果推論を欠いている。我々は、因果推論、コールグラフベースの根本原因分析、コンテキストが可能な複数のAIエージェントによる上記の制限を克服する、バグローカライゼーションのための新しいエージェントテクニック、CogniGentを提案する。
参考スコア（独自算出の注目度）: 0.9298382208776371
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Software bugs cost technology providers (e.g., AT&T) billions annually and cause developers to spend roughly 50% of their time on bug resolution. Traditional methods for bug localization often analyze the suspiciousness of code components (e.g., methods, documents) in isolation, overlooking their connections with other components in the codebase. Recent advances in Large Language Models (LLMs) and agentic AI techniques have shown strong potential for code understanding, but still lack causal reasoning during code exploration and struggle to manage growing context effectively, limiting their capability. In this paper, we present a novel agentic technique for bug localization -- CogniGent -- that overcomes the limitations above by leveraging multiple AI agents capable of causal reasoning, call-graph-based root cause analysis and context engineering. It emulates developers-inspired debugging practices (a.k.a., dynamic cognitive debugging) and conducts hypothesis testing to support bug localization. We evaluate CogniGent on a curated dataset of 591 bug reports using three widely adopted performance metrics and compare it against six established baselines from the literature. Experimental results show that our technique consistently outperformed existing traditional and LLM-based techniques, achieving MAP improvements of 23.33-38.57% at the document and method levels. Similar gains were observed in MRR, with increases of 25.14-53.74% at both granularity levels. Statistical significance tests also confirm the superiority of our technique. By addressing the reasoning, dependency, and context limitations, CogniGent advances the state of bug localization, bridging human-like cognition with agentic automation for improved performance.
Abstract（参考訳）: ソフトウェアバグは技術提供者(AT&Tなど)が毎年何十億ドルも費やしているため、開発者はバグ解決に約50%を費やしている。従来のバグローカライゼーションのメソッドは、コードベース内の他のコンポーネントとの接続を見渡すことで、コードコンポーネント(例えば、メソッド、ドキュメント)の怪しげさを分離して分析することが多い。大規模言語モデル(LLM)やエージェントAI技術の最近の進歩は、コード理解の強力な可能性を示しているが、コード探索中に因果推論が欠如し、成長するコンテキストを効果的に管理し、その能力を制限する。本稿では,複数のAIエージェントを因果推論,コールグラフに基づく根本原因分析,コンテキストエンジニアリングに活用することにより,上記の制限を克服する,バグローカライゼーションのための新しいエージェントテクニックであるCogniGentを提案する。開発者にインスパイアされたデバッグプラクティス(動的認知デバッグ)をエミュレートし、バグのローカライゼーションをサポートするために仮説テストを実行する。我々は,広く採用されている3つのパフォーマンス指標を用いて,591件のバグレポートを収集したデータセット上でCogniGentを評価し,文献から得られた6つのベースラインと比較した。実験結果から,本手法は従来手法とLCM方式を一貫して上回り,文書および手法レベルでのMAP改善率は23.33-38.57%であった。 MRRでは、どちらの粒度でも25.14-53.74%の増加が見られた。また,本手法の優位性についても統計的に検証した。推論、依存性、コンテキスト制限に対処することで、CogniGentはバグのローカライゼーションの状態を前進させ、エージェント自動化による人間のような認識をブリッジしてパフォーマンスを向上させる。

関連論文リスト

Cognitive Foundations for Reasoning and Their Manifestation in LLMs [63.12951576410617]
大規模言語モデル(LLM)は複雑な問題を解くが、単純な変種では失敗し、人間の推論と根本的に異なるメカニズムによって正しい出力を達成することを示唆している。我々は認知科学研究を、推論不変量、メタ認知制御、推論と知識の組織化のための表現、変換操作にまたがる28の認知要素の分類学に合成する。複雑な問題に対して66.7%の性能向上を図り、成功構造を自動的に把握するテストタイム推論ガイダンスを開発した。
論文参考訳（メタデータ） (2025-11-20T18:59:00Z)
BugPilot: Complex Bug Generation for Efficient Learning of SWE Skills [59.003563837981886]
高品質なバグは、次世代の言語モデルベースソフトウェアエンジニアリング(SWE)エージェントをトレーニングする鍵となる。難易度および多種多様なバグを合成する新しい方法を提案する。
論文参考訳（メタデータ） (2025-10-22T17:58:56Z)
Executable Knowledge Graphs for Replicating AI Research [65.41207324831583]
Executable Knowledge Graphs (xKG) は、科学文献から抽出された技術的洞察、コードスニペット、ドメイン固有の知識を自動的に統合するモジュラーでプラグイン可能な知識基盤である。コードはhttps://github.com/zjunlp/xKGでリリースされる。
論文参考訳（メタデータ） (2025-10-20T17:53:23Z)
Improving IR-based Bug Localization with Semantics-Driven Query Reduction [0.9298382208776371]
我々は、バグレポートに対してソフトウェアバグをローカライズするための新しいアプローチであるIQLocを提案する。我々は、トランスフォーマーベースのモデルのプログラム意味論的理解を活用して、コードの不確実性を推論する。 IQLocは、スタックトレースを持つバグレポートの91.67%、コード要素を含むバグレポートの72.73%、自然言語の記述のみを含むバグレポートの65.38%を改善する。
論文参考訳（メタデータ） (2025-10-06T03:43:38Z)
CoCoNUTS: Concentrating on Content while Neglecting Uninformative Textual Styles for AI-Generated Peer Review Detection [60.52240468810558]
我々は、AI生成ピアレビューの詳細なデータセットの上に構築されたコンテンツ指向ベンチマークであるCoCoNUTSを紹介する。また、マルチタスク学習フレームワークを介してAIレビュー検出を行うCoCoDetを開発し、レビューコンテンツにおけるAIのより正確で堅牢な検出を実現する。
論文参考訳（メタデータ） (2025-08-28T06:03:11Z)
Towards Understanding Bugs in Distributed Training and Inference Frameworks for Large Language Models [7.486731499255164]
本稿では,DeepSpeed,Megatron-LM,Colossal-AIの3つの分散トレーニング/推論フレームワークを対象に,308の固定バグの大規模解析を行った。本研究は, バグ症状, 根本原因, バグの特定と修正の取り組み, および, 一般的な低ストレス修正戦略について検討する。
論文参考訳（メタデータ） (2025-06-12T07:24:59Z)
Improved IR-based Bug Localization with Intelligent Relevance Feedback [2.9312156642007294]
ソフトウェアバグは、開発とメンテナンスにおいて重大な課題となり、実践者は、バグを扱うのに約50%の時間を費やします。既存の多くのテクニックでは、バグレポートとソースコードの間のテキストおよび意味的関連性を使用して、報告されたバグをローカライズするために、Information Retrieval (IR)を採用している。本稿では,バグレポートとコードの関連性を評価することによって,コンテキストギャップに対処する新たなバグローカライゼーション手法であるBRaInを提案する。
論文参考訳（メタデータ） (2025-01-17T20:29:38Z)
Continuously Learning Bug Locations [11.185300073739098]
バグローカライゼーションのための複数のサブタスク設定において連続学習(CL)技術を用いることの可能性を評価する。平均相反ランク (MRR) では最大61%,平均精度 (MAP) では44%,トップ@1 では83%,トップ@5 では56%,非定常条件では66%であった。
論文参考訳（メタデータ） (2024-12-15T19:37:15Z)
Boosting CNN-based Handwriting Recognition Systems with Learnable Relaxation Labeling [48.78361527873024]
本稿では,2つの異なる手法の強みを組み込んだ手書き文字認識手法を提案する。本稿では,アルゴリズムの収束を加速し,システム全体の性能を向上させるスペーシフィケーション手法を提案する。
論文参考訳（メタデータ） (2024-09-09T15:12:28Z)
A Comparative Study of Transformer-based Neural Text Representation Techniques on Bug Triaging [8.831760500324318]
我々は、バグトリアージのタスクにおいて、ファイントゥーントランスフォーマーベースの言語モデルに関する最初の調査の1つを提供している。 DeBERTaは、開発者とコンポーネントの割り当てのトリアージタスクの中で、最も効果的なテクニックです。
論文参考訳（メタデータ） (2023-10-10T18:09:32Z)
BigIssue: A Realistic Bug Localization Benchmark [89.8240118116093]
BigIssueは、現実的なバグローカライゼーションのためのベンチマークである。実際のJavaバグと合成Javaバグの多様性を備えた一般的なベンチマークを提供する。われわれは,バグローカライゼーションの最先端技術として,APRの性能向上と,現代の開発サイクルへの適用性の向上を期待している。
論文参考訳（メタデータ） (2022-07-21T20:17:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。