論文の概要: AgentSZZ: Teaching the LLM Agent to Play Detective with Bug-Inducing Commits
- arxiv url: http://arxiv.org/abs/2604.02665v1
- Date: Fri, 03 Apr 2026 02:54:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 17:20:24.292715
- Title: AgentSZZ: Teaching the LLM Agent to Play Detective with Bug-Inducing Commits
- Title(参考訳): AgentSZZ: LLMエージェントにバグ発生コミートによる検出を指導
- Authors: Yunbo Lyu, Jieke Shi, Hong Jin Kang, Ratnadira Widyasari, Junda He, Yuqing Niu, Chengran Yang, Junkai Chen, Zhou Yang, Julia Lawall, David Lo,
- Abstract要約: AgentSZZは、バグを引き起こすコミットを特定するエージェントベースのフレームワークである。
従来の方法とは異なり、AgentSZZはタスク固有のツール、ドメイン知識、ReActスタイルのループを統合し、バグの適応的および因果的トレースを可能にする。
実験によると、AgentSZZはすべての設定で最先端のSZZアルゴリズムより一貫して優れている。
- 参考スコア(独自算出の注目度): 14.213358505741105
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The SZZ algorithm is the dominant technique for identifying bug-inducing commits and underpins many software engineering tasks, such as defect prediction and vulnerability analysis. Despite numerous variants, including recent LLM-based approaches, performance remains limited on developer-annotated datasets (e.g., recall of 0.552 on the Linux kernel). A key limitation is the reliance on git blame, which traces line-level changes within the same file, failing in common scenarios such as ghost and cross-file cases-making nearly one-quarter of bug-inducing commits inherently untraceable. Moreover, current approaches follow fixed pipelines that restrict iterative reasoning and exploration, unlike developers who investigate bugs through an interactive, multi-tool process. To address these challenges, we propose AgentSZZ, an agent-based framework that leverages LLM-driven agents to explore repositories and identify bug-inducing commits. Unlike prior methods, AgentSZZ integrates task-specific tools, domain knowledge, and a ReAct-style loop to enable adaptive and causal tracing of bugs. A structured compression module further improves efficiency by reducing redundant context while preserving key evidence. Extensive experiments on three widely used datasets show that AgentSZZ consistently outperforms state-of-the-art SZZ algorithms across all settings, achieving F1-score gains of up to 27.2% over prior LLM-based approaches. The improvements are especially pronounced in challenging scenarios such as cross-file and ghost commits, with recall gains of up to 300% and 60%, respectively. Ablation studies show that task-specific tools and domain knowledge are critical, while compression tool outputs reduce token consumption by over 30% with negligible impact. The replication package is available.
- Abstract(参考訳): SZZアルゴリズムは、バグを誘発するコミットを識別し、欠陥予測や脆弱性解析など、多くのソフトウェアエンジニアリングタスクを支える主要なテクニックである。
最近のLCMベースのアプローチを含む多くのバリエーションにもかかわらず、パフォーマンスは開発者によって注釈付けされたデータセット(Linuxカーネルでの0.552のリコールなど)に限られている。
これは同じファイル内の行レベルの変更をトレースし、ゴーストやクロスファイルケースのような一般的なシナリオでは失敗する。
さらに、現在のアプローチは、インタラクティブなマルチツールプロセスを通じてバグを調査する開発者とは異なり、反復的推論と探索を制限する固定パイプラインに従っている。
これらの課題に対処するために,LLM駆動エージェントを活用したエージェントベースのフレームワークであるAgentSZZを提案し,リポジトリの探索とバグ発生コミットの特定を行う。
従来の方法とは異なり、AgentSZZはタスク固有のツール、ドメイン知識、ReActスタイルのループを統合し、バグの適応的および因果的トレースを可能にする。
構造化圧縮モジュールは、キーエビデンスを保持しながら冗長なコンテキストを減らし、効率をさらに向上する。
広く使われている3つのデータセットの大規模な実験によると、AgentSZZはすべての設定で最先端のSZZアルゴリズムを一貫して上回り、以前のLLMベースのアプローチよりも最大27.2%のF1スコアゲインを達成した。
改善は、クロスファイルやゴーストコミットといった困難なシナリオでは特に顕著で、それぞれ300%と60%のリコールゲインがある。
アブレーション研究では、タスク固有のツールとドメイン知識が重要であり、圧縮ツールの出力は無視可能な影響でトークン消費を30%以上削減する。
レプリケーションパッケージが利用可能だ。
関連論文リスト
- Dynamic analysis enhances issue resolution [53.50448142467294]
DAIRA(Dynamic Analysis-enhanced Issue Resolution Agent)は、エージェントの推論サイクルに動的解析を組み込む自動修復フレームワークである。
テストトレース駆動の方法論によって駆動されるDAIRAは、軽量モニタを使用して重要なランタイムデータを抽出する。
Gemini 3 Flash Previewを使用すると、DAIRAは新たな最先端(SOTA)パフォーマンスを確立し、SWE-bench Verifiedデータセットで79.4%の解像度を達成する。
論文 参考訳(メタデータ) (2026-03-23T14:48:54Z) - AgentProcessBench: Diagnosing Step-Level Process Quality in Tool-Using Agents [50.481033105867205]
我々はAgentProcessBenchを紹介した。AgentProcessBenchは、現実的なツール拡張トラジェクトリにおけるステップレベルの有効性を評価するための最初のベンチマークである。
ベンチマークは、1,000の多様な軌跡と8,509の人間ラベル付きステップアノテーションと89.1%のアノテーション間合意で構成されている。
探索をキャプチャする3つのラベリングスキームと、ラベルのあいまいさを減らすためのエラー伝搬ルールを備えている。
論文 参考訳(メタデータ) (2026-03-15T16:13:58Z) - TestExplora: Benchmarking LLMs for Proactive Bug Discovery via Repository-Level Test Generation [19.43198506241428]
提案するTestExploraは,大規模言語モデルを積極的なテスタとして評価するためのベンチマークである。
TestExploraには482リポジトリから2,389のタスクが含まれており、すべての欠陥関連信号を隠している。
現状のモデルでは、F2P(Fail-to-Pass)の最大率は16.06%である。
論文 参考訳(メタデータ) (2026-02-11T03:22:51Z) - Beyond Blame: Rethinking SZZ with Knowledge Graph Search [13.82629698836299]
本稿では,時間的知識グラフ(TKG)をソフトウェア進化解析に適用するための最初のアプローチであるAgenticSZZを提案する。
我々は,AgenicSZZがF1スコア0.48から0.74を達成することを示す。
論文 参考訳(メタデータ) (2026-02-03T00:10:48Z) - ET-Agent: Incentivizing Effective Tool-Integrated Reasoning Agent via Behavior Calibration [68.89572566071575]
ETAgentはエージェントのツール使用行動を調整するためのトレーニングフレームワークである。
過誤行動パターンを最適行動に段階的に校正するように設計されている。
論文 参考訳(メタデータ) (2026-01-11T11:05:26Z) - AgentDevel: Reframing Self-Evolving LLM Agents as Release Engineering [8.201374511929538]
AgentDevelは、現行のエージェントを反復的に実行するリリースエンジニアリングパイプラインである。
実行トレースから実装盲の症状レベルの品質信号を生成する。
主要な症状パターンを集約し、監査可能なエンジニアリング仕様を生成する。
論文 参考訳(メタデータ) (2026-01-08T05:49:01Z) - DoVer: Intervention-Driven Auto Debugging for LLM Multi-Agent Systems [48.971606069204825]
DoVerは、大規模言語モデル(LLM)ベースのマルチエージェントシステムのための介入駆動デバッグフレームワークである。
ターゲットの介入を通じて、アクティブな検証によって仮説生成を増強する。
DoVerは失敗試験の18~28%を成功させ、最大16%のマイルストーンを達成し、失敗仮説の30~60%を検証または否定する。
論文 参考訳(メタデータ) (2025-12-07T09:23:48Z) - LLM4SZZ: Enhancing SZZ Algorithm with Context-Enhanced Assessment on Large Language Models [10.525352489242398]
SZZアルゴリズムは、バグ発生コミットを特定する主要な手法である。
バグ予測や静的コード解析など、多くのソフトウェア工学研究の基盤となっている。
近年,従来のSZZアルゴリズムを強化するために,ディープラーニングに基づくSZZアルゴリズムが導入された。
論文 参考訳(メタデータ) (2025-04-02T06:40:57Z) - Beyond Final Code: A Process-Oriented Error Analysis of Software Development Agents in Real-World GitHub Scenarios [31.749442120603774]
問題解決フェーズにおけるPythonの実行エラーは、低解像度率と推論オーバーヘッドの増加と相関している。
私たちは、ModuleNotFoundErrorやTypeErrorのような最も一般的なエラーを特定し、OSErrorやデータベース関連の問題のような特に困難なエラーを強調しました。
論文 参考訳(メタデータ) (2025-03-16T06:24:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。