論文の概要: How and Why Agents Can Identify Bug-Introducing Commits
- arxiv url: http://arxiv.org/abs/2603.29378v1
- Date: Tue, 31 Mar 2026 07:48:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:03.264925
- Title: How and Why Agents Can Identify Bug-Introducing Commits
- Title(参考訳): エージェントがバグを発生させるコミュニケートを特定できる方法と理由
- Authors: Niklas Risse, Marcel Böhme,
- Abstract要約: 候補コミットの集合を探索した単純なエージェントワークフローを提案する。
エージェントがこれほど成功した理由も明らかになった。 修正コミット差分とメッセージから短いペアブルパターンを導出します。
- 参考スコア(独自算出の注目度): 13.69619471327132
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Śliwerski, Zimmermann, and Zeller (SZZ) just won the 2026 ACM SIGSOFT Impact Award for asking: When do changes induce fixes? Their paper from 2005 served as the foundation for a wide array of approaches aimed at identifying bug-introducing changes (or commits) from fix commits in software repositories. But even after two decades of progress, the best-performing approach from 2025 yields a modest increase of 10 percentage points in F1-score on the most popular Linux kernel dataset. In this paper, we uncover how and why LLM-based agents can substantially advance the state-of-the-art in identifying bug-introducing commits from fix commits. We propose a simple agentic workflow based on searching a set of candidate commits and find that it raises the F1-score from 0.64 to 0.81 on the most popular Linux kernel dataset, a bigger jump than between the original 2005 method (0.54) and the previous SOTA (0.64). We also uncover why agents are so successful: They derive short greppable patterns from the fix commit diff and message and use them to effectively search and find bug-introducing commits in large candidate sets. Finally, we also discuss how these insights might enable further progress in bug detection, root cause understanding, and repair.
- Abstract(参考訳): Oliwerski、Zimmermann、Zeller(SZZ)は、2026年にACM SIGSOFT Impact Awardを受賞した。
2005年の論文は、ソフトウェアリポジトリの修正コミットからバグ導入変更(あるいはコミット)を特定することを目的とした、幅広いアプローチの基礎となった。
しかし2020年の進歩の後でも、2025年のベストパフォーマンスのアプローチは、最も人気のあるLinuxカーネルデータセットのF1スコアにおいて、わずかに10%上昇する。
本稿では,LSMをベースとしたエージェントが,バグ発生コミットを修正コミットから特定する上で,いかにして,いかにして,どのようにして,その最先端化を実現できるかを明らかにする。
提案手法は,F1スコアを最も人気のあるLinuxカーネルデータセットで0.64から0.81に上げ,2005年のメソッド0.54と以前のSOTA(0.64)との差を大きくした単純なエージェントワークフローを提案する。
それらは、固定コミットdiffとメッセージから短いgreppableパターンを導き出し、大きな候補セットにおけるバグ導入コミットを効果的に検索し、見つけるためにそれらを使用します。
最後に、これらの洞察によってバグの検出、根本原因の理解、修復がさらに進展する可能性についても論じる。
関連論文リスト
- GREPO: A Benchmark for Graph Neural Networks on Repository-Level Bug Localization [50.009407518866965]
リポジトリレベルのバグローカライゼーションは、ソフトウェアエンジニアリングの重要な課題です。
GNNは、複雑なリポジトリ全体の依存関係をモデル化できるため、有望な代替手段を提供する。
GREPOは、リポジトリスケールのバグローカライゼーションタスクのための最初のGNNベンチマークである。
論文 参考訳(メタデータ) (2026-02-14T23:22:15Z) - Outrunning LLM Cutoffs: A Live Kernel Crash Resolution Benchmark for All [57.23434868678603]
Live-kBenchは、新たに発見されたカーネルバグのエージェントをスクラップし、評価するセルフ進化ベンチマークの評価フレームワークである。
kEnvは、カーネルのコンパイル、実行、フィードバックのためのエージェントに依存しないクラッシュ解決環境である。
kEnvを用いて3つの最先端エージェントをベンチマークし、最初の試行で74%のクラッシュを解決したことを示す。
論文 参考訳(メタデータ) (2026-02-02T19:06:15Z) - Where LLM Agents Fail and How They can Learn From Failures [62.196870049524364]
大規模言語モデル(LLM)エージェントは、複雑なマルチステップタスクの解決において有望であることを示す。
単一ルート原因エラーがその後の決定を通じて伝播する、障害のカスケードに対する脆弱性を増幅する。
現在のシステムは、モジュール的で体系的な方法でエージェントエラーを包括的に理解できるフレームワークを欠いている。
AgentErrorTaxonomyは、メモリ、リフレクション、計画、アクション、システムレベルの操作にまたがる障害モードのモジュール分類である。
論文 参考訳(メタデータ) (2025-09-29T18:20:27Z) - What Do They Fix? LLM-Aided Categorization of Security Patches for Critical Memory Bugs [46.325755802511026]
我々は、LLM(Large Language Model)と細調整された小言語モデルに基づく2つのアプローチを統合するデュアルメタルパイプラインであるLMを開発した。
LMは、OOBまたはUAFの脆弱性に対処する最近のLinuxカーネルのパッチ5,140のうち111つを、手作業による検証によって90の正の正が確認された。
論文 参考訳(メタデータ) (2025-09-26T18:06:36Z) - Identifying Root Cause of bugs by Capturing Changed Code Lines with Relational Graph Neural Networks [7.676213873923721]
本稿では,変化したコード行中のルート原因削除線を検出するRC検出法を提案する。
RC検出は、変更されたコード行中のルート原因の削除線を検出し、バグ修正コミットで導入されたバグの根本原因を特定するために使用される。
実験の結果,最も先進的な根本原因検出法と比較して,RC-detectionはRecall@1,Recall@2,Recall@3,MFRをそれぞれ4.107%,5.113%,4.289%,24.536%改善した。
論文 参考訳(メタデータ) (2025-05-02T04:29:09Z) - CrashFixer: A crash resolution agent for the Linux kernel [58.152358195983155]
この作業は、システムレベルのLinuxカーネルバグのベンチマークと、Linuxカーネルで実験を実行するプラットフォームを共有するkGymの上に構築されている。
CrashFixerはLinuxカーネルのバグに適応する最初のLCMベースのソフトウェア修復エージェントである。
論文 参考訳(メタデータ) (2025-04-29T04:18:51Z) - Automated Mapping of Vulnerability Advisories onto their Fix Commits in
Open Source Repositories [7.629717457706326]
実践経験と機械学習(ML)を組み合わせたアプローチを提案する。
アドバイザリから脆弱性に関する鍵情報を含むアドバイザリレコードを抽出する。
影響を受けるプロジェクトのソースコードリポジトリから、候補となる修正コミットのサブセットを取得する。
論文 参考訳(メタデータ) (2021-03-24T17:50:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。