論文の概要: Runtime Execution Traces Guided Automated Program Repair with Multi-Agent Debate
- arxiv url: http://arxiv.org/abs/2604.02647v1
- Date: Fri, 03 Apr 2026 02:23:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 17:20:24.28112
- Title: Runtime Execution Traces Guided Automated Program Repair with Multi-Agent Debate
- Title(参考訳): マルチエージェントディベートによる自動プログラム修正をガイドした実行時実行トレース
- Authors: Jiaqing Wu, Tong Wu, Manqing Zhang, Yunwei Dong, Bo Shen,
- Abstract要約: 自動プログラム修復(APR)は複雑なロジックエラーとサイレント障害に悩まされる。
現在のLLMベースのAPRメソッドは主に静的であり、ソースコードと基本的なテスト出力に依存している。
我々は、パッチ検証のための共有制約としてランタイム事実を活用するマルチエージェントフレームワークであるTraceRepairを提案する。
- 参考スコア(独自算出の注目度): 8.424102114588559
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automated Program Repair (APR) struggles with complex logic errors and silent failures. Current LLM-based APR methods are mostly static, relying on source code and basic test outputs, which fail to accurately capture complex runtime behaviors and dynamic data dependencies. While incorporating runtime evidence like execution traces exposes concrete state transitions, a single LLM interpreting this in isolation often overfits to specific hypotheses, producing patches that satisfy tests by coincidence rather than correct logic. Therefore, runtime evidence should act as objective constraints rather than mere additional input. We propose TraceRepair, a multi-agent framework that leverages runtime facts as shared constraints for patch validation. A probe agent captures execution snapshots of critical variables to form an objective repair basis. Meanwhile, a committee of specialized agents cross-verifies candidate patches to expose inconsistencies and iteratively refine them. Evaluated on the Defects4J benchmark, TraceRepair correctly fixes 392 defects, substantially outperforming existing LLM-based approaches. Extensive experiments demonstrate improved efficiency and strong generalization on a newly constructed dataset of recent bugs, confirming that performance gains arise from dynamic reasoning rather than memorization.
- Abstract(参考訳): 自動プログラム修復(APR)は複雑なロジックエラーとサイレント障害に悩まされる。
現在のLLMベースのAPRメソッドはほとんどが静的で、ソースコードと基本的なテスト出力に依存しており、複雑なランタイムの振る舞いや動的データ依存関係を正確にキャプチャできない。
実行トレースのような実行時エビデンスを組み込むことは、具体的な状態遷移を露呈するが、これを独立して解釈する単一のLCMは、しばしば特定の仮説に過度に適合し、正しい論理ではなく偶然にテストを満たすパッチを生成する。
したがって、実行時のエビデンスは、単なる追加入力ではなく、客観的な制約として振る舞うべきです。
我々は、パッチ検証のための共有制約としてランタイム事実を活用するマルチエージェントフレームワークであるTraceRepairを提案する。
プローブエージェントは、クリティカル変数の実行スナップショットをキャプチャして、客観的な修復ベースを形成する。
一方、専門エージェントの委員会は、不整合を暴露し、それらを反復的に洗練するために、候補パッチを横断的に検証する。
Defects4Jベンチマークで評価すると、TraceRepairは392の欠陥を正しく修正し、既存のLCMベースのアプローチを大幅に上回っている。
大規模な実験は、新しく構築された最近のバグのデータセット上で効率の向上と強力な一般化を示し、記憶よりも動的な推論によってパフォーマンスが向上することを確認する。
関連論文リスト
- Detect--Repair--Verify for LLM-Generated Code: A Multi-Language, Multi-Granularity Empirical Study [10.18490328199727]
大規模な言語モデルは実行可能なソフトウェアアーチファクトを生成することができるが、そのセキュリティはエンドツーエンドの評価が難しいままである。
本研究では、脆弱性を検出し、修復し、セキュリティおよび機能テストで再チェックするDRVワークフローを通じて、その問題を調査する。
現在の証拠の4つのギャップに対処する: LLMの生成したアーティファクトの試験的なベンチマークの欠如、パイプラインレベルの有効性に関する限られた証拠、修正ガイダンスとしての検出レポートの不確実な信頼性、検証中の不確実な修復信頼性。
論文 参考訳(メタデータ) (2026-03-24T18:18:30Z) - Dynamic analysis enhances issue resolution [53.50448142467294]
DAIRA(Dynamic Analysis-enhanced Issue Resolution Agent)は、エージェントの推論サイクルに動的解析を組み込む自動修復フレームワークである。
テストトレース駆動の方法論によって駆動されるDAIRAは、軽量モニタを使用して重要なランタイムデータを抽出する。
Gemini 3 Flash Previewを使用すると、DAIRAは新たな最先端(SOTA)パフォーマンスを確立し、SWE-bench Verifiedデータセットで79.4%の解像度を達成する。
論文 参考訳(メタデータ) (2026-03-23T14:48:54Z) - TraceCoder: A Trace-Driven Multi-Agent Framework for Automated Debugging of LLM-Generated Code [11.207330722400764]
人間の観察・分析・修復過程をエミュレートするフレームワークであるTraceCoderを提案する。
このフレームワークはまずコードを診断プローブで測定し、粒度の細かいランタイムトレースをキャプチャする。
その後、これらのトレースについて因果解析を行い、失敗の根本原因を正確に特定する。
論文 参考訳(メタデータ) (2026-02-06T16:59:48Z) - DoVer: Intervention-Driven Auto Debugging for LLM Multi-Agent Systems [48.971606069204825]
DoVerは、大規模言語モデル(LLM)ベースのマルチエージェントシステムのための介入駆動デバッグフレームワークである。
ターゲットの介入を通じて、アクティブな検証によって仮説生成を増強する。
DoVerは失敗試験の18~28%を成功させ、最大16%のマイルストーンを達成し、失敗仮説の30~60%を検証または否定する。
論文 参考訳(メタデータ) (2025-12-07T09:23:48Z) - InspectCoder: Dynamic Analysis-Enabled Self Repair through interactive LLM-Debugger Collaboration [71.18377595277018]
大きな言語モデル(LLM)は、診断が難しい複雑なロジックエラーを伴うバグの多いコードを生成することが多い。
対話型デバッガ制御による動的解析を LLM に委ねる初のエージェントプログラム修復システムである InspectCoder を提案する。
論文 参考訳(メタデータ) (2025-10-21T06:26:29Z) - Specification-Guided Repair of Arithmetic Errors in Dafny Programs using LLMs [79.74676890436174]
本稿では,障害の局所化と修復のためのオラクルとして形式仕様を用いたDafny用のAPRツールを提案する。
プログラム内の各ステートメントの状態を決定するために、Hoareロジックの使用を含む一連のステップを通じて、障害をローカライズします。
また, GPT-4o miniが74.18%と高い修理成功率を示した。
論文 参考訳(メタデータ) (2025-07-04T15:36:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。