論文の概要: InspectCoder: Dynamic Analysis-Enabled Self Repair through interactive LLM-Debugger Collaboration
- arxiv url: http://arxiv.org/abs/2510.18327v1
- Date: Tue, 21 Oct 2025 06:26:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:13.025177
- Title: InspectCoder: Dynamic Analysis-Enabled Self Repair through interactive LLM-Debugger Collaboration
- Title(参考訳): InspectCoder: インタラクティブLLM-Debuggerコラボレーションによる動的解析可能自己修復
- Authors: Yunkun Wang, Yue Zhang, Guochang Li, Chen Zhi, Binhua Li, Fei Huang, Yongbin Li, Shuiguang Deng,
- Abstract要約: 大きな言語モデル(LLM)は、診断が難しい複雑なロジックエラーを伴うバグの多いコードを生成することが多い。
対話型デバッガ制御による動的解析を LLM に委ねる初のエージェントプログラム修復システムである InspectCoder を提案する。
- 参考スコア(独自算出の注目度): 71.18377595277018
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) frequently generate buggy code with complex logic errors that are challenging to diagnose. While existing LLM-based self-repair approaches conduct intensive static semantic analysis or reply on superficial execution logs, they miss the in-depth runtime behaviors that often expose bug root causes-lacking the interactive dynamic analysis capabilities that make human debugging effective. We present InspectCoder, the first agentic program repair system that empowers LLMs to actively conduct dynamic analysis via interactive debugger control. Our dual-agent framework enables strategic breakpoint placement, targeted state inspection, and incremental runtime experimentation within stateful debugger sessions. Unlike existing methods that follow fixed log collection procedures, InspectCoder adaptively inspects and perturbs relevant intermediate states at runtime, and leverages immediate process rewards from debugger feedback to guide multi-step reasoning, transforming LLM debugging paradigm from blind trial-and-error into systematic root cause diagnosis. We conduct comprehensive experiments on two challenging self-repair benchmarks: BigCodeBench-R and LiveCodeBench-R. InspectCoder achieves 5.10%-60.37% relative improvements in repair accuracy over the strongest baseline, while delivering 1.67x-2.24x superior bug-fix efficiency respectively. We also contribute InspectWare, an open-source middleware that abstracts debugger complexities and maintains stateful debugging sessions across mainstream Python testing frameworks. Our work provides actionable insight into the interactive LLM-debugger systems, demonstrating the significant potential of LLM-driven dynamic analysis for automated software engineering.
- Abstract(参考訳): 大きな言語モデル(LLM)は、診断が難しい複雑なロジックエラーを伴うバグの多いコードを生成することが多い。
既存のLLMベースの自己修復アプローチは、集中的な静的セマンティック分析や、表面的な実行ログへの応答を行うが、バグの根本原因をしばしば暴露する詳細な実行時の振る舞いを見逃し、ヒューマンデバッグを効果的にするインタラクティブな動的解析機能を損なう。
対話型デバッガ制御による動的解析を LLM に委ねる初のエージェントプログラム修復システムである InspectCoder を提案する。
我々のデュアルエージェントフレームワークは、戦略的ブレークポイント配置、ターゲット状態検査、ステートフルデバッガセッションにおけるインクリメンタルランタイム実験を可能にする。
固定ログ収集手順に従う既存のメソッドとは異なり、InspectCoderは実行時に関連する中間状態の摂動を適応的に検査し、デバッガフィードバックからの即時プロセス報酬を利用して、多段階推論をガイドし、LCMデバッグパラダイムを盲目な試行錯誤から系統的な根本原因診断に変換する。
我々は、BigCodeBench-RとLiveCodeBench-Rの2つの挑戦的な自己修復ベンチマークについて包括的な実験を行った。
InspectCoderは、最強のベースラインに対する修復精度を5.10%-60.37%向上させ、それぞれ1.67x-2.24倍優れたバグ修正効率を提供する。
また、デバッガの複雑さを抽象化し、主流のPythonテストフレームワーク間でステートフルなデバッグセッションを維持するオープンソースのミドルウェアであるInspectWareにもコントリビュートしています。
我々の研究は、対話型LLMデバッガシステムに関する実用的な洞察を提供し、自動化されたソフトウェア工学におけるLLM駆動動的解析の有意義な可能性を示している。
関連論文リスト
- Detecting Pipeline Failures through Fine-Grained Analysis of Web Agents [0.48156730450374763]
この研究は既存のベンチマークを分析し、きめ細かい診断ツールの欠如を強調している。
本稿では,エージェントパイプラインを解釈可能なステージに分解し,詳細なエラー解析を行うモジュール評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-17T19:34:49Z) - How Can Input Reformulation Improve Tool Usage Accuracy in a Complex Dynamic Environment? A Study on $τ$-bench [58.114899897566964]
マルチターンの会話環境では、大きな言語モデル(LLM)は、一貫性のある推論とドメイン固有のポリシーへの固執にしばしば苦労する。
本稿では,関連するドメインルールを付加したユーザクエリを自動的に再構成するIRMA(Input-Reformulation Multi-Agent)フレームワークを提案する。
IRMAはReAct、Function Calling、Self-Reflectionをそれぞれ16.1%、12.7%、19.1%で大きく上回っている。
論文 参考訳(メタデータ) (2025-08-28T15:57:33Z) - Repeton: Structured Bug Repair with ReAct-Guided Patch-and-Test Cycles [1.387448620257867]
大規模言語モデル(LLM)は、コード生成と理解において強力な能力を示しているが、複雑なソフトウェアエンジニアリングタスクへの応用は、しばしば低い精度と限定的な解釈可能性に悩まされている。
実世界のGitの正確かつ自動化されたコード操作にLLMを活用する、完全にオープンソースなフレームワークであるRepetonを紹介します。
論文 参考訳(メタデータ) (2025-06-09T19:36:40Z) - Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。
実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文 参考訳(メタデータ) (2025-05-28T17:57:47Z) - MLE-Dojo: Interactive Environments for Empowering LLM Agents in Machine Learning Engineering [57.156093929365255]
自律型大規模言語モデル(LLM)エージェントを体系的に強化し、評価し、改善するためのガイムスタイルのフレームワーク。
MLE-Dojoは、現実的なエンジニアリングシナリオを反映した、多様でオープンなMLEタスクを慎重にキュレートする。
完全に実行可能な環境は、教師付き微調整と強化学習の両方を通して包括的なエージェントトレーニングをサポートする。
論文 参考訳(メタデータ) (2025-05-12T17:35:43Z) - REDO: Execution-Free Runtime Error Detection for COding Agents [3.9903610503301072]
Execution-free Error Detection for Coding Agents (REDO)は、実行時のエラーと静的解析ツールを統合する方法である。
我々はREDOが11.0%の精度と9.1%の重み付きF1スコアを達成し、最先端の手法よりも優れていることを示した。
論文 参考訳(メタデータ) (2024-10-10T18:06:29Z) - A Unified Debugging Approach via LLM-Based Multi-Agent Synergy [39.11825182386288]
FixAgentはマルチエージェントのシナジーによる統合デバッグのためのエンドツーエンドフレームワークである。
1.25$times$ 2.56$times$レポレベルのベンチマークであるDefects4Jのバグを修正した。
論文 参考訳(メタデータ) (2024-04-26T04:55:35Z) - CRITIC: Large Language Models Can Self-Correct with Tool-Interactive
Critiquing [139.77117915309023]
CRITICは、大規模な言語モデルに対して、ツールとのヒューマンインタラクションに似た方法で、自分たちのアウトプットの検証と修正を可能にする。
自由形式の質問応答、数学的プログラム合成、毒性低減を含む包括的評価は、CRITICがLLMの性能を一貫して向上することを証明している。
論文 参考訳(メタデータ) (2023-05-19T15:19:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。