論文の概要: Debug2Fix: Supercharging Coding Agents with Interactive Debugging Capabilities
- arxiv url: http://arxiv.org/abs/2602.18571v1
- Date: Fri, 20 Feb 2026 19:24:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.166858
- Title: Debug2Fix: Supercharging Coding Agents with Interactive Debugging Capabilities
- Title(参考訳): Debug2Fix: インタラクティブなデバッグ機能を備えたスーパーチャージコーディングエージェント
- Authors: Spandan Garg, Yufan Huang,
- Abstract要約: Debug2Fixは、インタラクティブなDebug2Fixをサブエージェントアーキテクチャを介してソフトウェアエンジニアリングエージェントの中核コンポーネントとして組み込む新しいフレームワークである。
我々はGitBug-JavaとSWE-Bench-Liveに対して評価を行い、特定のモデルのベースラインと比較して20%以上のパフォーマンス向上を実現した。
我々のフレームワークを使って、GPT-5やClaude Haiku 4.5のような弱いモデルを作るか、Claude Sonnet 4.5のようなより強いモデルのパフォーマンスを超えることができる。
- 参考スコア(独自算出の注目度): 3.506382476101256
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: While significant progress has been made in automating various aspects of software development through coding agents, there is still significant room for improvement in their bug fixing capabilities. Debugging and investigation of runtime behavior remains largely a manual, developer-driven process. Popular coding agents typically rely on either static analysis of the code or iterative test-fix cycles, which is akin to trial and error debugging. We posit that there is a wealth of rich runtime information that developers routinely access while debugging code, which agents are currently deprived of due to design limitations. Despite how prevalent debuggers are in modern IDEs and command-line tools, they have surprisingly not made their way into coding agents. In this work, we introduce Debug2Fix, a novel framework that incorporates interactive debugging as a core component of a software engineering agent via a subagent architecture. We incorporate debuggers for Java and Python into our agent framework and evaluate against GitBug-Java and SWE-Bench-Live and achieve >20% improvement in performance compared to the baseline for certain models. Furthermore, using our framework, we're able to make weaker models like GPT-5 and Claude Haiku 4.5 match or exceed the performances of stronger models like Claude Sonnet 4.5, showing that better tool design is often just as important as switching to a more expensive model. Finally, we conduct systematic ablations demonstrating the importance of both the subagent architecture and debugger integration.
- Abstract(参考訳): コーディングエージェントによるソフトウェア開発のさまざまな側面の自動化には大きな進歩があったが、バグ修正機能の改善の余地は依然として大きい。
実行時の動作のデバッグと調査は、大部分が手作業による開発者主導のプロセスである。
一般的なコーディングエージェントは、通常、コードの静的解析または反復的なテスト修正サイクルに依存する。
私たちは、開発者がデバッグ中に日常的にアクセスする豊富なランタイム情報が豊富にあると仮定します。
現代的なIDEやコマンドラインツールにおいてデバッガがいかに広く使われているかに関わらず、彼らは驚くほどコーディングエージェントに移行していない。
本稿では,Debug2Fixを紹介する。Debug2Fixは,対話型デバッグをサブエージェントアーキテクチャを介してソフトウェアエンジニアリングエージェントのコアコンポーネントとして組み込む新しいフレームワークである。
Java と Python 用のデバッガをエージェントフレームワークに組み込んで,GitBug-Java と SWE-Bench-Live に対して評価し,特定のモデルのベースラインと比較して 20% 以上のパフォーマンス向上を実現しています。
さらに、我々のフレームワークを使って、GPT-5やClaude Haiku 4.5のような弱いモデルを作ることができ、あるいはClaude Sonnet 4.5のようなより強力なモデルのパフォーマンスを超えることができる。
最後に,サブエージェントアーキテクチャとデバッガ統合の両方の重要性を実証する。
関連論文リスト
- InspectCoder: Dynamic Analysis-Enabled Self Repair through interactive LLM-Debugger Collaboration [71.18377595277018]
大きな言語モデル(LLM)は、診断が難しい複雑なロジックエラーを伴うバグの多いコードを生成することが多い。
対話型デバッガ制御による動的解析を LLM に委ねる初のエージェントプログラム修復システムである InspectCoder を提案する。
論文 参考訳(メタデータ) (2025-10-21T06:26:29Z) - Where LLM Agents Fail and How They can Learn From Failures [62.196870049524364]
大規模言語モデル(LLM)エージェントは、複雑なマルチステップタスクの解決において有望であることを示す。
単一ルート原因エラーがその後の決定を通じて伝播する、障害のカスケードに対する脆弱性を増幅する。
現在のシステムは、モジュール的で体系的な方法でエージェントエラーを包括的に理解できるフレームワークを欠いている。
AgentErrorTaxonomyは、メモリ、リフレクション、計画、アクション、システムレベルの操作にまたがる障害モードのモジュール分類である。
論文 参考訳(メタデータ) (2025-09-29T18:20:27Z) - ToolCoder: A Systematic Code-Empowered Tool Learning Framework for Large Language Models [81.12673534903979]
ツール学習は、大規模な言語モデル(LLM)にとって、外部ツールとのインタラクションを通じて、複雑な現実世界のタスクを解決する重要な機能として登場した。
本稿では,ツール学習をコード生成タスクとして再編成する新しいフレームワークであるToolCoderを提案する。
論文 参考訳(メタデータ) (2025-02-17T03:42:28Z) - Evaluating Software Development Agents: Patch Patterns, Code Quality, and Issue Complexity in Real-World GitHub Scenarios [13.949319911378826]
この調査は、500の現実のGitHubイシューで上位10のエージェントから4,892のパッチを評価した。
一人のエージェントが支配的であり、170の問題が未解決であり、改善の余地があった。
ほとんどのエージェントはコードの信頼性とセキュリティを維持し、新しいバグや脆弱性を避けた。
一部のエージェントはコードの複雑さを増し、多くの重複を減らし、コードの臭いを最小限にした。
論文 参考訳(メタデータ) (2024-10-16T11:33:57Z) - AutoGen Studio: A No-Code Developer Tool for Building and Debugging Multi-Agent Systems [31.113305753414913]
ATOGEN STUDIOは、マルチエージェントシステムを迅速にプロトタイピングするためのノーコード開発ツールである。
エージェント仕様のための直感的なドラッグ&ドロップUI、インタラクティブな評価、再利用可能なエージェントコンポーネントのギャラリーを提供する。
論文 参考訳(メタデータ) (2024-08-09T03:27:37Z) - A Unified Debugging Approach via LLM-Based Multi-Agent Synergy [39.11825182386288]
FixAgentはマルチエージェントのシナジーによる統合デバッグのためのエンドツーエンドフレームワークである。
1.25$times$ 2.56$times$レポレベルのベンチマークであるDefects4Jのバグを修正した。
論文 参考訳(メタデータ) (2024-04-26T04:55:35Z) - DebugBench: Evaluating Debugging Capability of Large Language Models [80.73121177868357]
DebugBench - LLM(Large Language Models)のベンチマーク。
C++、Java、Pythonの4つの主要なバグカテゴリと18のマイナータイプをカバーする。
ゼロショットシナリオで2つの商用および4つのオープンソースモデルを評価する。
論文 参考訳(メタデータ) (2024-01-09T15:46:38Z) - Detect-Localize-Repair: A Unified Framework for Learning to Debug with
CodeT5 [14.712753336831172]
本稿では,事前訓練されたプログラミング言語モデルであるCodeT5に基づく,新しい統一型emphDetect-Localize-Repairフレームワークを提案する。
我々のモデルは、NLPとソフトウェア工学の両方の領域から既存のベースラインを著しく上回ります。
論文 参考訳(メタデータ) (2022-11-27T16:11:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。