論文の概要: DebugHarness: Emulating Human Dynamic Debugging for Autonomous Program Repair
- arxiv url: http://arxiv.org/abs/2604.03610v1
- Date: Sat, 04 Apr 2026 06:49:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:18.670161
- Title: DebugHarness: Emulating Human Dynamic Debugging for Autonomous Program Repair
- Title(参考訳): DebugHarness: 自律的なプログラム修復のための人間の動的デバッグをエミュレートする
- Authors: Maolin Sun, Yibiao Yang, Xuanlin Liu, Yuming Zhou, Baowen Xu,
- Abstract要約: DebugHarnessはLarge Language Model (LLM)を利用した自動デバッグエージェントである。
静的コードを調べる代わりに、DebugHarnessはライブランタイム環境に積極的に問い合わせる。
実世界のC/C++セキュリティ脆弱性の厳格なデータセットであるSEC-bench上でDebugHarnessを評価する。
- 参考スコア(独自算出の注目度): 8.290621289192048
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Patching severe security flaws in complex software remains a major challenge. While automated tools like fuzzers efficiently discover bugs, fixing deep-rooted low-level faults (e.g., use-after-free and memory corruption) still requires labor-intensive manual analysis by experts. Emerging Large Language Model (LLM) agents attempt to automate this pipeline, but they typically treat bug fixing as a purely static code-generation task. Relying solely on static artifacts, these methods miss the dynamic execution context strictly necessary for diagnosing intricate memory safety violations. To overcome these limitations, we introduce DebugHarness, an autonomous LLM-powered debugging agent harness that resolves complex vulnerabilities by emulating the interactive debugging practices of human systems engineers. Instead of merely examining static code, DebugHarness actively queries the live runtime environment. Driven by a reproducible crash, it utilizes a pattern-guided investigation strategy to formulate hypotheses, interactively probes program memory states and execution paths, and synthesizes patches via a closed-loop validation cycle. We evaluate DebugHarness on SEC-bench, a rigorous dataset of real-world C/C++ security vulnerabilities. DebugHarness successfully patches approximately 90% of the evaluated bugs. This yields a relative improvement of over 30% compared to state-of-the-art baselines, demonstrating that dynamic debugging significantly enhances LLM diagnostic capabilities. Overall, DebugHarness establishes a novel paradigm for automated program repair, bridging the gap between static LLM reasoning and the dynamic intricacies of low-level systems programming.
- Abstract(参考訳): 複雑なソフトウェアで深刻なセキュリティ欠陥に対処することは、依然として大きな課題である。
ファジィザのような自動化ツールがバグを効率的に発見する一方で、根深い低レベルの障害(例えば、使用後無用、メモリの破損)を修正するには、専門家による労働集約的な手作業分析が必要である。
Emerging Large Language Model (LLM)エージェントはこのパイプラインを自動化しようとするが、バグ修正を純粋に静的なコード生成タスクとして扱うのが一般的である。
静的アーティファクトにのみ依存するため、これらのメソッドは複雑なメモリ安全性違反の診断に必要な動的実行コンテキストを見逃す。
これらの制限を克服するために、人間のシステムエンジニアのインタラクティブなデバッグプラクティスをエミュレートすることで、複雑な脆弱性を解決する自律的なLLMベースのデバッグエージェントであるDebugHarnessを紹介します。
静的コードを調べる代わりに、DebugHarnessはライブランタイム環境に積極的に問い合わせる。
再現可能なクラッシュによって駆動され、パターン誘導された調査戦略を使用して仮説を定式化し、プログラムのメモリ状態と実行パスをインタラクティブにプローブし、クローズドループ検証サイクルを介してパッチを合成する。
実世界のC/C++セキュリティ脆弱性の厳格なデータセットであるSEC-bench上でDebugHarnessを評価する。
DebugHarnessは評価済みバグの約90%をパッチした。
これにより、最先端のベースラインと比較して30%以上の相対的な改善が得られ、動的デバッグがLSM診断能力を著しく向上することを示した。
全体として、DebugHarnessは、静的LLM推論と低レベルのシステムプログラミングの動的複雑さの間のギャップを埋める、プログラムの自動修復のための新しいパラダイムを確立している。
関連論文リスト
- Runtime Execution Traces Guided Automated Program Repair with Multi-Agent Debate [8.424102114588559]
自動プログラム修復(APR)は複雑なロジックエラーとサイレント障害に悩まされる。
現在のLLMベースのAPRメソッドは主に静的であり、ソースコードと基本的なテスト出力に依存している。
我々は、パッチ検証のための共有制約としてランタイム事実を活用するマルチエージェントフレームワークであるTraceRepairを提案する。
論文 参考訳(メタデータ) (2026-04-03T02:23:25Z) - Dynamic analysis enhances issue resolution [53.50448142467294]
DAIRA(Dynamic Analysis-enhanced Issue Resolution Agent)は、エージェントの推論サイクルに動的解析を組み込む自動修復フレームワークである。
テストトレース駆動の方法論によって駆動されるDAIRAは、軽量モニタを使用して重要なランタイムデータを抽出する。
Gemini 3 Flash Previewを使用すると、DAIRAは新たな最先端(SOTA)パフォーマンスを確立し、SWE-bench Verifiedデータセットで79.4%の解像度を達成する。
論文 参考訳(メタデータ) (2026-03-23T14:48:54Z) - VIBEPASS: Can Vibe Coders Really Pass the Vibe Check? [46.85901599242161]
emphFault-Triggering Test Generation(FT-Test)とemphFault-targeted Program repair(FPR)の2つの組み合わせタスクを評価した。
故障対象推論は一般的な符号化能力ではスケールしないことがわかった。
自己生成テストが障害の発見に成功すると、結果として得られた修復結果が外部から提供されたテストによってガイドされた修復と一致したり、性能が低下する。
論文 参考訳(メタデータ) (2026-03-16T21:14:28Z) - RealSec-bench: A Benchmark for Evaluating Secure Code Generation in Real-World Repositories [58.32028251925354]
LLM(Large Language Models)は、コード生成において顕著な能力を示しているが、セキュアなコードを生成する能力は依然として重要で、未調査の領域である。
我々はRealSec-benchを紹介します。RealSec-benchは、現実世界の高リスクなJavaリポジトリから慎重に構築されたセキュアなコード生成のための新しいベンチマークです。
論文 参考訳(メタデータ) (2026-01-30T08:29:01Z) - InspectCoder: Dynamic Analysis-Enabled Self Repair through interactive LLM-Debugger Collaboration [71.18377595277018]
大きな言語モデル(LLM)は、診断が難しい複雑なロジックエラーを伴うバグの多いコードを生成することが多い。
対話型デバッガ制御による動的解析を LLM に委ねる初のエージェントプログラム修復システムである InspectCoder を提案する。
論文 参考訳(メタデータ) (2025-10-21T06:26:29Z) - Repeton: Structured Bug Repair with ReAct-Guided Patch-and-Test Cycles [1.387448620257867]
大規模言語モデル(LLM)は、コード生成と理解において強力な能力を示しているが、複雑なソフトウェアエンジニアリングタスクへの応用は、しばしば低い精度と限定的な解釈可能性に悩まされている。
実世界のGitの正確かつ自動化されたコード操作にLLMを活用する、完全にオープンソースなフレームワークであるRepetonを紹介します。
論文 参考訳(メタデータ) (2025-06-09T19:36:40Z) - Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。
実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文 参考訳(メタデータ) (2025-05-28T17:57:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。