論文の概要: Precise Debugging Benchmark: Is Your Model Debugging or Regenerating?
- arxiv url: http://arxiv.org/abs/2604.17338v2
- Date: Fri, 24 Apr 2026 00:21:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-27 15:36:26.19812
- Title: Precise Debugging Benchmark: Is Your Model Debugging or Regenerating?
- Title(参考訳): 正確なデバッギングベンチマーク: あなたのモデルはデバッギングか、あるいはリジェネレーションか?
- Authors: Wang Bill Zhu, Miaosen Chai, Shangshang Wang, Yejia Liu, Song Bian, Honghua Dong, Willie Neiswanger, Robin Jia,
- Abstract要約: このフレームワークは,任意のコーディングデータセットを,精度を意識したベンチマークに自動的に変換する。
必要な編集回数と、解決したバグ数を計測する2つの新しいメトリクスである、編集レベルの精度とバグレベルのリコールを定義します。
実験では、GPT-5.1-CodexやDeepSeek-V3.2-Thinkingのようなフロンティアモデルが76%を超えるが、精度は45%以下である。
- 参考スコア(独自算出の注目度): 31.082688278576356
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unlike code completion, debugging requires localizing faults and applying targeted edits. We observe that frontier LLMs often regenerate correct but over-edited solutions during debugging. To evaluate how far LLMs are from precise debugging, we introduce the Precise Debugging Benchmark (PDB) framework, which automatically converts any coding dataset into a debugging benchmark with precision-aware evaluation. PDB generates buggy programs by synthesizing verified atomic bugs and composing them into multi-bug programs. We define two novel metrics, edit-level precision and bug-level recall, which measures how many necessary edits are made and how many bugs are resolved. We release two evaluation benchmarks: PDB-Single-Hard on single-line bugs, and PDB-Multi on multi-line bugs. Experiments show that frontier models, such as GPT-5.1-Codex and DeepSeek-V3.2-Thinking, achieve unit-test pass rates above 76% but exhibit precision below 45%, even when explicitly instructed to perform minimal debugging. Finally, we show that iterative and agentic debugging strategies do not substantially improve precision or recall, highlighting the need to rethink post-training pipelines for coding models.
- Abstract(参考訳): コード補完とは異なり、デバッグにはフォールトをローカライズし、ターゲットとする編集を適用する必要がある。
我々は、デバッグ中にフロンティアLLMが正しいが過度に編集されたソリューションをしばしば再生するのを観察する。
LLMが正確なデバッグからどのくらい遠いかを評価するために、我々は、任意のコーディングデータセットを精度の高い評価を伴うデバッグベンチマークに自動的に変換するPrecise Debugging Benchmark(PDB)フレームワークを紹介します。
PDBは、検証済みのアトミックバグを合成し、それをマルチバグプログラムに構成することで、バギープログラムを生成する。
必要な編集回数と、解決したバグ数を計測する2つの新しいメトリクスである、編集レベルの精度とバグレベルのリコールを定義します。
単行バグのPDB-Single-Hardと複数行バグのPDB-Multiの2つの評価ベンチマークをリリースする。
実験の結果、GPT-5.1-CodexやDeepSeek-V3.2-Thinkingのようなフロンティアモデルは76%以上の単体テストで通過するが、最小限のデバッグを明示的に指示された場合でも45%未満の精度を示すことがわかった。
最後に、反復的およびエージェント的デバッグ戦略は精度やリコールを大幅に改善するものではないことを示し、コーディングモデルのための後トレーニングパイプラインを再考する必要性を強調した。
関連論文リスト
- InspectCoder: Dynamic Analysis-Enabled Self Repair through interactive LLM-Debugger Collaboration [71.18377595277018]
大きな言語モデル(LLM)は、診断が難しい複雑なロジックエラーを伴うバグの多いコードを生成することが多い。
対話型デバッガ制御による動的解析を LLM に委ねる初のエージェントプログラム修復システムである InspectCoder を提案する。
論文 参考訳(メタデータ) (2025-10-21T06:26:29Z) - VeriDebug: A Unified LLM for Verilog Debugging via Contrastive Embedding and Guided Correction [36.69082579950107]
コントラスト表現とガイド付き修正機能を統合するアプローチであるVeri Debugを提案する。
我々のモデルは、既存のオープンソースSOTA 11.3から大幅に改善されたバグ修正(Acc1)において64.7の精度を実現している。
この性能はオープンソースの代替品より優れているだけでなく、GPT-3.5-turbo (36.6)のような大型のクローズドソースモデルよりも優れている。
論文 参考訳(メタデータ) (2025-04-27T04:09:48Z) - From Code to Correctness: Closing the Last Mile of Code Generation with Hierarchical Debugging [7.503636246307676]
さまざまなレベルの粒度でバグを分離,識別,解決し,階層的なコードデバッガであるMulti-Granularity Debugger (MG Debugger)を紹介した。
MGデバッガは問題のあるコードをサブファンクションの階層木構造に分解し、各レベルは特定のエラーの粒度を表す。
これは、HumanEvalのシード世代の精度を18.9%向上させ、HumanEvalFixの97.6%の修復成功率を達成した。
論文 参考訳(メタデータ) (2024-10-02T03:57:21Z) - DebugBench: Evaluating Debugging Capability of Large Language Models [80.73121177868357]
DebugBench - LLM(Large Language Models)のベンチマーク。
C++、Java、Pythonの4つの主要なバグカテゴリと18のマイナータイプをカバーする。
ゼロショットシナリオで2つの商用および4つのオープンソースモデルを評価する。
論文 参考訳(メタデータ) (2024-01-09T15:46:38Z) - RAP-Gen: Retrieval-Augmented Patch Generation with CodeT5 for Automatic
Program Repair [75.40584530380589]
新たな検索型パッチ生成フレームワーク(RAP-Gen)を提案する。
RAP-Gen 以前のバグ修正ペアのリストから取得した関連する修正パターンを明示的に活用する。
RAP-GenをJavaScriptのTFixベンチマークとJavaのCode RefinementとDefects4Jベンチマークの2つのプログラミング言語で評価する。
論文 参考訳(メタデータ) (2023-09-12T08:52:56Z) - Teaching Large Language Models to Self-Debug [62.424077000154945]
大規模言語モデル(LLM)は、コード生成において素晴らしいパフォーマンスを達成した。
本稿では,大規模言語モデルで予測プログラムを数発のデモでデバッグする自己デバッグを提案する。
論文 参考訳(メタデータ) (2023-04-11T10:43:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。