論文の概要: DePro: Understanding the Role of LLMs in Debugging Competitive Programming Code
- arxiv url: http://arxiv.org/abs/2603.19399v1
- Date: Thu, 19 Mar 2026 18:46:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 19:48:38.842586
- Title: DePro: Understanding the Role of LLMs in Debugging Competitive Programming Code
- Title(参考訳): DePro: 競合プログラミングコードのデバッグにおけるLLMの役割を理解する
- Authors: Nabiha Parvez, Tanvin Sarkar Pallab, Mia Mohammad Imran, Tarannum Shaila Zaman,
- Abstract要約: DeProはテストケース駆動のアプローチで、新しいソリューションを生成するのではなく、既存のコードを修正することでプログラマを支援する。
Codeforcesによる13の障害のあるユーザ投稿の実験は、DeProが一貫して正しいソリューションを生成することを示した。
- 参考スコア(独自算出の注目度): 2.2340839344812866
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Debugging consumes a substantial portion of the software development lifecycle, yet the effectiveness of Large Language Models(LLMs) in this task is not well understood. Competitive programming offers a rich benchmark for such evaluation, given its diverse problem domains and strict efficiency requirements. We present an empirical study of LLM-based debugging on competitive programming problems and introduce DePro, a test-case driven approach that assists programmers by correcting existing code rather than generating new solutions. DePro combines brute-force reference generation, stress testing, and iterative LLM-guided refinement to identify and resolve errors efficiently.Experiments on 13 faulty user submissions from Codeforces demonstrate that DePro consistently produces correct solutions, reducing debugging attempts by up to 64% and debugging time by an average of 7.6 minutes per problem compared to human programmers and zero-shot LLM debugging.
- Abstract(参考訳): デバッグはソフトウェア開発ライフサイクルの大部分を消費するが、このタスクにおけるLarge Language Models(LLM)の有効性はよく理解されていない。
競合プログラミングは、様々な問題領域と厳密な効率要件を考えると、そのような評価のためのリッチなベンチマークを提供する。
競合するプログラミング問題に対するLCMベースのデバッグに関する実証的研究を行い、新しいソリューションを生成するのではなく、既存のコードを修正することでプログラマを支援するテストケース駆動のアプローチであるDeProを紹介した。
DeProは、ブルートフォースの参照生成、ストレステスト、反復LDM誘導による改善を組み合わせることで、エラーの特定と解決を効率的に行う。Codeforcesの13の欠陥ユーザによる実験では、DeProが一貫して正しいソリューションを生成し、デバッグ試行を最大64%、デバッグ時間を平均7.6分削減している。
関連論文リスト
- RepoDebug: Repository-Level Multi-Task and Multi-Language Debugging Evaluation of Large Language Models [49.83481415540291]
LLM(Large Language Models)は、コードのデバッグに非常に熟練している。
本稿ではマルチタスクおよび多言語リポジトリレベルのコードデバッグデータセットであるRepo Debugを紹介する。
最高のパフォーマンスモデルである Claude 3.5 Sonnect は,リポジトリレベルのデバッグでは依然としてうまく動作しない。
論文 参考訳(メタデータ) (2025-09-04T10:13:21Z) - Do AI models help produce verified bug fixes? [62.985237003585674]
大規模言語モデルは、ソフトウェアバグの修正に使用される。
本稿では,プログラマが大規模言語モデルを用いて,自身のスキルを補完する方法について検討する。
その結果は、プログラムバグに対する保証された修正を提供するAIとLLMの適切な役割への第一歩となる。
論文 参考訳(メタデータ) (2025-07-21T17:30:16Z) - Performance Review on LLM for solving leetcode problems [7.377558533352298]
本稿では,Lietcodeのプログラミング問題に対するLLM(Large Language Models)の総合的な性能評価について述べる。
我々は, GPT-4 と GPT-3.5-turbo を含む複数の LLM の解を生成する。
コード生成や問題解決タスクにおける現在のLLMの長所と短所を強調した。
論文 参考訳(メタデータ) (2025-02-16T08:52:45Z) - Impeding LLM-assisted Cheating in Introductory Programming Assignments via Adversarial Perturbation [42.49889252988544]
LLM(Large Language Model)ベースのプログラミングアシスタントは、プロのソフトウェア開発者の生産性を向上させるだけでなく、初歩的なコンピュータプログラミングコースでの不正行為を容易にする。
本稿では,導入プログラミング問題の収集に広く使用されている5つのLCMのベースライン性能について検討し,その性能を劣化させるために,逆方向の摂動を調べるとともに,導入プログラミング課題の実際のコード生成を妨げる上で,そのような摂動の有効性を理解することを目的としたユーザスタディの結果について述べる。
論文 参考訳(メタデータ) (2024-10-12T01:01:00Z) - Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。
LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。
本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文 参考訳(メタデータ) (2024-10-05T05:21:48Z) - Leveraging Print Debugging to Improve Code Generation in Large Language
Models [63.63160583432348]
大規模言語モデル(LLM)はコード生成タスクにおいて大きな進歩を遂げた。
しかし、複雑なデータ構造やアルゴリズムによるプログラミング問題に対処する彼らのパフォーマンスは、依然として準最適である。
そこで本稿では,LLM のデバッグを "print debugging" 手法でガイドする,コンテキスト内学習手法を提案する。
論文 参考訳(メタデータ) (2024-01-10T18:37:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。