Fugu-MT 論文翻訳(概要): DebugBench: Evaluating Debugging Capability of Large Language Models

論文の概要: DebugBench: Evaluating Debugging Capability of Large Language Models

arxiv url: http://arxiv.org/abs/2401.04621v2
Date: Thu, 11 Jan 2024 11:48:36 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-12 11:17:10.298923
Title: DebugBench: Evaluating Debugging Capability of Large Language Models
Title（参考訳）: debugbench: 大きな言語モデルのデバッグ能力を評価する
Authors: Runchu Tian, Yining Ye, Yujia Qin, Xin Cong, Yankai Lin, Yinxu Pan, Yesai Wu, Zhiyuan Liu, Maosong Sun
Abstract要約: DebugBench - LLM(Large Language Models)のベンチマーク。 C++、Java、Pythonの4つの主要なバグカテゴリと18のマイナータイプをカバーする。ゼロショットシナリオで2つの商用モデルと3つのオープンソースモデルを評価する。
参考スコア（独自算出の注目度）: 89.13051256657995
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) have demonstrated exceptional coding capability. However, as another critical component of programming proficiency, the debugging capability of LLMs remains relatively unexplored. Previous evaluations of LLMs' debugging ability are significantly limited by the risk of data leakage, the scale of the dataset, and the variety of tested bugs. To overcome these deficiencies, we introduce `DebugBench', an LLM debugging benchmark consisting of 4,253 instances. It covers four major bug categories and 18 minor types in C++, Java, and Python. To construct DebugBench, we collect code snippets from the LeetCode community, implant bugs into source data with GPT-4, and assure rigorous quality checks. We evaluate two commercial and three open-source models in a zero-shot scenario. We find that (1) while closed-source models like GPT-4 exhibit inferior debugging performance compared to humans, open-source models such as Code Llama fail to attain any pass rate scores; (2) the complexity of debugging notably fluctuates depending on the bug category; (3) incorporating runtime feedback has a clear impact on debugging performance which is not always helpful. As an extension, we also compare LLM debugging and code generation, revealing a strong correlation between them for closed-source models. These findings will benefit the development of LLMs in debugging.
Abstract（参考訳）: 大きな言語モデル(LLM)は、例外的なコーディング能力を示している。しかし、プログラミング能力のもう1つの重要な要素として、llmsのデバッグ能力は比較的未検討である。 LLMのデバッグ能力のこれまでの評価は、データ漏洩のリスク、データセットのスケール、さまざまなテストバグによって大幅に制限されている。これらの欠陥を克服するために,4,253インスタンスからなるLLMデバッグベンチマークである‘DebugBench’を導入する。 C++、Java、Pythonの4つの主要なバグカテゴリと18のマイナータイプをカバーする。 DebugBenchを構築するために、LeetCodeコミュニティからコードスニペットを収集し、GPT-4でバグをソースデータに埋め込み、厳格な品質チェックを保証します。ゼロショットシナリオで2つの商用モデルと3つのオープンソースモデルを評価する。 1) GPT-4のようなクローズドソースモデルは人間に比べてデバッグ性能が劣るが,Code Llamaのようなオープンソースモデルではパスレートスコアが得られず,(2)デバッグの複雑さはバグカテゴリによって顕著に変動する。拡張として、LLMデバッグとコード生成を比較し、クローズドソースモデルに対するそれらの相関関係を強く明らかにする。これらの発見は、デバッグにおけるLLMの開発に役立つだろう。

関連論文リスト

BugPilot: Complex Bug Generation for Efficient Learning of SWE Skills [59.003563837981886]
高品質なバグは、次世代の言語モデルベースソフトウェアエンジニアリング(SWE)エージェントをトレーニングする鍵となる。難易度および多種多様なバグを合成する新しい方法を提案する。
論文参考訳（メタデータ） (2025-10-22T17:58:56Z)
RepoDebug: Repository-Level Multi-Task and Multi-Language Debugging Evaluation of Large Language Models [49.83481415540291]
LLM(Large Language Models)は、コードのデバッグに非常に熟練している。本稿ではマルチタスクおよび多言語リポジトリレベルのコードデバッグデータセットであるRepo Debugを紹介する。最高のパフォーマンスモデルである Claude 3.5 Sonnect は,リポジトリレベルのデバッグでは依然としてうまく動作しない。
論文参考訳（メタデータ） (2025-09-04T10:13:21Z)
OpenCodeInstruct: A Large-scale Instruction Tuning Dataset for Code LLMs [62.68905180014956]
我々は,500万の多様なサンプルからなる最大オープンアクセス命令チューニングデータセットであるOpenCodeInstructを紹介した。各サンプルには、プログラミング質問、ソリューション、テストケース、実行フィードバック、LLM生成の品質評価が含まれている。 LLaMAやQwenなど,さまざまなベースモデルを,データセットを使用して複数のスケール(1B+,3B+,7B+)にわたって微調整します。
論文参考訳（メタデータ） (2025-04-05T02:52:16Z)
LLPut: Investigating Large Language Models for Bug Report-Based Input Generation [0.0]
エラーを引き起こすインプットは、ソフトウェアバグの診断と分析において重要な役割を担います。従来の研究では、様々な自然言語処理(NLP)技術を利用して自動入力抽出を行っている。大規模言語モデル (LLMs) の出現により、重要な研究課題が生じる: ジェネレーティブLLMは、バグレポートから障害誘発インプットを効果的に抽出できるのか?
論文参考訳（メタデータ） (2025-03-26T14:25:01Z)
Learning to Solve and Verify: A Self-Play Framework for Code and Test Generation [69.62857948698436]
大規模言語モデル(LLM)の最近の進歩は、コーディングベンチマークのパフォーマンスを改善している。しかし、手軽に利用できる高品質なデータの枯渇により、改善は停滞している。本稿では,単一モデルのコードとテスト生成能力を共同で改善するセルフプレイ・ソルバ検証フレームワークであるSol-Verを提案する。
論文参考訳（メタデータ） (2025-02-20T18:32:19Z)
Are Large Language Models Memorizing Bug Benchmarks? [6.640077652362016]
大規模言語モデル(LLM)は、コード生成、バグ検出、修復など、様々なソフトウェアエンジニアリングタスクに不可欠なものになっている。ソフトウェアエンジニアリングコミュニティの懸念は、ベンチマークがデータ漏洩のリスクのため、真のLLMパフォーマンスを確実に反映していないことだ。一般的なLSMを系統的に評価し、広く使われているバグベンチマークからデータ漏洩に対する感受性を評価する。
論文参考訳（メタデータ） (2024-11-20T13:46:04Z)
MdEval: Massively Multilingual Code Debugging [37.48700033342978]
18のプログラミング言語の3.6Kテストサンプルを含む,最初の大規模多言語デバッグベンチマークを提案する。本稿では, MDEVAL-INSTRUCT 命令コーパスを導入し, 正しい多言語クエリとソリューションにバグを注入する。 MDEVALにおける実験により,オープンソースモデルとクローズドソースLLM間の顕著な性能差が明らかになった。
論文参考訳（メタデータ） (2024-11-04T17:36:40Z)
See What LLMs Cannot Answer: A Self-Challenge Framework for Uncovering LLM Weaknesses [51.975495361024606]
本稿では,Human-in-the-loopを用いたセルフチェレンジ評価フレームワークを提案する。 GPT-4が答えられないシードインスタンスから始めて、GPT-4に新しいインスタンスを生成するのに使えるエラーパターンを要約するように促します。次に,GPT-4が生成する1,835個のインスタンスと,人手によるゴールド応答を併用したベンチマーク,SC-G4を構築した。
論文参考訳（メタデータ） (2024-08-16T19:01:52Z)
Enhancing the Code Debugging Ability of LLMs via Communicative Agent Based Data Refinement [29.667170755786508]
本稿ではまず,大規模言語モデル(LLM)のデバッグ能力を評価するためのベンチマークであるEVALを紹介する。 Masterは、教師付き微調整のための定義されたタスクに従って洗練されたコードデータを生成する。最後に、Code Learnerは、批評家として機能し、解決できない発生した問題を予約する。
論文参考訳（メタデータ） (2024-08-09T11:35:44Z)
What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。 3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文参考訳（メタデータ） (2024-07-08T17:27:17Z)
Leveraging Print Debugging to Improve Code Generation in Large Language Models [63.63160583432348]
大規模言語モデル(LLM)はコード生成タスクにおいて大きな進歩を遂げた。しかし、複雑なデータ構造やアルゴリズムによるプログラミング問題に対処する彼らのパフォーマンスは、依然として準最適である。そこで本稿では,LLM のデバッグを "print debugging" 手法でガイドする,コンテキスト内学習手法を提案する。
論文参考訳（メタデータ） (2024-01-10T18:37:59Z)
Language Models are Better Bug Detector Through Code-Pair Classification [0.26107298043931204]
本稿では,バグギー版とバグギー版の両方をモデルに付与するコードペア分類タスクを提案し,バグギー版とバグギー版を識別する。実験によると、LLMはバグのないバージョンのコードからバグを拾うことができ、コードペアの分類タスクはスニペットを与え、バグが存在するかどうかを判断するよりもずっと簡単である。
論文参考訳（メタデータ） (2023-11-14T07:20:57Z)
Isolating Compiler Bugs by Generating Effective Witness Programs with Large Language Models [10.660543763757518]
既存のコンパイラのバグ分離アプローチは、問題をテストプログラムの突然変異問題に変換する。コンパイラのバグ分離のための効率的なテストプログラムを生成するために,LLM4CBIという新しい手法を提案する。 GCCとLLVMの120以上の実際のバグに対する最先端のアプローチと比較し,LLM4CBIの利点を実証した。
論文参考訳（メタデータ） (2023-07-02T15:20:54Z)
LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文参考訳（メタデータ） (2023-05-23T21:50:06Z)
Teaching Large Language Models to Self-Debug [62.424077000154945]
大規模言語モデル(LLM)は、コード生成において素晴らしいパフォーマンスを達成した。本稿では,大規模言語モデルで予測プログラムを数発のデモでデバッグする自己デバッグを提案する。
論文参考訳（メタデータ） (2023-04-11T10:43:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。