論文の概要: DebugBench: Evaluating Debugging Capability of Large Language Models
- arxiv url: http://arxiv.org/abs/2401.04621v1
- Date: Tue, 9 Jan 2024 15:46:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-10 15:24:03.925920
- Title: DebugBench: Evaluating Debugging Capability of Large Language Models
- Title(参考訳): debugbench: 大きな言語モデルのデバッグ能力を評価する
- Authors: Runchu Tian, Yining Ye, Yujia Qin, Xin Cong, Yankai Lin, Zhiyuan Liu,
Maosong Sun
- Abstract要約: DebugBench - LLM(Large Language Models)のベンチマーク。
C++、Java、Pythonの4つの主要なバグカテゴリと18のマイナータイプをカバーする。
ゼロショットシナリオで2つの商用モデルと3つのオープンソースモデルを評価する。
- 参考スコア(独自算出の注目度): 95.94114663073168
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have demonstrated exceptional coding capability.
However, as another critical component of programming proficiency, the
debugging capability of LLMs remains relatively unexplored. Previous
evaluations of LLMs' debugging ability are significantly limited by the risk of
data leakage, the scale of the dataset, and the variety of tested bugs. To
overcome these deficiencies, we introduce `DebugBench', an LLM debugging
benchmark consisting of 4,253 instances. It covers four major bug categories
and 18 minor types in C++, Java, and Python. To construct DebugBench, we
collect code snippets from the LeetCode community, implant bugs into source
data with GPT-4, and assure rigorous quality checks. We evaluate two commercial
and three open-source models in a zero-shot scenario. We find that (1) while
closed-source models like GPT-4 exhibit inferior debugging performance compared
to humans, open-source models such as Code Llama fail to attain any pass rate
scores; (2) the complexity of debugging notably fluctuates depending on the bug
category; (3) incorporating runtime feedback has a clear impact on debugging
performance which is not always helpful. As an extension, we also compare LLM
debugging and code generation, revealing a strong correlation between them for
closed-source models. These findings will benefit the development of LLMs in
debugging.
- Abstract(参考訳): 大きな言語モデル(LLM)は、例外的なコーディング能力を示している。
しかし、プログラミング能力のもう1つの重要な要素として、llmsのデバッグ能力は比較的未検討である。
LLMのデバッグ能力のこれまでの評価は、データ漏洩のリスク、データセットのスケール、さまざまなテストバグによって大幅に制限されている。
これらの欠陥を克服するために,4,253インスタンスからなるLLMデバッグベンチマークである‘DebugBench’を導入する。
C++、Java、Pythonの4つの主要なバグカテゴリと18のマイナータイプをカバーする。
DebugBenchを構築するために、LeetCodeコミュニティからコードスニペットを収集し、GPT-4でバグをソースデータに埋め込み、厳格な品質チェックを保証します。
ゼロショットシナリオで2つの商用モデルと3つのオープンソースモデルを評価する。
1) GPT-4のようなクローズドソースモデルは人間に比べてデバッグ性能が劣るが,Code Llamaのようなオープンソースモデルではパスレートスコアが得られず,(2)デバッグの複雑さはバグカテゴリによって顕著に変動する。
拡張として、LLMデバッグとコード生成を比較し、クローズドソースモデルに対するそれらの相関関係を強く明らかにする。
これらの発見は、デバッグにおけるLLMの開発に役立つだろう。
関連論文リスト
- Are Large Language Models Memorizing Bug Benchmarks? [6.640077652362016]
大規模言語モデル(LLM)は、コード生成、バグ検出、修復など、様々なソフトウェアエンジニアリングタスクに不可欠なものになっている。
ソフトウェアエンジニアリングコミュニティの懸念は、ベンチマークがデータ漏洩のリスクのため、真のLLMパフォーマンスを確実に反映していないことだ。
一般的なLSMを系統的に評価し、広く使われているバグベンチマークからデータ漏洩に対する感受性を評価する。
論文 参考訳(メタデータ) (2024-11-20T13:46:04Z) - MdEval: Massively Multilingual Code Debugging [37.48700033342978]
18のプログラミング言語の3.6Kテストサンプルを含む,最初の大規模多言語デバッグベンチマークを提案する。
本稿では, MDEVAL-INSTRUCT 命令コーパスを導入し, 正しい多言語クエリとソリューションにバグを注入する。
MDEVALにおける実験により,オープンソースモデルとクローズドソースLLM間の顕著な性能差が明らかになった。
論文 参考訳(メタデータ) (2024-11-04T17:36:40Z) - See What LLMs Cannot Answer: A Self-Challenge Framework for Uncovering LLM Weaknesses [51.975495361024606]
本稿では,Human-in-the-loopを用いたセルフチェレンジ評価フレームワークを提案する。
GPT-4が答えられないシードインスタンスから始めて、GPT-4に新しいインスタンスを生成するのに使えるエラーパターンを要約するように促します。
次に,GPT-4が生成する1,835個のインスタンスと,人手によるゴールド応答を併用したベンチマーク,SC-G4を構築した。
論文 参考訳(メタデータ) (2024-08-16T19:01:52Z) - Enhancing the Code Debugging Ability of LLMs via Communicative Agent Based Data Refinement [29.667170755786508]
本稿ではまず,大規模言語モデル(LLM)のデバッグ能力を評価するためのベンチマークであるEVALを紹介する。
Masterは、教師付き微調整のための定義されたタスクに従って洗練されたコードデータを生成する。
最後に、Code Learnerは、批評家として機能し、解決できない発生した問題を予約する。
論文 参考訳(メタデータ) (2024-08-09T11:35:44Z) - What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。
3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。
そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文 参考訳(メタデータ) (2024-07-08T17:27:17Z) - Leveraging Print Debugging to Improve Code Generation in Large Language
Models [63.63160583432348]
大規模言語モデル(LLM)はコード生成タスクにおいて大きな進歩を遂げた。
しかし、複雑なデータ構造やアルゴリズムによるプログラミング問題に対処する彼らのパフォーマンスは、依然として準最適である。
そこで本稿では,LLM のデバッグを "print debugging" 手法でガイドする,コンテキスト内学習手法を提案する。
論文 参考訳(メタデータ) (2024-01-10T18:37:59Z) - Language Models are Better Bug Detector Through Code-Pair Classification [0.26107298043931204]
本稿では,バグギー版とバグギー版の両方をモデルに付与するコードペア分類タスクを提案し,バグギー版とバグギー版を識別する。
実験によると、LLMはバグのないバージョンのコードからバグを拾うことができ、コードペアの分類タスクはスニペットを与え、バグが存在するかどうかを判断するよりもずっと簡単である。
論文 参考訳(メタデータ) (2023-11-14T07:20:57Z) - Isolating Compiler Bugs by Generating Effective Witness Programs with Large Language Models [10.660543763757518]
既存のコンパイラのバグ分離アプローチは、問題をテストプログラムの突然変異問題に変換する。
コンパイラのバグ分離のための効率的なテストプログラムを生成するために,LLM4CBIという新しい手法を提案する。
GCCとLLVMの120以上の実際のバグに対する最先端のアプローチと比較し,LLM4CBIの利点を実証した。
論文 参考訳(メタデータ) (2023-07-02T15:20:54Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z) - Teaching Large Language Models to Self-Debug [62.424077000154945]
大規模言語モデル(LLM)は、コード生成において素晴らしいパフォーマンスを達成した。
本稿では,大規模言語モデルで予測プログラムを数発のデモでデバッグする自己デバッグを提案する。
論文 参考訳(メタデータ) (2023-04-11T10:43:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。