論文の概要: DebugBench: Evaluating Debugging Capability of Large Language Models
- arxiv url: http://arxiv.org/abs/2401.04621v2
- Date: Thu, 11 Jan 2024 11:48:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-12 11:17:10.298923
- Title: DebugBench: Evaluating Debugging Capability of Large Language Models
- Title(参考訳): debugbench: 大きな言語モデルのデバッグ能力を評価する
- Authors: Runchu Tian, Yining Ye, Yujia Qin, Xin Cong, Yankai Lin, Yinxu Pan,
Yesai Wu, Zhiyuan Liu, Maosong Sun
- Abstract要約: DebugBench - LLM(Large Language Models)のベンチマーク。
C++、Java、Pythonの4つの主要なバグカテゴリと18のマイナータイプをカバーする。
ゼロショットシナリオで2つの商用モデルと3つのオープンソースモデルを評価する。
- 参考スコア(独自算出の注目度): 89.13051256657995
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have demonstrated exceptional coding capability.
However, as another critical component of programming proficiency, the
debugging capability of LLMs remains relatively unexplored. Previous
evaluations of LLMs' debugging ability are significantly limited by the risk of
data leakage, the scale of the dataset, and the variety of tested bugs. To
overcome these deficiencies, we introduce `DebugBench', an LLM debugging
benchmark consisting of 4,253 instances. It covers four major bug categories
and 18 minor types in C++, Java, and Python. To construct DebugBench, we
collect code snippets from the LeetCode community, implant bugs into source
data with GPT-4, and assure rigorous quality checks. We evaluate two commercial
and three open-source models in a zero-shot scenario. We find that (1) while
closed-source models like GPT-4 exhibit inferior debugging performance compared
to humans, open-source models such as Code Llama fail to attain any pass rate
scores; (2) the complexity of debugging notably fluctuates depending on the bug
category; (3) incorporating runtime feedback has a clear impact on debugging
performance which is not always helpful. As an extension, we also compare LLM
debugging and code generation, revealing a strong correlation between them for
closed-source models. These findings will benefit the development of LLMs in
debugging.
- Abstract(参考訳): 大きな言語モデル(LLM)は、例外的なコーディング能力を示している。
しかし、プログラミング能力のもう1つの重要な要素として、llmsのデバッグ能力は比較的未検討である。
LLMのデバッグ能力のこれまでの評価は、データ漏洩のリスク、データセットのスケール、さまざまなテストバグによって大幅に制限されている。
これらの欠陥を克服するために,4,253インスタンスからなるLLMデバッグベンチマークである‘DebugBench’を導入する。
C++、Java、Pythonの4つの主要なバグカテゴリと18のマイナータイプをカバーする。
DebugBenchを構築するために、LeetCodeコミュニティからコードスニペットを収集し、GPT-4でバグをソースデータに埋め込み、厳格な品質チェックを保証します。
ゼロショットシナリオで2つの商用モデルと3つのオープンソースモデルを評価する。
1) GPT-4のようなクローズドソースモデルは人間に比べてデバッグ性能が劣るが,Code Llamaのようなオープンソースモデルではパスレートスコアが得られず,(2)デバッグの複雑さはバグカテゴリによって顕著に変動する。
拡張として、LLMデバッグとコード生成を比較し、クローズドソースモデルに対するそれらの相関関係を強く明らかにする。
これらの発見は、デバッグにおけるLLMの開発に役立つだろう。
関連論文リスト
- Leveraging Print Debugging to Improve Code Generation in Large Language
Models [63.63160583432348]
大規模言語モデル(LLM)はコード生成タスクにおいて大きな進歩を遂げた。
しかし、複雑なデータ構造やアルゴリズムによるプログラミング問題に対処する彼らのパフォーマンスは、依然として準最適である。
そこで本稿では,LLM のデバッグを "print debugging" 手法でガイドする,コンテキスト内学習手法を提案する。
論文 参考訳(メタデータ) (2024-01-10T18:37:59Z) - Language Models are Better Bug Detector Through Code-Pair Classification [0.26107298043931204]
本稿では,バグギー版とバグギー版の両方をモデルに付与するコードペア分類タスクを提案し,バグギー版とバグギー版を識別する。
実験によると、LLMはバグのないバージョンのコードからバグを拾うことができ、コードペアの分類タスクはスニペットを与え、バグが存在するかどうかを判断するよりもずっと簡単である。
論文 参考訳(メタデータ) (2023-11-14T07:20:57Z) - Evaluating Diverse Large Language Models for Automatic and General Bug
Reproduction [12.851941377433285]
大規模言語モデル(LLM)は自然言語処理やコード生成に適していることが証明されている。
提案手法は,広く使用されているDefects4Jベンチマークにおいて,全バグの約3分の1を再現することができた。
論文 参考訳(メタデータ) (2023-11-08T08:42:30Z) - The GitHub Recent Bugs Dataset for Evaluating LLM-based Debugging
Applications [20.339673903885483]
大規模言語モデル(LLM)は、強力な自然言語処理とコード合成機能を示している。
LLMのトレーニングデータの詳細は公開されていないことが多く、既存のバグベンチマークが含まれているかどうかが懸念されている。
このデータセットには、OpenAIデータカットオフポイント後に収集された76の現実世界のJavaバグが含まれている。
論文 参考訳(メタデータ) (2023-10-20T02:37:44Z) - Automatic Hallucination Assessment for Aligned Large Language Models via
Transferable Adversarial Attacks [98.22864957942821]
本稿では,大規模言語モデルが忠実に振る舞う既存データを適切に修正し,評価データを自動的に生成する手法を開発することを目的とする。
具体的には,LLM ベースのフレームワークである Auto Debug について述べる。
実験結果から, LLMは, インプロンプトに与えられた知識とパラメトリック知識との間に矛盾がある場合, 質問応答シナリオの2つのカテゴリに幻覚を与える可能性が示唆された。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - Enhancing Large Language Models in Coding Through Multi-Perspective
Self-Consistency [137.29711672412952]
大規模言語モデル(LLM)は、コード生成において顕著な能力を示した。
しかし、単一の試みで正しいソリューションを生成することは依然として課題である。
本稿では,MPSC(Multi-Perspective Self-Consistency)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-29T14:23:26Z) - LLM4CBI: Taming LLMs to Generate Effective Test Programs for Compiler
Bug Isolation [11.296080835953752]
既存のコンパイラのバグ分離アプローチは、通常、問題をテストプログラムの突然変異問題に変換する。
コンパイラのバグ分離に有効なテストプログラムを生成するために,LLM4CBIという新しい手法を提案する。
論文 参考訳(メタデータ) (2023-07-02T15:20:54Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z) - Teaching Large Language Models to Self-Debug [62.424077000154945]
大規模言語モデル(LLM)は、コード生成において素晴らしいパフォーマンスを達成した。
本稿では,大規模言語モデルで予測プログラムを数発のデモでデバッグする自己デバッグを提案する。
論文 参考訳(メタデータ) (2023-04-11T10:43:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。