論文の概要: Evaluating Diverse Large Language Models for Automatic and General Bug
Reproduction
- arxiv url: http://arxiv.org/abs/2311.04532v1
- Date: Wed, 8 Nov 2023 08:42:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-09 16:42:52.196876
- Title: Evaluating Diverse Large Language Models for Automatic and General Bug
Reproduction
- Title(参考訳): バグ自動再現のための多言語多言語モデルの評価
- Authors: Sungmin Kang, Juyeon Yoon, Nargiz Askarbekkyzy, Shin Yoo
- Abstract要約: 大規模言語モデル(LLM)は自然言語処理やコード生成に適していることが証明されている。
提案手法は,広く使用されているDefects4Jベンチマークにおいて,全バグの約3分の1を再現することができた。
- 参考スコア(独自算出の注目度): 12.851941377433285
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Bug reproduction is a critical developer activity that is also challenging to
automate, as bug reports are often in natural language and thus can be
difficult to transform to test cases consistently. As a result, existing
techniques mostly focused on crash bugs, which are easier to automatically
detect and verify. In this work, we overcome this limitation by using large
language models (LLMs), which have been demonstrated to be adept at natural
language processing and code generation. By prompting LLMs to generate
bug-reproducing tests, and via a post-processing pipeline to automatically
identify promising generated tests, our proposed technique LIBRO could
successfully reproduce about one-third of all bugs in the widely used Defects4J
benchmark. Furthermore, our extensive evaluation on 15 LLMs, including 11
open-source LLMs, suggests that open-source LLMs also demonstrate substantial
potential, with the StarCoder LLM achieving 70% of the reproduction performance
of the closed-source OpenAI LLM code-davinci-002 on the large Defects4J
benchmark, and 90% of performance on a held-out bug dataset likely not part of
any LLM's training data. In addition, our experiments on LLMs of different
sizes show that bug reproduction using LIBRO improves as LLM size increases,
providing information as to which LLMs can be used with the LIBRO pipeline.
- Abstract(参考訳): バグレポートは自然言語であることが多いため、常にテストケースに変換することが難しいため、バグ再現は自動化が難しい重要な開発者活動である。
その結果、既存のテクニックはクラッシュバグに重点を置いており、自動検出や検証が容易である。
本研究では,自然言語処理やコード生成に長けていることが証明された大規模言語モデル(LLM)を用いることで,この制限を克服する。
LLMにバグを再現するテストを生成するよう促すことで、後処理パイプラインを使って予測されるテストを自動的に識別することで、提案手法は広く使用されているDefects4Jベンチマークの3分の1のバグを再現することができた。
さらに,11個のオープンソース LLM を含む15個の LLM に関する広範な評価から,オープンソース LLM は,大規模な Defects4J ベンチマークでクローズドソース OpenAI LLM code-davinci-002 の再現性能の 70% を達成し,LLM のトレーニングデータに含まれない可能性のあるホールドアウトバグデータセットのパフォーマンスの 90% を達成している。
さらに, LIBROを用いたLLM実験により, LLMのサイズが大きくなるにつれて, LIBROを用いたバグ再現が向上し, LLMをLIBROパイプラインで使用可能な情報が得られることを示した。
関連論文リスト
- SpecTool: A Benchmark for Characterizing Errors in Tool-Use LLMs [77.79172008184415]
SpecToolは、ツール使用タスクのLLM出力のエラーパターンを特定するための新しいベンチマークである。
もっとも顕著なLCMでも,これらの誤りパターンが出力に現れることを示す。
SPECTOOLの分析と洞察を使って、エラー軽減戦略をガイドすることができる。
論文 参考訳(メタデータ) (2024-11-20T18:56:22Z) - Fixing Code Generation Errors for Large Language Models [6.137340149146578]
LLM(Large Language Models)は、ソフトウェア開発のためのソースコードを自動生成するように設計されている。
LLMの生成したコードは、しばしばテストケースをパスせず、エラーを修正するためにかなりの人的努力を必要とする。
LlmFixと呼ばれる3種類のエラーを3段階のプロセスで処理する手法を提案する。
論文 参考訳(メタデータ) (2024-09-01T09:40:15Z) - Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。
11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。
最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文 参考訳(メタデータ) (2024-07-23T15:31:26Z) - What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。
3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。
そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文 参考訳(メタデータ) (2024-07-08T17:27:17Z) - Where Do Large Language Models Fail When Generating Code? [10.519984835232359]
大規模言語モデル(LLM)はコード生成に大きな可能性を示しています。
LLMがどのようなコード生成エラーを発生させるのかは不明だ。
我々は、HumanEvalデータセット上で6つの人気のあるLCMが生成した誤りコードスニペットを分析した。
論文 参考訳(メタデータ) (2024-06-13T01:29:52Z) - LLatrieval: LLM-Verified Retrieval for Verifiable Generation [67.93134176912477]
検証可能な生成は、大きな言語モデル(LLM)がドキュメントをサポートするテキストを生成することを目的としている。
本稿では,LLatrieval (Large Language Model Verified Retrieval)を提案する。
実験により、LLatrievalは幅広いベースラインを著しく上回り、最先端の結果が得られることが示された。
論文 参考訳(メタデータ) (2023-11-14T01:38:02Z) - The GitHub Recent Bugs Dataset for Evaluating LLM-based Debugging
Applications [20.339673903885483]
大規模言語モデル(LLM)は、強力な自然言語処理とコード合成機能を示している。
LLMのトレーニングデータの詳細は公開されていないことが多く、既存のバグベンチマークが含まれているかどうかが懸念されている。
このデータセットには、OpenAIデータカットオフポイント後に収集された76の現実世界のJavaバグが含まれている。
論文 参考訳(メタデータ) (2023-10-20T02:37:44Z) - Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。
LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。
LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文 参考訳(メタデータ) (2023-10-15T12:40:30Z) - Towards Generating Functionally Correct Code Edits from Natural Language
Issue Descriptions [11.327913840111378]
Defects4J-NL2Fixは、人気のあるDefects4Jデータセットから283のJavaプログラムのデータセットで、バグ修正の高レベルな記述を付加します。
本研究は,この課題に対するいくつかの最先端LCMの性能を実証的に評価する。
論文 参考訳(メタデータ) (2023-04-07T18:58:33Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z) - Large Language Models are Few-shot Testers: Exploring LLM-based General
Bug Reproduction [14.444294152595429]
問題によりオープンソースリポジトリに追加されたテストの数は、対応するプロジェクトテストスイートサイズの約28%であった。
本稿では,Large Language Models (LLMs) を用いたLIBROを提案する。
LIBROの評価は、広く研究されているDefects4Jベンチマークにおいて、全ての研究ケースの33%で障害再現テストケースを生成することができることを示している。
論文 参考訳(メタデータ) (2022-09-23T10:50:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。