Fugu-MT 論文翻訳(概要): Evaluating Diverse Large Language Models for Automatic and General Bug Reproduction

論文の概要: Evaluating Diverse Large Language Models for Automatic and General Bug Reproduction

arxiv url: http://arxiv.org/abs/2311.04532v2
Date: Thu, 9 Nov 2023 02:19:20 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-10 11:56:50.340653
Title: Evaluating Diverse Large Language Models for Automatic and General Bug Reproduction
Title（参考訳）: バグ自動再現のための多言語多言語モデルの評価
Authors: Sungmin Kang, Juyeon Yoon, Nargiz Askarbekkyzy, Shin Yoo
Abstract要約: 大規模言語モデル(LLM)は自然言語処理やコード生成に適していることが証明されている。提案手法は,広く使用されているDefects4Jベンチマークにおいて,全バグの約3分の1を再現することができた。
参考スコア（独自算出の注目度）: 12.851941377433285
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Bug reproduction is a critical developer activity that is also challenging to automate, as bug reports are often in natural language and thus can be difficult to transform to test cases consistently. As a result, existing techniques mostly focused on crash bugs, which are easier to automatically detect and verify. In this work, we overcome this limitation by using large language models (LLMs), which have been demonstrated to be adept at natural language processing and code generation. By prompting LLMs to generate bug-reproducing tests, and via a post-processing pipeline to automatically identify promising generated tests, our proposed technique LIBRO could successfully reproduce about one-third of all bugs in the widely used Defects4J benchmark. Furthermore, our extensive evaluation on 15 LLMs, including 11 open-source LLMs, suggests that open-source LLMs also demonstrate substantial potential, with the StarCoder LLM achieving 70% of the reproduction performance of the closed-source OpenAI LLM code-davinci-002 on the large Defects4J benchmark, and 90% of performance on a held-out bug dataset likely not part of any LLM's training data. In addition, our experiments on LLMs of different sizes show that bug reproduction using LIBRO improves as LLM size increases, providing information as to which LLMs can be used with the LIBRO pipeline.
Abstract（参考訳）: バグレポートは自然言語であることが多いため、常にテストケースに変換することが難しいため、バグ再現は自動化が難しい重要な開発者活動である。その結果、既存のテクニックはクラッシュバグに重点を置いており、自動検出や検証が容易である。本研究では,自然言語処理やコード生成に長けていることが証明された大規模言語モデル(LLM)を用いることで,この制限を克服する。 LLMにバグを再現するテストを生成するよう促すことで、後処理パイプラインを使って予測されるテストを自動的に識別することで、提案手法は広く使用されているDefects4Jベンチマークの3分の1のバグを再現することができた。さらに,11個のオープンソース LLM を含む15個の LLM に関する広範な評価から,オープンソース LLM は,大規模な Defects4J ベンチマークでクローズドソース OpenAI LLM code-davinci-002 の再現性能の 70% を達成し,LLM のトレーニングデータに含まれない可能性のあるホールドアウトバグデータセットのパフォーマンスの 90% を達成している。さらに, LIBROを用いたLLM実験により, LLMのサイズが大きくなるにつれて, LIBROを用いたバグ再現が向上し, LLMをLIBROパイプラインで使用可能な情報が得られることを示した。

関連論文リスト

Metamorphic Testing of Large Language Models for Natural Language Processing [2.2302915692528367]
近年,大規模言語モデル (LLM) を用いて自然言語処理 (NLP) タスクが普及している。これに対する障害のひとつは、ラベル付きデータセットの可用性が限られていることだ。メタモルフィックテスト(MT)は、このオラクル問題を緩和する一般的なテスト手法である。
論文参考訳（メタデータ） (2025-11-03T22:48:19Z)
LLM4VV: Evaluating Cutting-Edge LLMs for Generation and Evaluation of Directive-Based Parallel Programming Model Compiler Tests [7.6818904666624395]
本稿では,コンパイラテストの生成にLLMを用いたデュアルLLMシステムと実験について述べる。 LLMは、品質の高いコンパイラテストを生成し、それらを自動的に検証する有望な可能性を持っていることは明らかである。
論文参考訳（メタデータ） (2025-07-29T02:34:28Z)
An Empirical Study of Many-to-Many Summarization with Large Language Models [82.10000188179168]
大規模言語モデル(LLM)は強い多言語能力を示しており、実アプリケーションでM2MS(Multi-to-Many summarization)を実行する可能性を秘めている。本研究は,LLMのM2MS能力に関する系統的研究である。
論文参考訳（メタデータ） (2025-05-19T11:18:54Z)
LLMs are Bug Replicators: An Empirical Study on LLMs' Capability in Completing Bug-prone Code [24.048639099281324]
大規模言語モデル(LLM)は、コード補完において顕著なパフォーマンスを示している。本稿では,LLMがバグ発生コードを完成させる際の性能を評価するための,最初の実証的研究について述べる。
論文参考訳（メタデータ） (2025-03-14T04:48:38Z)
SpecTool: A Benchmark for Characterizing Errors in Tool-Use LLMs [77.79172008184415]
SpecToolは、ツール使用タスクのLLM出力のエラーパターンを特定するための新しいベンチマークである。もっとも顕著なLCMでも,これらの誤りパターンが出力に現れることを示す。 SPECTOOLの分析と洞察を使って、エラー軽減戦略をガイドすることができる。
論文参考訳（メタデータ） (2024-11-20T18:56:22Z)
Fixing Code Generation Errors for Large Language Models [6.137340149146578]
LLM(Large Language Models)は、ソフトウェア開発のためのソースコードを自動生成するように設計されている。 LLMの生成したコードは、しばしばテストケースをパスせず、エラーを修正するためにかなりの人的努力を必要とする。 LlmFixと呼ばれる3種類のエラーを3段階のプロセスで処理する手法を提案する。
論文参考訳（メタデータ） (2024-09-01T09:40:15Z)
Improving the Ability of Pre-trained Language Model by Imparting Large Language Model's Experience [4.814313782484443]
大規模言語モデル (LLM) と事前訓練型言語モデル (LM) は多くのソフトウェア工学のタスクにおいて驚くべき成功を収めた。我々は、LLMを用いてドメイン固有のデータを生成し、目標タスクにおける事前学習されたLMの性能を向上させる。
論文参考訳（メタデータ） (2024-08-16T06:37:59Z)
Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。 11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文参考訳（メタデータ） (2024-07-23T15:31:26Z)
What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。 3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文参考訳（メタデータ） (2024-07-08T17:27:17Z)
Where Do Large Language Models Fail When Generating Code? [10.519984835232359]
大規模言語モデル(LLM)はコード生成に大きな可能性を示しています。 LLMがどのようなコード生成エラーを発生させるのかは不明だ。我々は、HumanEvalデータセット上で6つの人気のあるLCMが生成した誤りコードスニペットを分析した。
論文参考訳（メタデータ） (2024-06-13T01:29:52Z)
LLatrieval: LLM-Verified Retrieval for Verifiable Generation [67.93134176912477]
検証可能な生成は、大きな言語モデル(LLM)がドキュメントをサポートするテキストを生成することを目的としている。本稿では,LLatrieval (Large Language Model Verified Retrieval)を提案する。実験により、LLatrievalは幅広いベースラインを著しく上回り、最先端の結果が得られることが示された。
論文参考訳（メタデータ） (2023-11-14T01:38:02Z)
The GitHub Recent Bugs Dataset for Evaluating LLM-based Debugging Applications [20.339673903885483]
大規模言語モデル(LLM)は、強力な自然言語処理とコード合成機能を示している。 LLMのトレーニングデータの詳細は公開されていないことが多く、既存のバグベンチマークが含まれているかどうかが懸念されている。このデータセットには、OpenAIデータカットオフポイント後に収集された76の現実世界のJavaバグが含まれている。
論文参考訳（メタデータ） (2023-10-20T02:37:44Z)
Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。 LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。 LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文参考訳（メタデータ） (2023-10-15T12:40:30Z)
Towards Generating Functionally Correct Code Edits from Natural Language Issue Descriptions [11.327913840111378]
Defects4J-NL2Fixは、人気のあるDefects4Jデータセットから283のJavaプログラムのデータセットで、バグ修正の高レベルな記述を付加します。本研究は,この課題に対するいくつかの最先端LCMの性能を実証的に評価する。
論文参考訳（メタデータ） (2023-04-07T18:58:33Z)
Check Your Facts and Try Again: Improving Large Language Models with External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文参考訳（メタデータ） (2023-02-24T18:48:43Z)
Large Language Models are Few-shot Testers: Exploring LLM-based General Bug Reproduction [14.444294152595429]
問題によりオープンソースリポジトリに追加されたテストの数は、対応するプロジェクトテストスイートサイズの約28%であった。本稿では,Large Language Models (LLMs) を用いたLIBROを提案する。 LIBROの評価は、広く研究されているDefects4Jベンチマークにおいて、全ての研究ケースの33%で障害再現テストケースを生成することができることを示している。
論文参考訳（メタデータ） (2022-09-23T10:50:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。