Fugu-MT 論文翻訳(概要): Measuring the Influence of Incorrect Code on Test Generation

論文の概要: Measuring the Influence of Incorrect Code on Test Generation

arxiv url: http://arxiv.org/abs/2409.09464v3
Date: Fri, 28 Mar 2025 03:00:37 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-31 19:09:59.358701
Title: Measuring the Influence of Incorrect Code on Test Generation
Title（参考訳）: 誤り符号がテスト生成に及ぼす影響の測定
Authors: Dong Huang, Jie M. Zhang, Mark Harman, Mingzhe Du, Heming Cui,
Abstract要約: 間違ったコードエクスペリエンスのために生成されたテストは、バグ検出率を47%上回っている。 +18%の精度、+4%のカバレッジ、+34%のバグ検出の改善は、自然言語によるコード記述を提供することで達成できる。
参考スコア（独自算出の注目度）: 22.168699378889148
License: http://creativecommons.org/licenses/by/4.0/
Abstract: It is natural to suppose that a Large Language Model is more likely to generate correct test cases when prompted with correct code under test, compared to incorrect code under test. However, the size of this effect has never been previously measured, despite its obvious importance for both practicing software engineers and researchers. To answer the question, we conducted a comprehensive empirical study on 5 open source and 6 closed source language models, with 3 widely-used benchmark data sets together with 41 repo-level real-world examples from two different real-world data sets. Our results reveal that, when compared to incorrect code under test, LLMs prompted with correct code achieve improvements in test accuracy, code coverage, and bug detection of 57\%, 12\%, and 24\% respectively. We further show that these scientific conclusions carry over from the three benchmark data sets to the real-world code, where tests generated for incorrect code experience a 47\% worse bug detection rate. Finally, we report that improvements of +18\% in accuracy, +4\% coverage, and +34\% in bug detection can be achieved by providing natural language code descriptions. These findings have actionable conclusions. For example, the 47\% reduction in real-world bug detection is a clear concern. Fortunately, it is a concern for which our findings about the added value of descriptions offer an immediately actionable remedy.
Abstract（参考訳）: 大規模な言語モデルは、テスト中の間違ったコードと比較して、テスト中の正しいコードでトリガーすると、正しいテストケースを生成する可能性が高いと仮定するのは自然なことです。しかし、この効果の大きさは、ソフトウェアエンジニアと研究者の両方にとって明らかに重要であるにもかかわらず、これまで測定されたことはない。そこで我々は,5つのオープンソースモデルと6つのクローズドソース言語モデルに関する総合的研究を行い,3つの広く使用されているベンチマークデータセットと41のレポレベルの実世界の2つの異なる実世界のデータセットを比較検討した。その結果, テスト中の不正コードと比較すると, LLMでは, テスト精度, コードカバレッジ, バグ検出精度が57～%, 12～%, 24～%向上していることがわかった。さらに、これらの科学的結論が3つのベンチマークデータセットから実世界のコードへと続くことを示す。最後に、自然言語のコード記述を提供することで、+18\%の精度、+4\%のカバレッジ、+34\%のバグ検出の改善が達成できると報告する。これらの発見には、実用的な結論がある。例えば、実世界のバグ検出の47\%削減は明らかな懸念である。幸いなことに、記述の付加価値に関する我々の発見が、直ちに実行可能な治療を提供するという懸念があります。

関連論文リスト

Quality Assessment of Python Tests Generated by Large Language Models [1.0845500038686533]
本稿では,GPT-4o,Amazon Q,LLama 3.3という3つの大規模言語モデルによって生成されたPythonテストコードの品質について検討する。我々は、Text2Code(T2C)とCode2Code(C2C)の2つの異なるプロンプトコンテキスト下で生成されたテストスイートの構造的信頼性を評価する。
論文参考訳（メタデータ） (2025-06-17T08:16:15Z)
CLOVER: A Test Case Generation Benchmark with Coverage, Long-Context, and Verification [71.34070740261072]
本稿では,テストケースの生成と完成におけるモデルの能力を評価するためのベンチマークCLOVERを提案する。ベンチマークはタスク間でのコード実行のためにコンテナ化されています。
論文参考訳（メタデータ） (2025-02-12T21:42:56Z)
AsserT5: Test Assertion Generation Using a Fine-Tuned Code Language Model [8.995812770349602]
トレーニング済みのCodeT5モデルに基づく新しいモデルであるAsserT5を提案する。焦点推定手法の抽象化と包含は、微調整された事前学習モデルにも有用であることがわかった。
論文参考訳（メタデータ） (2025-02-04T20:42:22Z)
DeCon: Detecting Incorrect Assertions via Postconditions Generated by a Large Language Model [22.38753408614465]
対象問題に対するLLM生成後条件による誤認識を効果的に検出する,DeCon という新しい手法を提案する。デコンは64%以上(それぞれGPT-3.5とGPT-4で検出された63%と65.5%)の誤ったアサーションを4つの最先端LCMで検出できる。
論文参考訳（メタデータ） (2025-01-06T10:25:28Z)
Understanding Code Understandability Improvements in Code Reviews [79.16476505761582]
GitHub上のJavaオープンソースプロジェクトからの2,401のコードレビューコメントを分析した。改善提案の83.9%が承認され、統合され、1%未満が後に復活した。
論文参考訳（メタデータ） (2024-10-29T12:21:23Z)
Improving LLM-based Unit test generation via Template-based Repair [8.22619177301814]
単体テストは個々のプログラムユニットのバグを検出するのに不可欠だが、時間と労力を消費する。大規模言語モデル(LLM)は、顕著な推論と生成能力を示している。本稿では,新しい単体テスト生成法であるTestARTを提案する。
論文参考訳（メタデータ） (2024-08-06T10:52:41Z)
Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。 11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文参考訳（メタデータ） (2024-07-23T15:31:26Z)
Large Language Models as Test Case Generators: Performance Evaluation and Enhancement [3.5398126682962587]
大規模言語モデルが高品質なテストケースをいかに生み出すかを検討する。本稿では,テストインプットとテストアウトプットの生成を分離するemphTestChainというマルチエージェントフレームワークを提案する。以上の結果から,TestChainはベースラインのマージンを大きく上回っていることが示唆された。
論文参考訳（メタデータ） (2024-04-20T10:27:01Z)
GPT-HateCheck: Can LLMs Write Better Functional Tests for Hate Speech Detection? [50.53312866647302]
HateCheckは、合成データに対してきめ細かいモデル機能をテストするスイートである。 GPT-HateCheckは,スクラッチからより多彩で現実的な機能テストを生成するフレームワークである。クラウドソースのアノテーションは、生成されたテストケースが高品質であることを示しています。
論文参考訳（メタデータ） (2024-02-23T10:02:01Z)
Test-Driven Development for Code Generation [0.850206009406913]
大きな言語モデル(LLM)は、問題ステートメントから直接コードスニペットを生成する重要な機能を示している。本稿では,テスト駆動開発(TDD)をAI支援コード生成プロセスに組み込む方法について検討する。
論文参考訳（メタデータ） (2024-02-21T04:10:12Z)
DebugBench: Evaluating Debugging Capability of Large Language Models [80.73121177868357]
DebugBench - LLM(Large Language Models)のベンチマーク。 C++、Java、Pythonの4つの主要なバグカテゴリと18のマイナータイプをカバーする。ゼロショットシナリオで2つの商用および4つのオープンソースモデルを評価する。
論文参考訳（メタデータ） (2024-01-09T15:46:38Z)
The Earth is Flat? Unveiling Factual Errors in Large Language Models [89.94270049334479]
ChatGPTのような大規模言語モデル(LLM)は、事前学習や微調整の知識が豊富にあるため、様々な応用がある。それにもかかわらず、医療、ジャーナリズム、教育といった重要な分野に懸念を抱き、事実と常識の誤りを引き起こす傾向にある。 LLMにおける事実不正確な事実を明らかにすることを目的とした,新しい自動テストフレームワークであるFactCheckerを紹介する。
論文参考訳（メタデータ） (2024-01-01T14:02:27Z)
Back to the Future! Studying Data Cleanness in Defects4J and its Impact on Fault Localization [3.8040257966829802]
我々は,Defects4Jの欠陥トリガテストについて検討し,SBFL技術に関する開発者の知識がもたらす意味を強調した。バグの再現や回帰テストのために,障害トリガテストの55%が新たに追加されたことが分かりました。また、バグレポートの作成後に障害トリガテストの22%が修正され、バグに関する開発者の知識が含まれています。
論文参考訳（メタデータ） (2023-10-29T20:19:06Z)
Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。 LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。 LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文参考訳（メタデータ） (2023-10-15T12:40:30Z)
Zero-Shot Detection of Machine-Generated Codes [83.0342513054389]
本研究は,LLMの生成したコードを検出するためのトレーニング不要な手法を提案する。既存のトレーニングベースまたはゼロショットテキスト検出装置は、コード検出に効果がないことがわかった。本手法は,リビジョン攻撃に対する堅牢性を示し,Javaコードによく適応する。
論文参考訳（メタデータ） (2023-10-08T10:08:21Z)
Effective Test Generation Using Pre-trained Large Language Models and Mutation Testing [13.743062498008555]
大規模言語モデル(LLM)が生成するテストケースの有効性を,バグの発見の観点から改善するための MuTAP を導入する。 MuTAPは、プログラム・アンダー・テスト(PUT)の自然言語記述がない場合に有効なテストケースを生成することができる提案手法は, 最大28%の人書きコードスニペットを検出できることを示す。
論文参考訳（メタデータ） (2023-08-31T08:48:31Z)
LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文参考訳（メタデータ） (2023-05-23T21:50:06Z)
Self-Edit: Fault-Aware Code Editor for Code Generation [46.890689359396724]
大規模言語モデル(LLM)は、競合するプログラミングタスクのコードを生成する素晴らしい能力を示している。競合するプログラミングタスクにおけるコード品質を改善するために,Self-Editという生成・編集手法を提案する。
論文参考訳（メタデータ） (2023-05-06T16:12:19Z)
Teaching Large Language Models to Self-Debug [62.424077000154945]
大規模言語モデル(LLM)は、コード生成において素晴らしいパフォーマンスを達成した。本稿では,大規模言語モデルで予測プログラムを数発のデモでデバッグする自己デバッグを提案する。
論文参考訳（メタデータ） (2023-04-11T10:43:43Z)
Towards Generating Functionally Correct Code Edits from Natural Language Issue Descriptions [11.327913840111378]
Defects4J-NL2Fixは、人気のあるDefects4Jデータセットから283のJavaプログラムのデータセットで、バグ修正の高レベルな記述を付加します。本研究は,この課題に対するいくつかの最先端LCMの性能を実証的に評価する。
論文参考訳（メタデータ） (2023-04-07T18:58:33Z)
Large Language Models are Few-shot Testers: Exploring LLM-based General Bug Reproduction [14.444294152595429]
問題によりオープンソースリポジトリに追加されたテストの数は、対応するプロジェクトテストスイートサイズの約28%であった。本稿では,Large Language Models (LLMs) を用いたLIBROを提案する。 LIBROの評価は、広く研究されているDefects4Jベンチマークにおいて、全ての研究ケースの33%で障害再現テストケースを生成することができることを示している。
論文参考訳（メタデータ） (2022-09-23T10:50:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。