論文の概要: Quality Assessment of Python Tests Generated by Large Language Models
- arxiv url: http://arxiv.org/abs/2506.14297v1
- Date: Tue, 17 Jun 2025 08:16:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 17:34:59.391031
- Title: Quality Assessment of Python Tests Generated by Large Language Models
- Title(参考訳): 大規模言語モデルによるPythonテストの品質評価
- Authors: Victor Alves, Carla Bezerra, Ivan Machado, Larissa Rocha, Tássio Virgínio, Publio Silva,
- Abstract要約: 本稿では,GPT-4o,Amazon Q,LLama 3.3という3つの大規模言語モデルによって生成されたPythonテストコードの品質について検討する。
我々は、Text2Code(T2C)とCode2Code(C2C)の2つの異なるプロンプトコンテキスト下で生成されたテストスイートの構造的信頼性を評価する。
- 参考スコア(独自算出の注目度): 1.0845500038686533
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The manual generation of test scripts is a time-intensive, costly, and error-prone process, indicating the value of automated solutions. Large Language Models (LLMs) have shown great promise in this domain, leveraging their extensive knowledge to produce test code more efficiently. This study investigates the quality of Python test code generated by three LLMs: GPT-4o, Amazon Q, and LLama 3.3. We evaluate the structural reliability of test suites generated under two distinct prompt contexts: Text2Code (T2C) and Code2Code (C2C). Our analysis includes the identification of errors and test smells, with a focus on correlating these issues to inadequate design patterns. Our findings reveal that most test suites generated by the LLMs contained at least one error or test smell. Assertion errors were the most common, comprising 64% of all identified errors, while the test smell Lack of Cohesion of Test Cases was the most frequently detected (41%). Prompt context significantly influenced test quality; textual prompts with detailed instructions often yielded tests with fewer errors but a higher incidence of test smells. Among the evaluated LLMs, GPT-4o produced the fewest errors in both contexts (10% in C2C and 6% in T2C), whereas Amazon Q had the highest error rates (19% in C2C and 28% in T2C). For test smells, Amazon Q had fewer detections in the C2C context (9%), while LLama 3.3 performed best in the T2C context (10%). Additionally, we observed a strong relationship between specific errors, such as assertion or indentation issues, and test case cohesion smells. These findings demonstrate opportunities for improving the quality of test generation by LLMs and highlight the need for future research to explore optimized generation scenarios and better prompt engineering strategies.
- Abstract(参考訳): テストスクリプトのマニュアル生成は、自動化されたソリューションの価値を示す、時間を要する、コストがかかる、エラーを起こしやすいプロセスである。
大規模な言語モデル(LLM)は、この領域で大きな可能性を示しており、より効率的にテストコードを生成するために、彼らの豊富な知識を活用しています。
本研究では,GPT-4o,Amazon Q,LLama 3.3の3つのLLMで生成されたPythonテストコードの品質について検討した。
我々は、Text2Code (T2C) とCode2Code (C2C) の2つの異なるプロンプトコンテキスト下で生成されたテストスイートの構造的信頼性を評価する。
分析には誤りとテストの臭いの識別が含まれており、これらの問題を設計パターンの不十分さに関連付けることに重点を置いている。
その結果,LSMが生成するテストスイートのほとんどは,少なくとも1つのエラーやテストの臭いが含まれていることがわかった。
最も多いのは投薬ミスで, 確認されたエラーの64%, テストケースの密着性の欠如が最も多かった(41%)。
詳細な指示が書かれたテキストによるプロンプトは、エラーが少ないが、テストの臭いの発生頻度が高くなる。
評価されたLCMのうち、GPT-4oは両方の文脈で最も少ないエラー(C2Cは10%、T2Cは6%)を発生し、Amazon Qは最も高いエラー率(C2Cは19%、T2Cは28%)を示した。
テストの臭いでは、Amazon QはC2Cコンテキスト(9%)では検出が少なかったが、LLama 3.3はT2Cコンテキスト(10%)では最高だった。
また,アサーションやインデンテーションの問題,テストケース結束臭など,特定のエラーと強い相関関係がみられた。
これらの結果は、LCMによるテスト生成の品質向上の機会を示し、最適化された生成シナリオを探索し、エンジニアリング戦略をより促進するための将来の研究の必要性を強調している。
関連論文リスト
- Training on the Benchmark Is Not All You Need [52.01920740114261]
本稿では,複数選択肢の内容に基づいた簡易かつ効果的なデータ漏洩検出手法を提案する。
本手法は,モデルトレーニングデータや重みを使用せずに,グレーボックス条件下で動作可能である。
4つのベンチマークデータセットから35個の主要なオープンソースLCMのデータ漏洩度を評価する。
論文 参考訳(メタデータ) (2024-09-03T11:09:44Z) - TestART: Improving LLM-based Unit Testing via Co-evolution of Automated Generation and Repair Iteration [7.509927117191286]
大規模言語モデル(LLM)は、単体テストケースを生成する際、顕著な能力を示した。
本研究では,新しい単体テスト生成法であるTestARTを提案する。
TestARTは、自動生成と修復の反復の共進化を通じて、LLMベースのユニットテストを改善している。
論文 参考訳(メタデータ) (2024-08-06T10:52:41Z) - GPT-HateCheck: Can LLMs Write Better Functional Tests for Hate Speech Detection? [50.53312866647302]
HateCheckは、合成データに対してきめ細かいモデル機能をテストするスイートである。
GPT-HateCheckは,スクラッチからより多彩で現実的な機能テストを生成するフレームワークである。
クラウドソースのアノテーションは、生成されたテストケースが高品質であることを示しています。
論文 参考訳(メタデータ) (2024-02-23T10:02:01Z) - DebugBench: Evaluating Debugging Capability of Large Language Models [80.73121177868357]
DebugBench - LLM(Large Language Models)のベンチマーク。
C++、Java、Pythonの4つの主要なバグカテゴリと18のマイナータイプをカバーする。
ゼロショットシナリオで2つの商用および4つのオープンソースモデルを評価する。
論文 参考訳(メタデータ) (2024-01-09T15:46:38Z) - The Earth is Flat? Unveiling Factual Errors in Large Language Models [89.94270049334479]
ChatGPTのような大規模言語モデル(LLM)は、事前学習や微調整の知識が豊富にあるため、様々な応用がある。
それにもかかわらず、医療、ジャーナリズム、教育といった重要な分野に懸念を抱き、事実と常識の誤りを引き起こす傾向にある。
LLMにおける事実不正確な事実を明らかにすることを目的とした,新しい自動テストフレームワークであるFactCheckerを紹介する。
論文 参考訳(メタデータ) (2024-01-01T14:02:27Z) - Effective Test Generation Using Pre-trained Large Language Models and
Mutation Testing [13.743062498008555]
大規模言語モデル(LLM)が生成するテストケースの有効性を,バグの発見の観点から改善するための MuTAP を導入する。
MuTAPは、プログラム・アンダー・テスト(PUT)の自然言語記述がない場合に有効なテストケースを生成することができる
提案手法は, 最大28%の人書きコードスニペットを検出できることを示す。
論文 参考訳(メタデータ) (2023-08-31T08:48:31Z) - TACRED Revisited: A Thorough Evaluation of the TACRED Relation
Extraction Task [80.38130122127882]
TACREDはリレーショナル抽出(RE)において最も大きく、最も広く使われているクラウドソースデータセットの1つである
パフォーマンスの天井に到達したのか、改善の余地はあるのか?
ラベルエラーは絶対F1テストエラーの8%を占めており、例の50%以上を可逆化する必要がある。
論文 参考訳(メタデータ) (2020-04-30T15:07:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。