論文の概要: Evaluating Large Language Models for the Generation of Unit Tests with Equivalence Partitions and Boundary Values
- arxiv url: http://arxiv.org/abs/2505.09830v1
- Date: Wed, 14 May 2025 22:22:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-16 22:29:06.125466
- Title: Evaluating Large Language Models for the Generation of Unit Tests with Equivalence Partitions and Boundary Values
- Title(参考訳): 等価分割と境界値を用いた単体テスト生成のための大規模言語モデルの評価
- Authors: Martín Rodríguez, Gustavo Rossi, Alejandro Fernandez,
- Abstract要約: 本研究では,Large Language Models (LLM) がテストケースを自動生成する可能性を評価する。
コードと要求を統合し、等価パーティションや境界値といった重要なケースをカバーする最適化されたプロンプトが開発された。
その結果, LLMの有効性は, 適切に設計されたプロンプト, 堅牢な実装, 正確な要件に依存することがわかった。
- 参考スコア(独自算出の注目度): 42.88667535189424
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The design and implementation of unit tests is a complex task many programmers neglect. This research evaluates the potential of Large Language Models (LLMs) in automatically generating test cases, comparing them with manual tests. An optimized prompt was developed, that integrates code and requirements, covering critical cases such as equivalence partitions and boundary values. The strengths and weaknesses of LLMs versus trained programmers were compared through quantitative metrics and manual qualitative analysis. The results show that the effectiveness of LLMs depends on well-designed prompts, robust implementation, and precise requirements. Although flexible and promising, LLMs still require human supervision. This work highlights the importance of manual qualitative analysis as an essential complement to automation in unit test evaluation.
- Abstract(参考訳): 単体テストの設計と実装は多くのプログラマが無視する複雑なタスクである。
本研究では,テストケースの自動生成におけるLLM(Large Language Models)の可能性を評価し,手動テストと比較する。
コードと要求を統合し、等価パーティションや境界値といった重要なケースをカバーする最適化されたプロンプトが開発された。
LLMと訓練されたプログラマの長所と短所は、定量的メトリクスと手動定性的分析によって比較された。
その結果, LLMの有効性は, 適切に設計されたプロンプト, 堅牢な実装, 正確な要件に依存することがわかった。
柔軟で有望ではあるが、LLMは人間の監督を必要とする。
この研究は、単体テスト評価における自動化の重要な補完として、手動定性分析の重要性を強調している。
関連論文リスト
- Learning to Align Multi-Faceted Evaluation: A Unified and Robust Framework [61.38174427966444]
大規模言語モデル(LLM)は、様々なシナリオにおける自動評価のために、より広く使われている。
従来の研究では、強力なプロプライエタリモデルの評価と判断を再現するために、オープンソースのLLMを微調整しようと試みてきた。
本稿では,評価基準を適応的に定式化し,テキストベースとコード駆動分析の両方を合成する新しい評価フレームワークARJudgeを提案する。
論文 参考訳(メタデータ) (2025-02-26T06:31:45Z) - The Potential of LLMs in Automating Software Testing: From Generation to Reporting [0.0]
手動テストは効果的だが、時間とコストがかかり、自動化メソッドの需要が増大する。
大規模言語モデル(LLM)の最近の進歩は、ソフトウェア工学に大きな影響を与えている。
本稿では,人間の介入を減らし,テスト効率を向上させるため,LSMを用いた自動ソフトウェアテストに対するエージェント指向アプローチについて検討する。
論文 参考訳(メタデータ) (2024-12-31T02:06:46Z) - StructTest: Benchmarking LLMs' Reasoning through Compositional Structured Outputs [78.84060166851805]
StructTestは、大規模な言語モデル(LLM)を合成命令に従って構造化出力を生成する能力に基づいて評価する、新しいベンチマークである。
評価はルールベースの評価器を用いて決定的に行われ、新しいタスクやデータセットに容易に拡張できる。
StructTestは、Deepseek-V3/R1やGPT-4oといったトップパフォーマンスモデルでも、依然として難しいままです。
論文 参考訳(メタデータ) (2024-12-23T22:08:40Z) - ASTER: Natural and Multi-language Unit Test Generation with LLMs [6.259245181881262]
静的解析を組み込んだジェネリックパイプラインを記述し,コンパイル可能な高カバレッジテストケースの生成においてLCMをガイドする。
コードカバレッジとテスト自然性の観点から,生成したテストの品質を評価するための実証的研究を行った。
論文 参考訳(メタデータ) (2024-09-04T21:46:18Z) - Are We Testing or Being Tested? Exploring the Practical Applications of
Large Language Models in Software Testing [0.0]
LLM(Large Language Model)は、コヒーレントなコンテンツを生成する最先端の人工知能モデルである。
LLMは、ソフトウェアテストを含むソフトウェア開発において重要な役割を担います。
本研究では,産業環境でのソフトウェアテストにおけるLCMの実用化について検討する。
論文 参考訳(メタデータ) (2023-12-08T06:30:37Z) - FollowEval: A Multi-Dimensional Benchmark for Assessing the
Instruction-Following Capability of Large Language Models [42.72420855478716]
FollowEvalベンチマークは、英語と中国語の両方のインスタンスで構成されている。
それぞれのテスト例は、複数の次元を評価するように設計されています。
我々は、FollowEvalベンチマークを用いて様々なLCMを評価し、その性能が人間のそれよりかなり遅れていることを発見した。
論文 参考訳(メタデータ) (2023-11-16T11:53:31Z) - BLESS: Benchmarking Large Language Models on Sentence Simplification [55.461555829492866]
我々は、テキスト単純化(TS)タスク上で、最新の最先端の大規模言語モデル(LLM)のパフォーマンスベンチマークであるBLESSを紹介する。
異なるドメイン(Wikipedia、ニュース、医療)の3つのテストセットに対して、サイズ、アーキテクチャ、事前学習方法、アクセシビリティの異なる44のモデルを評価する。
評価の結果,最高のLSMはTSのトレーニングを受けていないにもかかわらず,最先端のTSベースラインと相容れない性能を示した。
論文 参考訳(メタデータ) (2023-10-24T12:18:17Z) - Evaluating the Performance of Large Language Models on GAOKAO Benchmark [53.663757126289795]
本稿では,中国のガオカオ検定の質問をサンプルとして用いた直感的なベンチマークであるガオカオベンチについて紹介する。
人間の評価により, GPT-4, ChatGPT, ERNIE-Botを含むLLMの変換総得点を得た。
また、LLMを用いて主観的質問を格付けし、モデルスコアが人間のスコアと適度な一貫性を達成することを確認する。
論文 参考訳(メタデータ) (2023-05-21T14:39:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。