論文の概要: Comparative Evaluation of Large Language Models for Test-Skeleton Generation
- arxiv url: http://arxiv.org/abs/2509.04644v1
- Date: Thu, 04 Sep 2025 20:02:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-08 14:27:25.402751
- Title: Comparative Evaluation of Large Language Models for Test-Skeleton Generation
- Title(参考訳): テスト骨格生成のための大規模言語モデルの比較評価
- Authors: Subhang Boorlagadda, Nitya Naga Sai Atluri, Muhammet Mustafa Olmez, Edward F. Gehringer,
- Abstract要約: 本稿では,Large Language Models (LLMs) を用いて,テストスケルトンの自動生成について検討する。
テストスケルトンは、完全なテストロジックを実装することなく、ユニットテストカバレッジを概説する構造的テンプレートである。
大学ソフトウェア工学コースで開発された実世界のRubyクラスに対して,RSpecスケルトンを生成する能力に基づいて4つのLLMを評価した。
- 参考スコア(独自算出の注目度): 0.18374319565577157
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper explores the use of Large Language Models (LLMs) to automate the generation of test skeletons -- structural templates that outline unit test coverage without implementing full test logic. Test skeletons are especially important in test-driven development (TDD), where they provide an early framework for systematic verification. Traditionally authored manually, their creation can be time-consuming and error-prone, particularly in educational or large-scale development settings. We evaluate four LLMs -- GPT-4, DeepSeek-Chat, Llama4-Maverick, and Gemma2-9B -- on their ability to generate RSpec skeletons for a real-world Ruby class developed in a university software engineering course. Each model's output is assessed using static analysis and a blind expert review to measure structural correctness, clarity, maintainability, and conformance to testing best practices. The study reveals key differences in how models interpret code structure and testing conventions, offering insights into the practical challenges of using LLMs for automated test scaffolding. Our results show that DeepSeek generated the most maintainable and well-structured skeletons, while GPT-4 produced more complete but conventionally inconsistent output. The study reveals prompt design and contextual input as key quality factors.
- Abstract(参考訳): 本稿では,Large Language Models (LLMs) を用いたテストスケルトンの自動生成について検討する。
テストスケルトンはテスト駆動開発(TDD)において特に重要である。
伝統的に手作業で書かれており、特に教育や大規模開発環境では、その作成に時間がかかり、エラーが発生しやすい。
GPT-4、DeepSeek-Chat、Llama4-Maverick、Gemma2-9Bの4つのLCMを、大学ソフトウェア工学コースで開発された実世界のRubyクラス向けにRSpecスケルトンを生成する能力に基づいて評価した。
それぞれのモデルのアウトプットは、静的分析とブラインドエキスパートレビューを使用して評価され、構造的正確性、明確性、保守性、そしてテストのベストプラクティスへの適合性を測定する。
この研究は、モデルがどのようにコード構造とテスト規約を解釈するかにおいて重要な違いを明らかにし、自動テストの足場にLLMを使用することの実践的課題に関する洞察を提供する。
以上の結果から,DeepSeekが最も保守性が高く,構造が整った骨格が生成され,GPT-4はより完全だが従来とは相容れない出力が生成された。
この研究は、設計と文脈入力を重要な品質要因として明らかにしている。
関連論文リスト
- Prompting Strategies for Language Model-Based Item Generation in K-12 Education: Bridging the Gap Between Small and Large Language Models [5.584522240405349]
本研究では、言語モデルを用いた自動生成(AIG)を用いて、形態的評価のための複数選択質問(MCQ)を作成する。
ゼロショット,少数ショット,チェーンオブ思考,ロールベース,シーケンシャル,組み合わせを含む7つの構造化プロンプト戦略を評価した。
その結果,構造的プロンプト,特にチェーン・オブ・シンクショナルデザインとシーケンシャルデザインを組み合わせた戦略はGemmaの出力を大幅に改善した。
論文 参考訳(メタデータ) (2025-08-27T18:54:32Z) - When Punctuation Matters: A Large-Scale Comparison of Prompt Robustness Methods for LLMs [55.20230501807337]
本報告では, 統一実験フレームワーク内での迅速なロバスト性向上のための5つの手法の体系的評価を行う。
Llama、Qwen、Gemmaファミリーの8つのモデルに対して、Natural Instructionsデータセットから52のタスクをベンチマークする。
論文 参考訳(メタデータ) (2025-08-15T10:32:50Z) - GPT-4.1 Sets the Standard in Automated Experiment Design Using Novel Python Libraries [0.7905066238005297]
大規模言語モデル(LLM)は、科学研究におけるコード生成を自動化するツールとして急速に進歩してきた。
本研究では,2つの難易度の高いシナリオに対して,関数型Pythonコードを生成する上で,最先端のLLMの選択を体系的にベンチマークする。
論文 参考訳(メタデータ) (2025-07-30T13:11:29Z) - CLOVER: A Test Case Generation Benchmark with Coverage, Long-Context, and Verification [71.34070740261072]
本稿では,テストケースの生成と完成におけるモデルの能力を評価するためのベンチマークCLOVERを提案する。
ベンチマークはタスク間でのコード実行のためにコンテナ化されています。
論文 参考訳(メタデータ) (2025-02-12T21:42:56Z) - A Systematic Approach for Assessing Large Language Models' Test Case Generation Capability [0.8287206589886879]
大規模言語モデル (LLM) を評価するために,制御フロー構造と可変利用構成 (GBCV) から生成したベンチマークを提案する。
基本的な制御フロー構造と変数使用量を活用することで、GBCVは、単純なプログラムから複雑なプログラムの範囲を作成する柔軟なフレームワークを提供する。
以上の結果から,GPT-4oは複雑なプログラム構造において優れた性能を示し,全てのモデルが単純な条件下で境界値を効果的に検出するが,算術計算では問題に直面することが示唆された。
論文 参考訳(メタデータ) (2025-02-05T03:51:44Z) - StructTest: Benchmarking LLMs' Reasoning through Compositional Structured Outputs [78.84060166851805]
StructTestは、大規模な言語モデル(LLM)を合成命令に従って構造化出力を生成する能力に基づいて評価する、新しいベンチマークである。
評価はルールベースの評価器を用いて決定的に行われ、新しいタスクやデータセットに容易に拡張できる。
StructTestは、Deepseek-V3/R1やGPT-4oといったトップパフォーマンスモデルでも、依然として難しいままです。
論文 参考訳(メタデータ) (2024-12-23T22:08:40Z) - TestBench: Evaluating Class-Level Test Case Generation Capability of Large Language Models [8.22619177301814]
クラスレベルのLLMベースのテストケース生成のためのベンチマークであるTestBenchを紹介する。
GitHub上の9つの実世界の大規模プロジェクトから108のJavaプログラムのデータセットを構築します。
本稿では,構文的正当性,コンパイル的正当性,テスト的正当性,コードカバレッジ率,欠陥検出率という,テストケースの5つの側面を考慮した詳細な評価フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-26T06:18:06Z) - CritiqueLLM: Towards an Informative Critique Generation Model for Evaluation of Large Language Model Generation [87.44350003888646]
Eval-Instructは、疑似参照でポイントワイズした批評を取得し、マルチパスプロンプトを通じてこれらの批評を修正できる。
CritiqueLLMは、ChatGPTとすべてのオープンソースベースラインを上回るように実証的に示されています。
論文 参考訳(メタデータ) (2023-11-30T16:52:42Z) - Struc-Bench: Are Large Language Models Really Good at Generating Complex Structured Data? [49.688233418425995]
Struc-Benchは、大きな言語モデル(LLM)を特徴とする包括的なベンチマークである。
Pスコア(Prompting Score)とHスコア(Heuristical Score)の2つの革新的な指標を提案する。
実験の結果,LLaMA-7Bに構造認識の微調整を適用すると,性能が大幅に向上することがわかった。
論文 参考訳(メタデータ) (2023-09-16T11:31:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。