論文の概要: A Large-scale Empirical Study on Fine-tuning Large Language Models for Unit Testing
- arxiv url: http://arxiv.org/abs/2412.16620v1
- Date: Sat, 21 Dec 2024 13:28:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:53:50.513091
- Title: A Large-scale Empirical Study on Fine-tuning Large Language Models for Unit Testing
- Title(参考訳): 単体テストのための微調整型大規模言語モデルに関する大規模実証的研究
- Authors: Ye Shang, Quanjun Zhang, Chunrong Fang, Siqi Gu, Jianyi Zhou, Zhenyu Chen,
- Abstract要約: 大規模言語モデル(LLM)は、様々な単体テストタスクに可能性を示している。
単体テストのための微調整LDMに関する大規模な実験的検討を行った。
- 参考スコア(独自算出の注目度): 8.22619177301814
- License:
- Abstract: Unit testing plays a pivotal role in software development, improving software quality and reliability. However, generating effective test cases manually is time-consuming, prompting interest in unit testing research. Recently, Large Language Models (LLMs) have shown potential in various unit testing tasks, including test generation, assertion generation, and test evolution, but existing studies are limited in scope and lack a systematic evaluation of the effectiveness of LLMs. To bridge this gap, we present a large-scale empirical study on fine-tuning LLMs for unit testing. Our study involves three unit testing tasks, five benchmarks, eight evaluation metrics, and 37 popular LLMs across various architectures and sizes, consuming over 3,000 NVIDIA A100 GPU hours. We focus on three key research questions: (1) the performance of LLMs compared to state-of-the-art methods, (2) the impact of different factors on LLM performance, and (3) the effectiveness of fine-tuning versus prompt engineering. Our findings reveal that LLMs outperform existing state-of-the-art approaches on all three unit testing tasks across nearly all metrics, highlighting the potential of fine-tuning LLMs in unit testing tasks. Furthermore, large-scale, decoder-only models achieve the best results across tasks, while encoder-decoder models perform better under the same parameter scale. Additionally, the comparison of the performance between fine-tuning and prompt engineering approaches reveals the considerable potential capability of the prompt engineering approach in unit testing tasks. We then discuss the concerned issues on the test generation task, including data leakage issues, bug detection capabilities, and metrics comparisons. Finally, we further pinpoint carious practical guidelines for LLM-based approaches to unit testing tasks in the near future.
- Abstract(参考訳): 単体テストはソフトウェア開発において重要な役割を担い、ソフトウェアの品質と信頼性を改善します。
しかし、効果的なテストケースを手動で作成するのは時間を要するため、単体テスト研究への関心が高まる。
近年、Large Language Models (LLM) は、テスト生成、アサーション生成、テスト進化を含む様々な単体テストタスクに可能性を示しているが、既存の研究はスコープが限られており、LLMの有効性の体系的な評価が欠如している。
このギャップを埋めるために、我々は単体テストのための微調整LDMについて大規模な実証研究を行った。
調査では,3つのユニットテストタスク,5つのベンチマーク,8つの評価指標,さまざまなアーキテクチャやサイズにまたがる37のLLMが,3000 NVIDIA A100 GPU時間以上を費やしている。
我々は,(1)最先端の手法と比較してLLMの性能,(2)異なる要因がLLMのパフォーマンスに与える影響,(3)微調整と迅速なエンジニアリングの有効性,という3つの重要な研究課題に焦点をあてる。
以上の結果から,LLMは従来の3つの単体テストタスクにおいて,ほぼすべてのメトリクスにおいて,既存の最先端のアプローチよりも優れており,単体テストタスクにおける微調整 LLM の可能性を浮き彫りにしていることがわかった。
さらに、大規模デコーダのみのモデルではタスク間で最高の結果が得られ、エンコーダ-デコーダモデルではパラメータスケールが同じである。
さらに、微調整と迅速なエンジニアリングアプローチのパフォーマンスの比較により、単体テストタスクにおける迅速なエンジニアリングアプローチの潜在的な可能性を明らかにしている。
次に、データ漏洩問題、バグ検出機能、メトリクス比較など、テスト生成タスクに関する問題について議論する。
最後に, 近い将来, LLM による単体テストタスクの実践的ガイドラインが注目される。
関連論文リスト
- MLGym: A New Framework and Benchmark for Advancing AI Research Agents [51.9387884953294]
我々はMeta MLGymとMLGym-Benchを紹介した。これはAI研究タスクにおける大規模言語モデルの評価と開発のための新しいフレームワークとベンチマークである。
これは機械学習(ML)タスクのための最初のGym環境であり、そのようなエージェントをトレーニングするための強化学習(RL)アルゴリズムの研究を可能にする。
我々は、Claude-3.5-Sonnet、Llama-3.1 405B、GPT-4o、o1-preview、Gemini-1.5 Proなどのベンチマークで、多くのフロンティア大言語モデル(LLM)を評価した。
論文 参考訳(メタデータ) (2025-02-20T12:28:23Z) - Unit Testing Past vs. Present: Examining LLMs' Impact on Defect Detection and Efficiency [2.4936576553283283]
ソフトウェア工学へのLLM(Large Language Models)の統合は生産性を高める可能性を示している。
本稿では,LLMサポートが単体テスト時の欠陥検出効率を向上させるかを検討する。
論文 参考訳(メタデータ) (2025-02-13T22:27:55Z) - Test Wars: A Comparative Study of SBST, Symbolic Execution, and LLM-Based Approaches to Unit Test Generation [11.037212298533069]
大規模言語モデル(LLM)は、自動テストを生成する新しい機会を開いた。
本稿では,SBSTのEvoSuite,シンボル実行のKex,LLMベースのテスト生成のTestSparkという3つのツールを用いた自動テスト生成手法について検討する。
以上の結果から,LSMベースのテスト生成は有望であるが,従来の手法には及ばないことがわかった。
論文 参考訳(メタデータ) (2025-01-17T13:48:32Z) - What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。
3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。
そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文 参考訳(メタデータ) (2024-07-08T17:27:17Z) - Large-scale, Independent and Comprehensive study of the power of LLMs for test case generation [11.056044348209483]
クラスやメソッドなどのコードモジュールのバグを特定するのに不可欠なユニットテストは、時間的制約のため、開発者によって無視されることが多い。
GPTやMistralのようなLarge Language Models (LLM)は、テスト生成を含むソフトウェア工学における約束を示す。
論文 参考訳(メタデータ) (2024-06-28T20:38:41Z) - On the Evaluation of Large Language Models in Unit Test Generation [16.447000441006814]
単体テストは、ソフトウェアコンポーネントの正しさを検証するために、ソフトウェア開発において不可欠な活動である。
LLM(Large Language Models)の出現は、ユニットテスト生成を自動化するための新しい方向性を提供する。
論文 参考訳(メタデータ) (2024-06-26T08:57:03Z) - Prompting Large Language Models to Tackle the Full Software Development Lifecycle: A Case Study [72.24266814625685]
DevEvalでソフトウェア開発ライフサイクル全体にわたって、大きな言語モデル(LLM)のパフォーマンスを調査します。
DevEvalは4つのプログラミング言語、複数のドメイン、高品質なデータ収集、各タスクに対して慎重に設計および検証されたメトリクスを備えている。
GPT-4を含む現在のLLMは、DevEvalで提示される課題を解決できないことが実証研究によって示されている。
論文 参考訳(メタデータ) (2024-03-13T15:13:44Z) - BLESS: Benchmarking Large Language Models on Sentence Simplification [55.461555829492866]
我々は、テキスト単純化(TS)タスク上で、最新の最先端の大規模言語モデル(LLM)のパフォーマンスベンチマークであるBLESSを紹介する。
異なるドメイン(Wikipedia、ニュース、医療)の3つのテストセットに対して、サイズ、アーキテクチャ、事前学習方法、アクセシビリティの異なる44のモデルを評価する。
評価の結果,最高のLSMはTSのトレーニングを受けていないにもかかわらず,最先端のTSベースラインと相容れない性能を示した。
論文 参考訳(メタデータ) (2023-10-24T12:18:17Z) - ChatGPT vs SBST: A Comparative Assessment of Unit Test Suite Generation [25.200080365022153]
本稿では,ChatGPT LLM と最先端 SBST ツール EvoSuite によるテストスイートの体系的比較を行う。
私たちの比較は、正確性、可読性、コードカバレッジ、バグ検出機能など、いくつかの重要な要素に基づいています。
論文 参考訳(メタデータ) (2023-07-02T15:09:40Z) - LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset,
Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。
我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。
本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文 参考訳(メタデータ) (2023-06-11T14:01:17Z) - Self-Checker: Plug-and-Play Modules for Fact-Checking with Large Language Models [75.75038268227554]
Self-Checkerはファクトチェックを容易にするプラグインとプレイモジュールからなるフレームワークである。
このフレームワークは、低リソース環境でファクトチェックシステムを構築するための、高速で効率的な方法を提供する。
論文 参考訳(メタデータ) (2023-05-24T01:46:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。