論文の概要: Evaluating LLM-Based Test Generation Under Software Evolution
- arxiv url: http://arxiv.org/abs/2603.23443v1
- Date: Tue, 24 Mar 2026 17:14:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-25 19:53:37.605929
- Title: Evaluating LLM-Based Test Generation Under Software Evolution
- Title(参考訳): ソフトウェア進化下におけるLCMベースのテスト生成の評価
- Authors: Sabaat Haroon, Mohammad Taha Khan, Muhammad Ali Gulzar,
- Abstract要約: 大規模言語モデル(LLM)は、ユニットテストの自動生成にますます使われています。
プログラム変更によるLCMベースのテスト生成に関する大規模な実証的研究について述べる。
- 参考スコア(独自算出の注目度): 7.140756378584939
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are increasingly used for automated unit test generation. However, it remains unclear whether these tests reflect genuine reasoning about program behavior or simply reproduce superficial patterns learned during training. If the latter dominates, LLM-generated tests may exhibit weaknesses such as reduced coverage, missed regressions, and undetected faults. Understanding how LLMs generate tests and how those tests respond to code evolution is therefore essential. We present a large-scale empirical study of LLM-based test generation under program changes. Using an automated mutation-driven framework, we analyze how generated tests react to semantic-altering changes (SAC) and semantic-preserving changes (SPC) across eight LLMs and 22,374 program variants. LLMs achieve strong baseline results, reaching 79% line coverage and 76% branch coverage with fully passing test suites on the original programs. However, performance degrades as programs evolve. Under SACs, the pass rate of newly generated tests drops to 66%, and branch coverage declines to 60%. More than 99% of failing SAC tests pass on the original program while executing the modified region, indicating residual alignment with the original behavior rather than adaptation to updated semantics. Performance also declines under SPCs despite unchanged functionality: pass rates fall to 79% and branch coverage to 69%. Although SPC edits preserve semantics, they often introduce larger syntactic changes, leading to instability in generated test suites. Models generate more new tests while discarding many baseline tests, suggesting sensitivity to lexical changes rather than true semantic impact. Overall, our results indicate that current LLM-based test generation relies heavily on surface-level cues and struggles to maintain regression awareness as programs evolve.
- Abstract(参考訳): 大規模言語モデル(LLM)は、ユニットテストの自動生成にますます使われています。
しかし、これらのテストがプログラム行動に関する真の推論を反映しているか、あるいはトレーニング中に学んだ表面パターンを単純に再現するかは、まだ不明である。
後者が支配的であれば、LCMが生成したテストは、カバレッジの削減、回帰の欠落、検出されていない欠陥などの弱点を示す可能性がある。
LLMがテストをどのように生成し、それらのテストがコードの進化にどのように反応するかを理解することが不可欠である。
プログラム変更によるLCMベースのテスト生成に関する大規模な実証的研究について述べる。
自動突然変異駆動フレームワークを用いて、生成したテストが意味変化(SAC)と意味保存変化(SPC)に対して8つのLSMと22,374のプログラム変異に対してどのように反応するかを分析する。
LLMは、ラインカバレッジが79%、ブランチカバレッジが76%に達し、テストスイートが完全にパスしている。
しかし、プログラムが進化するにつれて性能は低下する。
SACでは、新たに生成されたテストの合格率は66%に低下し、ブランチカバレッジは60%に低下した。
失敗したSACテストの99%以上は、修正された領域を実行中に元のプログラムをパスし、更新されたセマンティクスに適応するのではなく、元の振る舞いに残留していることを示す。
パスレートは79%に低下し、ブランチカバレッジは69%に低下する。
SPC編集はセマンティクスを保存するが、しばしばより大規模な構文変更を導入し、生成されたテストスイートが不安定になる。
モデルは、多くのベースラインテストを捨てながら、より多くの新しいテストを生成し、真の意味的な影響ではなく、語彙の変化に対する感受性を示唆する。
以上の結果から,現在のLCMベースのテスト生成は,プログラムの進化に伴う回帰認識の維持に大きく依存していることが示唆された。
関連論文リスト
- Unit Test Update through LLM-Driven Context Collection and Error-Type-Aware Refinement [5.8748750353007635]
テストのメンテナンス方法は、主に壊れたテストの修復に焦点を当て、新しい機能を検証するために既存のテストを強化するシナリオを無視します。
実運用コードの変更に応じて、ジャスト・イン・タイムの自動テスト更新を可能にする新しいアプローチであるTESTUPDATERを提案する。
TestUPDATERは94.4%のコンパイルパス率と86.7%のテストパス率を達成し、それぞれ最先端のSYTERを15.9%と20.0%で上回っている。
論文 参考訳(メタデータ) (2025-09-29T08:08:22Z) - YATE: The Role of Test Repair in LLM-Based Unit Test Generation [22.67442101368384]
本稿では,ルールベースの静的解析と再試行を組み合わせることで,これらの不正なテストのいくつかを修復する手法を提案する。
このシンプルなアプローチであるYATEを、6つのオープンソースプロジェクトのセットで評価する。
YATEは22%のラインカバレッジ、20%のブランチカバレッジ、20%のミュータントを同等のコストで削減する。
論文 参考訳(メタデータ) (2025-07-24T11:32:31Z) - PALM: Synergizing Program Analysis and LLMs to Enhance Rust Unit Test Coverage [14.702182387149547]
本稿では,大規模言語モデル(LLM)を活用して高カバレッジ単体テストを生成する手法であるPALMを提案する。
PALMはプログラム解析を行い、関数内の分岐条件を特定し、それを経路制約に結合する。
このアプローチを実装し、それを15のオープンソースのRustクラッドで評価します。
論文 参考訳(メタデータ) (2025-06-10T17:21:21Z) - Large-scale, Independent and Comprehensive study of the power of LLMs for test case generation [11.517293765116307]
ユニットテストはソフトウェアの信頼性に不可欠だが、手動のテスト作成には時間がかかり、しばしば無視される。
本研究は,LLM生成単体テストの大規模評価をクラスレベルで行った最初の大規模評価である。
論文 参考訳(メタデータ) (2024-06-28T20:38:41Z) - Inference-Time Decontamination: Reusing Leaked Benchmarks for Large Language Model Evaluation [61.350306618479365]
ベンチマークの漏洩は、大規模言語モデルの真のパフォーマンスの正確な評価を防ぐことができる。
この問題に対処するため,ITD(Inference-Time Decontamination)を提案する。
ITDは、GSM8Kで22.9%、MMLUで19.0%の膨張精度を低下させる。
論文 参考訳(メタデータ) (2024-06-20T04:35:59Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z) - Effective Test Generation Using Pre-trained Large Language Models and
Mutation Testing [13.743062498008555]
大規模言語モデル(LLM)が生成するテストケースの有効性を,バグの発見の観点から改善するための MuTAP を導入する。
MuTAPは、プログラム・アンダー・テスト(PUT)の自然言語記述がない場合に有効なテストケースを生成することができる
提案手法は, 最大28%の人書きコードスニペットを検出できることを示す。
論文 参考訳(メタデータ) (2023-08-31T08:48:31Z) - Position: AI Evaluation Should Learn from How We Test Humans [65.36614996495983]
人間の評価のための20世紀起源の理論である心理測定は、今日のAI評価における課題に対する強力な解決策になり得る、と我々は主張する。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。