論文の概要: On the Flakiness of LLM-Generated Tests for Industrial and Open-Source Database Management Systems
- arxiv url: http://arxiv.org/abs/2601.08998v1
- Date: Tue, 13 Jan 2026 21:48:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-15 18:59:20.174637
- Title: On the Flakiness of LLM-Generated Tests for Industrial and Open-Source Database Management Systems
- Title(参考訳): 産業用・オープンソースデータベース管理システムにおけるLCM生成試験のフレーキネスについて
- Authors: Alexander Berndt, Thomas Bach, Rainer Gemulla, Marcus Kessel, Sebastian Baltes,
- Abstract要約: 不安定なテストは、同じコードで複数回実行されると、一貫性のない結果になる。
LLMベースのテスト生成に関する最近の研究は、フレキネスを生成されたテストの潜在的な問題として認識している。
LLM生成テストで期待できるフレキネスの種類について,本研究は開発者に通知する。
- 参考スコア(独自算出の注目度): 42.98432295929164
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Flaky tests are a common problem in software testing. They produce inconsistent results when executed multiple times on the same code, invalidating the assumption that a test failure indicates a software defect. Recent work on LLM-based test generation has identified flakiness as a potential problem with generated tests. However, its prevalence and underlying causes are unclear. We examined the flakiness of LLM-generated tests in the context of four relational database management systems: SAP HANA, DuckDB, MySQL, and SQLite. We amplified test suites with two LLMs, GPT-4o and Mistral-Large-Instruct-2407, to assess the flakiness of the generated test cases. Our results suggest that generated tests have a slightly higher proportion of flaky tests compared to existing tests. Based on a manual inspection, we found that the most common root cause of flakiness was the reliance of a test on a certain order that is not guaranteed ("unordered collection"), which was present in 72 of 115 flaky tests (63%). Furthermore, both LLMs transferred the flakiness from the existing tests to the newly generated tests via the provided prompt context. Our experiments suggest that flakiness transfer is more prevalent in closed-source systems such as SAP HANA than in open-source systems. Our study informs developers on what types of flakiness to expect from LLM-generated tests. It also highlights the importance of providing LLMs with tailored context when employing LLMs for test generation.
- Abstract(参考訳): 燃えるようなテストは、ソフトウェアテストでよくある問題です。
同一コード上で複数回実行されると、一貫性のない結果が発生し、テストの失敗がソフトウェアの欠陥を示すという仮定が無効になる。
LLMベースのテスト生成に関する最近の研究は、フレキネスを生成されたテストの潜在的な問題として認識している。
しかし、その流行と根本原因は不明である。
SAP HANA, DuckDB, MySQL, SQLite という4つのリレーショナルデータベース管理システムのコンテキストにおける LLM 生成テストのフレキネスについて検討した。
GPT-4o と Mistral-Large-Instruct-2407 の2つの LLM を用いたテストスイートを増幅し, 生成したテストケースのフレキネスを評価した。
以上の結果から, 既存のテストに比べ, 生成したテストのフレークテストの割合がわずかに高いことが示唆された。
手動検査の結果, フレキネスの根本原因は, フラキネス検査115件中72件(63%)で確認されていない一定の順序(「無秩序収集」)による検査の信頼性であった。
さらに、両方のLSMは、提供されたプロンプトコンテキストを介して、既存のテストから新しく生成されたテストにフレキネスを移行した。
実験により,SAP HANAなどのクローズドソースシステムでは,オープンソースシステムよりもフレキネス転送が一般的であることが示唆された。
LLM生成テストで期待できるフレキネスの種類について,本研究は開発者に通知する。
また、テスト生成にLLMを使用する場合、LLMを適切なコンテキストで提供することの重要性を強調している。
関連論文リスト
- YATE: The Role of Test Repair in LLM-Based Unit Test Generation [22.67442101368384]
本稿では,ルールベースの静的解析と再試行を組み合わせることで,これらの不正なテストのいくつかを修復する手法を提案する。
このシンプルなアプローチであるYATEを、6つのオープンソースプロジェクトのセットで評価する。
YATEは22%のラインカバレッジ、20%のブランチカバレッジ、20%のミュータントを同等のコストで削減する。
論文 参考訳(メタデータ) (2025-07-24T11:32:31Z) - ProjectTest: A Project-level LLM Unit Test Generation Benchmark and Impact of Error Fixing Mechanisms [48.43237545197775]
単体テスト生成はLLMの有望かつ重要なユースケースとなっている。
ProjectTestは、Python、Java、JavaScriptをカバーするユニットテスト生成のためのプロジェクトレベルのベンチマークである。
論文 参考訳(メタデータ) (2025-02-10T15:24:30Z) - MMLU-CF: A Contamination-free Multi-task Language Understanding Benchmark [57.999567012489706]
我々は,MMLU-CFと呼ばれる汚染のない,より困難なベンチマークを提案する。
このベンチマークは、意図しないデータ漏洩と悪意のないデータ漏洩の両方を回避することで、LLMの世界の知識に対する理解を再評価する。
GPT-4o は 5 ショットスコア73.4% と 0 ショットスコア71.9% しか達成できない。
論文 参考訳(メタデータ) (2024-12-19T18:58:04Z) - Test smells in LLM-Generated Unit Tests [16.061139428298986]
本稿では, LLM 生成単体試験におけるテスト臭拡散の大規模解析法として, マルチベンチマークを初めて提案する。
本研究では,4つのLCM(GPT-3.5,GPT-4,Mistral 7B,Mixtral 8x7B)から20,505のクラスレベルスイート,TestBenchから972のメソッドレベルケース,14,469のEvoSuiteテスト,34,635のオープンソースJavaプロジェクトから779,585の人書きテストについて検討した。
論文 参考訳(メタデータ) (2024-10-14T15:35:44Z) - Do Test and Environmental Complexity Increase Flakiness? An Empirical Study of SAP HANA [47.29324864511411]
不安定なテストはコードの変更なしにランダムに失敗する。
テストの特徴と,テストのフレキネスに影響を与える可能性のあるテスト環境について検討する。
論文 参考訳(メタデータ) (2024-09-16T07:52:09Z) - TestART: Improving LLM-based Unit Testing via Co-evolution of Automated Generation and Repair Iteration [7.509927117191286]
大規模言語モデル(LLM)は、単体テストケースを生成する際、顕著な能力を示した。
本研究では,新しい単体テスト生成法であるTestARTを提案する。
TestARTは、自動生成と修復の反復の共進化を通じて、LLMベースのユニットテストを改善している。
論文 参考訳(メタデータ) (2024-08-06T10:52:41Z) - GPT-HateCheck: Can LLMs Write Better Functional Tests for Hate Speech Detection? [50.53312866647302]
HateCheckは、合成データに対してきめ細かいモデル機能をテストするスイートである。
GPT-HateCheckは,スクラッチからより多彩で現実的な機能テストを生成するフレームワークである。
クラウドソースのアノテーションは、生成されたテストケースが高品質であることを示しています。
論文 参考訳(メタデータ) (2024-02-23T10:02:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。