論文の概要: Flaky Tests in a Large Industrial Database Management System: An Empirical Study of Fixed Issue Reports for SAP HANA
- arxiv url: http://arxiv.org/abs/2602.03556v1
- Date: Tue, 03 Feb 2026 14:03:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.495804
- Title: Flaky Tests in a Large Industrial Database Management System: An Empirical Study of Fixed Issue Reports for SAP HANA
- Title(参考訳): 大規模産業データベース管理システムにおけるフレーキーテスト--SAP HANAの固定問題レポートの実証的研究
- Authors: Alexander Berndt, Thomas Bach, Sebastian Baltes,
- Abstract要約: 不安定なテストは、同じバージョンのソースコードに対して複数回実行されると、異なる結果をもたらす。
様々な要因がテストのフレキネスを引き起こすことがある。
不安定なテストを修正するアプローチは、通常、特定の原因に対処するために調整される。
- 参考スコア(独自算出の注目度): 45.467566253448666
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Flaky tests yield different results when executed multiple times for the same version of the source code. Thus, they provide an ambiguous signal about the quality of the code and interfere with the automated assessment of code changes. While a variety of factors can cause test flakiness, approaches to fix flaky tests are typically tailored to address specific causes. However, the prevalent root causes of flaky tests can vary depending on the programming language, application domain, or size of the software project. Since manually labeling flaky tests is time-consuming and tedious, this work proposes an LLMs-as-annotators approach that leverages intra- and inter-model consistency to label issue reports related to fixed flakiness issues with the relevant root cause category. This allows us to gain an overview of prevalent flakiness categories in the issue reports. We evaluated our labeling approach in the context of SAP HANA, a large industrial database management system. Our results suggest that SAP HANA's tests most commonly suffer from issues related to concurrency (23%, 130 of 559 analyzed issue reports). Moreover, our results suggest that different test types face different flakiness challenges. Therefore, we encourage future research on flakiness mitigation to consider evaluating the generalizability of proposed approaches across different test types.
- Abstract(参考訳): 不安定なテストは、同じバージョンのソースコードに対して複数回実行されると、異なる結果をもたらす。
したがって、コードの品質に関する曖昧な信号を提供し、コード変更の自動評価を妨げる。
様々な要因がテストのフレキネスを引き起こすが、フレキなテストを修正するアプローチは通常、特定の原因に対処するように調整される。
しかし、悪質なテストの根本原因は、プログラミング言語、アプリケーションドメイン、ソフトウェアプロジェクトのサイズによって異なります。
フレキなテストのラベル付けは時間と手間がかかるため、本研究では、モデル内およびモデル間整合性を利用して、関連する根本原因カテゴリの固定フレキネス問題に関連する問題レポートをラベル付けするLLMs-as-annotatorsアプローチを提案する。
これにより、イシューレポートで広く使われているフレキネスのカテゴリを概観することができる。
大規模産業データベース管理システムであるSAP HANAを用いてラベル付け手法の評価を行った。
以上の結果から,SAP HANA テストは並列性に関わる問題 (559 件の報告のうち23%,130 件) に最も悩まされることが示唆された。
さらに,本研究の結果から,異なるテストタイプが異なるフレキネスの課題に直面していることが示唆された。
そこで我々は,様々なテストタイプにまたがる提案手法の一般化可能性を評価するために,フレキネス緩和に関する今後の研究を奨励する。
関連論文リスト
- On the Flakiness of LLM-Generated Tests for Industrial and Open-Source Database Management Systems [42.98432295929164]
不安定なテストは、同じコードで複数回実行されると、一貫性のない結果になる。
LLMベースのテスト生成に関する最近の研究は、フレキネスを生成されたテストの潜在的な問題として認識している。
LLM生成テストで期待できるフレキネスの種類について,本研究は開発者に通知する。
論文 参考訳(メタデータ) (2026-01-13T21:48:28Z) - Systemic Flakiness: An Empirical Analysis of Co-Occurring Flaky Test Failures [6.824747267214373]
不安定なテストは、コードの変更なしに一貫性のない結果をもたらす。
開発者は、毎月2250ドル(約2万5000円)の費用で、不気味なテストの修理に1.28%を費やしている。
フラキーテストは、しばしばクラスタ内に存在し、同じ根本原因を共有する共起失敗は、系統的なフレキネス(systemic flakiness)と呼ばれる。
論文 参考訳(メタデータ) (2025-04-23T14:51:23Z) - Model Equality Testing: Which Model Is This API Serving? [59.005869726179455]
APIプロバイダは、基本モデルの定量化、透かし、微調整を行い、出力分布を変更することができる。
モデル平等テスト(Model Equality Testing)は,2サンプルテスト問題である。
単純な文字列カーネル上に構築されたテストは、歪みの範囲に対して77.4%の中央値を達成する。
論文 参考訳(メタデータ) (2024-10-26T18:34:53Z) - Do Test and Environmental Complexity Increase Flakiness? An Empirical Study of SAP HANA [47.29324864511411]
不安定なテストはコードの変更なしにランダムに失敗する。
テストの特徴と,テストのフレキネスに影響を与える可能性のあるテスト環境について検討する。
論文 参考訳(メタデータ) (2024-09-16T07:52:09Z) - FlaKat: A Machine Learning-Based Categorization Framework for Flaky
Tests [3.0846824529023382]
不安定なテストは、ソフトウェアシステムに変更を加えることなく、非決定的に通過または失敗する可能性がある。
State-of-the-art Researchは、機械学習ソリューションを不安定なテスト検出に取り入れ、合理的に優れた精度を達成する。
論文 参考訳(メタデータ) (2024-03-01T22:00:44Z) - GPT-HateCheck: Can LLMs Write Better Functional Tests for Hate Speech Detection? [50.53312866647302]
HateCheckは、合成データに対してきめ細かいモデル機能をテストするスイートである。
GPT-HateCheckは,スクラッチからより多彩で現実的な機能テストを生成するフレームワークである。
クラウドソースのアノテーションは、生成されたテストケースが高品質であることを示しています。
論文 参考訳(メタデータ) (2024-02-23T10:02:01Z) - Taming Timeout Flakiness: An Empirical Study of SAP HANA [47.29324864511411]
不安定なテストは回帰テストに悪影響を及ぼします。
テストタイムアウトは、このような不安定なテストの失敗に寄与する要因のひとつです。
テストのフレキネス率は、繰り返しテストの実行回数によって49%から70%の範囲である。
論文 参考訳(メタデータ) (2024-02-07T20:01:41Z) - Using Metamorphic Relations to Verify and Enhance Artcode Classification [39.36253474867746]
オラクル問題に直面している領域の例として、機械学習を用いて、入力イメージを事前定義されたクラスのセットの1つに分類する自動画像分類がある。
オラクルの問題を軽減するソフトウェアテストへのアプローチは、メタモルフィックテスト(MT)である。
本稿では、Artcodesと呼ばれる視覚的に隠されたマーカーを含む画像の分類問題について検討し、訓練された分類器の検証と拡張にMTを適用した。
論文 参考訳(メタデータ) (2021-08-05T15:54:56Z) - What is the Vocabulary of Flaky Tests? An Extended Replication [0.0]
本研究は,コード識別子を用いたテストフレキネスの予測に関する実証的研究である。
トレーニング済みモデルのパフォーマンスを他のフラスコテストと異なるプロジェクトからデータセットを使用して検証しました。
論文 参考訳(メタデータ) (2021-03-23T16:42:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。