論文の概要: The Vocabulary of Flaky Tests in the Context of SAP HANA
- arxiv url: http://arxiv.org/abs/2602.23957v1
- Date: Fri, 27 Feb 2026 11:59:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 19:48:24.408618
- Title: The Vocabulary of Flaky Tests in the Context of SAP HANA
- Title(参考訳): SAP HANAの文脈におけるフレークテストの語彙
- Authors: Alexander Berndt, Zoltán Nochta, Thomas Bach,
- Abstract要約: 不安定なテストは コードの変更なしに ランダムに失敗する
以前の作業では、テストコードのソースコード識別子に基づいて、不安定なテストを特定することが提案されていた。
大規模産業プロジェクトにおいて,テストコード中のソースコード識別子に基づいて,フレーカーテストとその根本原因を同定するためのアプローチを評価する。
- 参考スコア(独自算出の注目度): 43.04215607079248
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Background. Automated test execution is an important activity to gather information about the quality of a software project. So-called flaky tests, however, negatively affect this process. Such tests fail seemingly at random without changes to the code and thus do not provide a clear signal. Previous work proposed to identify flaky tests based on the source code identifiers in the test code. So far, these approaches have not been evaluated in a large-scale industrial setting. Aims. We evaluate approaches to identify flaky tests and their root causes based on source code identifiers in the test code in a large-scale industrial project. Method. First, we replicate previous work by Pinto et al. in the context of SAP HANA. Second, we assess different feature extraction techniques, namely TF-IDF and TF-IDFC-RF. Third, we evaluate CodeBERT and XGBoost as classification models. For a sound comparison, we utilize both the data set from previous work and two data sets from SAP HANA. Results. Our replication shows similar results on the original data set and on one of the SAP HANA data sets. While the original approach yielded an F1-Score of 0.94 on the original data set and 0.92 on the SAP HANA data set, our extensions achieve F1-Scores of 0.96 and 0.99, respectively. The reliance on external data sources is a common root cause for test flakiness in the context of SAP HANA. Conclusions. The vocabulary of a large industrial project seems to be slightly different with respect to the exact terms, but the categories for the terms, such as remote dependencies, are similar to previous empirical findings. However, even with rather large F1-Scores, both finding source code identifiers for flakiness and a black box prediction have limited use in practice as the results are not actionable for developers.
- Abstract(参考訳): 背景。
自動テスト実行は、ソフトウェアプロジェクトの品質に関する情報を集めるための重要な活動である。
しかし、いわゆるフレキテストは、このプロセスに悪影響を及ぼす。
このようなテストはコードの変更なしにランダムに失敗するため、明確な信号を提供しない。
以前の作業では、テストコードのソースコード識別子に基づいて、不安定なテストを特定することが提案されていた。
これまでのところ、これらのアプローチは大規模産業環境では評価されていない。
エイムズ。
大規模産業プロジェクトにおいて,テストコード中のソースコード識別子に基づいて,フレーカーテストとその根本原因を同定するためのアプローチを評価する。
方法。
まず、Pintoらによる以前の研究をSAP HANAの文脈で再現する。
次に,TF-IDF と TF-IDFC-RF の異なる特徴抽出手法について検討した。
第3に、CodeBERTとXGBoostを分類モデルとして評価する。
音響比較では,従来の作業から得られたデータセットと,SAP HANAから得られた2つのデータセットの両方を利用する。
結果。
我々の複製は、元のデータセットとSAP HANAデータセットの1つに類似した結果を示す。
元のアプローチでは、元のデータセットで0.94、SAP HANAデータセットで0.92のF1スコアが得られたが、我々の拡張では、それぞれ0.96と0.99のF1スコアが得られた。
外部データソースへの依存は、SAP HANAの文脈におけるテストフレキネスの共通の根本原因である。
結論。
大規模産業プロジェクトの語彙は、正確な用語に関して若干異なるように見えるが、リモート依存のような用語のカテゴリーは、以前の経験的発見と似ている。
しかし、かなり大きなF1スコアであっても、フレキネスのソースコード識別子とブラックボックス予測の両方は、開発者にとって実行不可能な結果のため、実際には限定的な使用しかできない。
関連論文リスト
- Can We Classify Flaky Tests Using Only Test Code? An LLM-Based Empirical Study [40.93176986225226]
不安定なテストは、同じコード修正で繰り返し実行されるとき、一貫性のない結果をもたらす。
以前の研究は、テストコードの識別子に基づいて不安定なテストを分類するために、機械学習モデルを訓練するアプローチを評価した。
論文 参考訳(メタデータ) (2026-02-05T09:15:09Z) - Flaky Tests in a Large Industrial Database Management System: An Empirical Study of Fixed Issue Reports for SAP HANA [45.467566253448666]
不安定なテストは、同じバージョンのソースコードに対して複数回実行されると、異なる結果をもたらす。
様々な要因がテストのフレキネスを引き起こすことがある。
不安定なテストを修正するアプローチは、通常、特定の原因に対処するために調整される。
論文 参考訳(メタデータ) (2026-02-03T14:03:59Z) - Scaling Test-Time Compute Without Verification or RL is Suboptimal [70.28430200655919]
RL法や検索法に基づく検証器ベース (VB) 手法による微調整は, 一定量の計算・データ予算を条件として, 蒸留・クローニングに基づく検証器フリー (VF) 手法よりもはるかに優れていることを示す。
我々は,3/8Bの事前学習型LLMのドクティクスと数学推論の両問題に対して,我々の理論を実証的に相関させ,テスト時間計算のスケーリングには検証が不可欠であることを確認した。
論文 参考訳(メタデータ) (2025-02-17T18:43:24Z) - Model Equality Testing: Which Model Is This API Serving? [59.005869726179455]
APIプロバイダは、基本モデルの定量化、透かし、微調整を行い、出力分布を変更することができる。
モデル平等テスト(Model Equality Testing)は,2サンプルテスト問題である。
単純な文字列カーネル上に構築されたテストは、歪みの範囲に対して77.4%の中央値を達成する。
論文 参考訳(メタデータ) (2024-10-26T18:34:53Z) - Federated Causal Discovery from Heterogeneous Data [70.31070224690399]
任意の因果モデルと異種データに対応する新しいFCD法を提案する。
これらのアプローチには、データのプライバシを保護するために、生データのプロキシとして要約統計を構築することが含まれる。
提案手法の有効性を示すために, 合成および実データを用いた広範囲な実験を行った。
論文 参考訳(メタデータ) (2024-02-20T18:53:53Z) - FlakyFix: Using Large Language Models for Predicting Flaky Test Fix Categories and Test Code Repair [0.5749787074942512]
不安定なテストは、テスト中の同じソフトウェアバージョンを非決定的にパスまたは失敗するため、問題となる。
本稿では、フレキネスを除去し、それに基づいてテストコードを修正するために必要な修正の種類を予測することに焦点を当てる。
1つの鍵となるアイデアは、予想される修正カテゴリの形で、テストのフレキネスに関するさらなる知識で、修復プロセスを導くことである。
論文 参考訳(メタデータ) (2023-06-21T19:34:16Z) - Can Large Language Models Infer Causation from Correlation? [104.96351414570239]
大規模言語モデル(LLM)の純粋因果推論スキルをテストする。
相関文の集合を取り、変数間の因果関係を決定する新しいタスクCorr2Causeを定式化する。
これらのモデルがタスクのランダムな性能にほぼ近い結果が得られることを示す。
論文 参考訳(メタデータ) (2023-06-09T12:09:15Z) - Labeling-Free Comparison Testing of Deep Learning Models [28.47632100019289]
本研究では,ラベリング作業の限界を克服し,ランダム性をサンプリングするためのラベリングフリー比較試験手法を提案する。
提案手法は,データセットや分布シフトに関わらず,Spearmanの相関値とKendallの$tau$に対して,最大0.74および0.53のベースライン手法より優れている。
論文 参考訳(メタデータ) (2022-04-08T10:55:45Z) - What is the Vocabulary of Flaky Tests? An Extended Replication [0.0]
本研究は,コード識別子を用いたテストフレキネスの予測に関する実証的研究である。
トレーニング済みモデルのパフォーマンスを他のフラスコテストと異なるプロジェクトからデータセットを使用して検証しました。
論文 参考訳(メタデータ) (2021-03-23T16:42:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。