Fugu-MT 論文翻訳(概要): Can We Classify Flaky Tests Using Only Test Code? An LLM-Based Empirical Study

論文の概要: Can We Classify Flaky Tests Using Only Test Code? An LLM-Based Empirical Study

arxiv url: http://arxiv.org/abs/2602.05465v1
Date: Thu, 05 Feb 2026 09:15:09 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-06 18:49:08.85717
Title: Can We Classify Flaky Tests Using Only Test Code? An LLM-Based Empirical Study
Title（参考訳）: テストコードのみを用いたフレーカーテストの分類法 : LLMによる実証的研究
Authors: Alexander Berndt, Vekil Bekmyradov, Rainer Gemulla, Marcus Kessel, Thomas Bach, Sebastian Baltes,
Abstract要約: 不安定なテストは、同じコード修正で繰り返し実行されるとき、一貫性のない結果をもたらす。以前の研究は、テストコードの識別子に基づいて不安定なテストを分類するために、機械学習モデルを訓練するアプローチを評価した。
参考スコア（独自算出の注目度）: 40.93176986225226
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Flaky tests yield inconsistent results when they are repeatedly executed on the same code revision. They interfere with automated quality assurance of code changes and hinder efficient software testing. Previous work evaluated approaches to train machine learning models to classify flaky tests based on identifiers in the test code. However, the resulting classifiers have been shown to lack generalizability, hindering their applicability in practical environments. Recently, pre-trained Large Language Models (LLMs) have shown the capability to generalize across various tasks. Thus, they represent a promising approach to address the generalizability problem of previous approaches. In this study, we evaluated three LLMs (two general-purpose models, one code-specific model) using three prompting techniques on two benchmark datasets from prior studies on flaky test classification. Furthermore, we manually investigated 50 samples from the given datasets to determine whether classifying flaky tests based only on test code is feasible for humans. Our findings indicate that LLMs struggle to classify flaky tests given only the test code. The results of our best prompt-model combination were only marginally better than random guessing. In our manual analysis, we found that the test code does not necessarily contain sufficient information for a flakiness classification. Our findings motivate future work to evaluate LLMs for flakiness classification with additional context, for example, using retrieval-augmented generation or agentic AI.
Abstract（参考訳）: 不安定なテストは、同じコード修正で繰り返し実行されるとき、一貫性のない結果をもたらす。コード変更の自動品質保証を妨害し、効率的なソフトウェアテストを妨げる。以前の研究は、テストコードの識別子に基づいて不安定なテストを分類するために、機械学習モデルを訓練するアプローチを評価した。しかし、結果として得られる分類器は一般化性に欠けており、実用環境での適用性を妨げている。近年、LLM(Large Language Models)は様々なタスクにまたがって一般化する能力を示している。したがって、これらは従来のアプローチの一般化可能性問題に対処するための有望なアプローチである。本研究では,3つのLCM(汎用モデル2つ,コード固有モデル1つ)を2つのベンチマークデータセット上で3つのプロンプト手法を用いて評価した。さらに,与えられたデータセットから50個のサンプルを手作業で分析し,テストコードのみに基づくフレキなテストの分類が人間にとって可能かどうかを判定した。以上の結果から,LSMはテストコードのみを考慮し,フレーカーテストの分類に苦慮していることが明らかとなった。提案手法の最適組み合わせの結果は, ランダムな推測よりもわずかに良好であった。手動で解析したところ、テストコードにはフレキネス分類のための十分な情報が必ずしも含まれていないことがわかった。我々の研究は、例えば検索強化世代やエージェントAIを用いて、フレキネス分類のためのLCMを評価するための今後の取り組みを動機付けている。

関連論文リスト

Mutation Testing via Iterative Large Language Model-Driven Scientific Debugging [10.334617290353192]
我々は,Large Language Models (LLM) が変異体に対するテストを生成する上で,科学的計算が有効かどうかを評価する。 LLMは、より良い障害検出とカバレッジを持つテストを生成する上で、Pynguinを一貫して上回っている。重要なことは、テストケースの反復的な改善が高品質なテストスイートを実現する上で重要であるということだ。
論文参考訳（メタデータ） (2025-03-11T08:47:13Z)
Training on the Benchmark Is Not All You Need [52.01920740114261]
本稿では,複数選択肢の内容に基づいた簡易かつ効果的なデータ漏洩検出手法を提案する。本手法は,モデルトレーニングデータや重みを使用せずに,グレーボックス条件下で動作可能である。 4つのベンチマークデータセットから35個の主要なオープンソースLCMのデータ漏洩度を評価する。
論文参考訳（メタデータ） (2024-09-03T11:09:44Z)
Deep anytime-valid hypothesis testing [29.273915933729057]
非パラメトリックなテスト問題に対する強力なシーケンシャルな仮説テストを構築するための一般的なフレームワークを提案する。テスト・バイ・ベッティング・フレームワーク内で、機械学習モデルの表現能力を活用するための原則的なアプローチを開発する。合成および実世界のデータセットに関する実証的な結果は、我々の一般的なフレームワークを用いてインスタンス化されたテストが、特殊なベースラインと競合することを示している。
論文参考訳（メタデータ） (2023-10-30T09:46:19Z)
Position: AI Evaluation Should Learn from How We Test Humans [65.36614996495983]
人間の評価のための20世紀起源の理論である心理測定は、今日のAI評価における課題に対する強力な解決策になり得る、と我々は主張する。
論文参考訳（メタデータ） (2023-06-18T09:54:33Z)
On the use of test smells for prediction of flaky tests [0.0]
不安定な検査は検査結果の評価を妨げコストを増大させる既存のテストケース語彙の使用に基づくアプローチは、文脈に敏感であり、過度に適合する傾向がある。フレキな検査の予測因子として, 試験臭の使用について検討した。
論文参考訳（メタデータ） (2021-08-26T13:21:55Z)
TestRank: Bringing Order into Unlabeled Test Instances for Deep Learning Tasks [14.547623982073475]
ディープラーニングシステムはテストやデバッグが難しいことで有名です。テストコスト削減のために、テスト選択を行い、選択した“高品質”バグ修正テストインプットのみをラベル付けすることが不可欠である。本稿では,未ラベルのテストインスタンスに,バグ検出機能,すなわちTestRankに従って順序を付ける新しいテスト優先順位付け手法を提案する。
論文参考訳（メタデータ） (2021-05-21T03:41:10Z)
What is the Vocabulary of Flaky Tests? An Extended Replication [0.0]
本研究は,コード識別子を用いたテストフレキネスの予測に関する実証的研究である。トレーニング済みモデルのパフォーマンスを他のフラスコテストと異なるプロジェクトからデータセットを使用して検証しました。
論文参考訳（メタデータ） (2021-03-23T16:42:22Z)
Understanding Classifier Mistakes with Generative Models [88.20470690631372]
ディープニューラルネットワークは教師付き学習タスクに有効であるが、脆弱であることが示されている。本稿では、生成モデルを利用して、分類器が一般化に失敗するインスタンスを特定し、特徴付ける。我々のアプローチは、トレーニングセットのクラスラベルに依存しないため、半教師付きでトレーニングされたモデルに適用できる。
論文参考訳（メタデータ） (2020-10-05T22:13:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。