論文の概要: Black-Box Prediction of Flaky Test Fix Categories Using Language Models
- arxiv url: http://arxiv.org/abs/2307.00012v1
- Date: Wed, 21 Jun 2023 19:34:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-09 14:03:12.307456
- Title: Black-Box Prediction of Flaky Test Fix Categories Using Language Models
- Title(参考訳): 言語モデルを用いたフレークテスト修正カテゴリのブラックボックス予測
- Authors: Sakina Fatima, Hadi Hemmati, Lionel Briand
- Abstract要約: 不安定なテストは、テスト中の同じソフトウェアバージョンを非決定的にパスまたは失敗するため、問題となる。
本稿では,13の修正カテゴリのラベル付きデータセットを自動的に生成し,フレキなテストの修正カテゴリを予測するためのモデルをトレーニングするフレームワークを提案する。
- 参考スコア(独自算出の注目度): 1.7281573530896261
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Flaky tests are problematic because they non-deterministically pass or fail
for the same software version under test, causing confusion and wasting
developer time. While machine learning models have been used to predict
flakiness and its root causes, there is less work on providing support to fix
the problem. To address this gap, we propose a framework that automatically
generates labeled datasets for 13 fix categories and train models to predict
the fix category of a flaky test by analyzing the test code only. Though it is
unrealistic at this stage to accurately predict the fix itself, the categories
provide precise guidance about what part of the test code to look at. Our
approach is based on language models, namely CodeBERT and UniXcoder, whose
output is fine-tuned with a Feed Forward Neural Network (FNN) or a Siamese
Network-based Few Shot Learning (FSL). Our experimental results show that
UniXcoder outperforms CodeBERT, in correctly predicting most of the categories
of fixes a developer should apply. Furthermore, FSL does not appear to have any
significant effect. Given the high accuracy obtained for most fix categories,
our proposed framework has the potential to help developers to fix flaky tests
quickly and accurately.To aid future research, we make our automated labeling
tool, dataset, prediction models, and experimental infrastructure publicly
available.
- Abstract(参考訳): 不安定なテストは、非決定的に同じソフトウェアバージョンをテスト中にパスまたは失敗し、混乱と開発者の時間の浪費を引き起こすため、問題となる。
機械学習モデルは、フレキネスとその根本原因を予測するために使用されているが、問題を解決するためのサポートを提供する作業は少ない。
このギャップに対処するために、13の修正カテゴリのラベル付きデータセットを自動的に生成するフレームワークを提案し、テストコードのみを分析して、不安定なテストの修正カテゴリを予測するモデルを訓練する。
この段階では、修正自体を正確に予測することは非現実的だが、これらのカテゴリは、テストコードのどの部分を見るべきかの正確なガイダンスを提供する。
我々のアプローチは言語モデル、すなわちCodeBERTとUniXcoderに基づいており、その出力はFeed Forward Neural Network(FNN)またはSiamese NetworkベースのFew Shot Learning(FSL)で微調整されている。
実験の結果、UnixcoderはCodeBERTよりも優れており、開発者が適用すべき修正のカテゴリの大部分を正しく予測する。
さらに、FSLは大きな効果を示さない。
ほとんどの修正カテゴリで得られた高い精度を考えると、提案されたフレームワークは、開発者が不安定なテストを迅速かつ正確に修正するのに役立つ可能性があります。将来の研究を支援するために、自動ラベリングツール、データセット、予測モデル、実験インフラストラクチャを一般公開します。
関連論文リスト
- FlaKat: A Machine Learning-Based Categorization Framework for Flaky
Tests [3.0846824529023382]
不安定なテストは、ソフトウェアシステムに変更を加えることなく、非決定的に通過または失敗する可能性がある。
State-of-the-art Researchは、機械学習ソリューションを不安定なテスト検出に取り入れ、合理的に優れた精度を達成する。
論文 参考訳(メタデータ) (2024-03-01T22:00:44Z) - GPT-HateCheck: Can LLMs Write Better Functional Tests for Hate Speech
Detection? [55.20381279291041]
HateCheckは、合成データに対してきめ細かいモデル機能をテストするスイートである。
GPT-HateCheckは,スクラッチからより多彩で現実的な機能テストを生成するフレームワークである。
クラウドソースのアノテーションは、生成されたテストケースが高品質であることを示しています。
論文 参考訳(メタデータ) (2024-02-23T10:02:01Z) - Automatic Generation of Test Cases based on Bug Reports: a Feasibility
Study with Large Language Models [4.318319522015101]
既存のアプローチは、単純なテスト(例えば単体テスト)や正確な仕様を必要とするテストケースを生成する。
ほとんどのテスト手順は、テストスイートを形成するために人間が書いたテストケースに依存しています。
大規模言語モデル(LLM)を活用し,バグレポートを入力として利用することにより,この生成の実現可能性を検討する。
論文 参考訳(メタデータ) (2023-10-10T05:30:12Z) - Patch Space Exploration using Static Analysis Feedback [8.13782364161157]
静的解析を利用して、メモリの安全性問題を自動的に修復する方法を示す。
提案したアプローチは、バグを修正するためのパッチの近さを検査することで、望ましいパッチが何であるかを学習する。
我々は,印字ヒープに対する影響に応じて等価パッチのクラスを作成し,そのクラスのパッチ等価度に対してのみ検証オラクルを呼び出すことにより,修復をスケーラブルにする。
論文 参考訳(メタデータ) (2023-08-01T05:22:10Z) - Zero-shot Model Diagnosis [80.36063332820568]
ディープラーニングモデルを評価するための一般的なアプローチは、興味のある属性を持つラベル付きテストセットを構築し、そのパフォーマンスを評価することである。
本稿では,ゼロショットモデル診断(ZOOM)がテストセットやラベル付けを必要とせずに可能であることを論じる。
論文 参考訳(メタデータ) (2023-03-27T17:59:33Z) - CAFA: Class-Aware Feature Alignment for Test-Time Adaptation [50.26963784271912]
テスト時間適応(TTA)は、テスト時にラベルのないデータにモデルを適応させることによって、この問題に対処することを目的としている。
本稿では,クラス認識特徴アライメント(CAFA, Class-Aware Feature Alignment)と呼ばれる単純な機能アライメント損失を提案する。
論文 参考訳(メタデータ) (2022-06-01T03:02:07Z) - A Principled Approach to Failure Analysis and Model Repairment:
Demonstration in Medical Imaging [12.732665048388041]
マシンラーニングモデルは通常、デプロイ後の予期せぬ失敗を示す。
私たちは2つの重要な質問に答えることで、このプロセスの標準化と原則の導入を目指しています。
そこで本研究では,タイプ内および型間一般化の測定により,特定された障害タイプの品質を検証できることを示唆する。
我々は,以前に正しいデータの性能を維持しつつ,失敗タイプに対して高い精度を達成できた場合,モデルを修復すると考えることができると論じる。
論文 参考訳(メタデータ) (2021-09-25T12:04:19Z) - Break-It-Fix-It: Unsupervised Learning for Program Repair [90.55497679266442]
我々は2つの重要なアイデアを持つ新しいトレーニング手法であるBreak-It-Fix-It (BIFI)を提案する。
批判者は、実際の悪い入力でフィクスダーの出力をチェックし、トレーニングデータに良い(固定された)出力を追加する。
これらのアイデアに基づいて、よりペア化されたデータを生成するために、ブレーカとフィクスチャを同時に使用しながら、繰り返し更新する。
BIFIは既存のメソッドより優れており、GitHub-Pythonで90.5%、DeepFixで71.7%の修正精度がある。
論文 参考訳(メタデータ) (2021-06-11T20:31:04Z) - What is the Vocabulary of Flaky Tests? An Extended Replication [0.0]
本研究は,コード識別子を用いたテストフレキネスの予測に関する実証的研究である。
トレーニング済みモデルのパフォーマンスを他のフラスコテストと異なるプロジェクトからデータセットを使用して検証しました。
論文 参考訳(メタデータ) (2021-03-23T16:42:22Z) - Coping with Label Shift via Distributionally Robust Optimisation [72.80971421083937]
分散ロバスト最適化(DRO)に基づく目的最小化モデルを提案する。
そこで我々は,提案した目的を最適化するために,大規模問題に適した勾配降下近位ミラー上昇アルゴリズムを設計し,解析する。
論文 参考訳(メタデータ) (2020-10-23T08:33:04Z) - TACRED Revisited: A Thorough Evaluation of the TACRED Relation
Extraction Task [80.38130122127882]
TACREDはリレーショナル抽出(RE)において最も大きく、最も広く使われているクラウドソースデータセットの1つである
パフォーマンスの天井に到達したのか、改善の余地はあるのか?
ラベルエラーは絶対F1テストエラーの8%を占めており、例の50%以上を可逆化する必要がある。
論文 参考訳(メタデータ) (2020-04-30T15:07:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。