Fugu-MT 論文翻訳(概要): FlakyFix: Using Large Language Models for Predicting Flaky Test Fix Categories and Test Code Repair

論文の概要: FlakyFix: Using Large Language Models for Predicting Flaky Test Fix Categories and Test Code Repair

arxiv url: http://arxiv.org/abs/2307.00012v2
Date: Mon, 29 Jan 2024 16:28:00 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-30 22:33:25.595059
Title: FlakyFix: Using Large Language Models for Predicting Flaky Test Fix Categories and Test Code Repair
Title（参考訳）: flakyfix: 大規模な言語モデルを使用したテスト修正カテゴリの予測とテストコードの修正
Authors: Sakina Fatima, Hadi Hemmati, Lionel Briand
Abstract要約: 不安定なテストは、テスト中の同じソフトウェアバージョンを非決定的にパスまたは失敗するため、問題となる。本稿では,ラベル付きデータセットを13の修正カテゴリに自動生成するフレームワークを提案し,フレキなテストの修正カテゴリを予測するためにモデルを訓練する。コードモデルと数ショットの学習を用いた実験結果から,修正カテゴリのほとんどを正確に予測できることが判明した。
参考スコア（独自算出の注目度）: 0.628122931748758
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Flaky tests are problematic because they non-deterministically pass or fail for the same software version under test, causing confusion and wasting development effort. While machine learning models have been used to predict flakiness and its root causes, there is much less work on providing support to fix the problem. To address this gap, in this paper, we focus on predicting the type of fix that is required to remove flakiness and then repair the test code on that basis. We do this for a subset of flaky test cases where the root cause of flakiness is in the test case itself and not in the production code. Our key idea is to guide the repair process with additional knowledge about the test's flakiness in the form of its predicted fix category. Thus, we first propose a framework that automatically generates labeled datasets for 13 fix categories and trains models to predict the fix category of a flaky test by analyzing the test code only. Our experimental results using code models and few-shot learning show that we can correctly predict most of the fix categories. To show the usefulness of such fix category labels for automatically repairing flakiness, in addition to informing testers, we augment a Large Language Model (LLM) like GPT with such extra knowledge to ask the LLM for repair suggestions. The results show that our suggested fix category labels significantly enhance the capability of GPT 3.5 Turbo, in generating fixes for flaky tests.
Abstract（参考訳）: 不安定なテストは、非決定的に同じソフトウェアバージョンをテスト中にパスまたは失敗し、混乱と開発労力の浪費を引き起こすため、問題となる。機械学習モデルは、フレキネスとその根本原因を予測するために使われてきたが、問題を修正するためのサポートを提供する作業は、はるかに少ない。このギャップに対処するため,本稿では,フレキネスを取り除き,それに基づいてテストコードを修正するために必要な修正の種類を予測することに注力する。これは、フレキネスの根本原因がテストケース自身にあり、本番コードにはない、不安定なテストケースのサブセットに対して行います。私たちのキーとなるアイデアは、予測された修正カテゴリの形で、テストのフレキネスに関するさらなる知識で、修復プロセスを導くことです。そこで我々はまず,13の修正カテゴリのラベル付きデータセットを自動的に生成するフレームワークを提案し,テストコードのみを解析することにより,フレークテストの修正カテゴリを予測するモデルを訓練する。コードモデルと少数の学習を用いた実験結果から,修正カテゴリのほとんどを正確に予測できることがわかった。このような修正カテゴリラベルの有用性を示すために,テスト担当者に通知することに加えて,gptのような大規模言語モデル(llm)を補修提案をllmに依頼する余分な知識とともに強化する。提案する固定カテゴリラベルは, GPT 3.5 Turbo のフレークテストの修正における性能を著しく向上することを示した。

関連論文リスト

Repair-R1: Better Test Before Repair [2.982543556561469]
APRは、自動的にプログラム欠陥を特定し、パッチを生成し、修復を検証することを目的としている。現在のAPRメソッドは、推論段階でのみテストケースを使用するのが一般的である。本稿では,モデルのトレーニングフェーズにテストケースを導入し,修正に先立ってテスト生成をシフトするリファレンス-R1を提案する。
論文参考訳（メタデータ） (2025-07-30T17:24:05Z)
Systemic Flakiness: An Empirical Analysis of Co-Occurring Flaky Test Failures [6.824747267214373]
不安定なテストは、コードの変更なしに一貫性のない結果をもたらす。開発者は、毎月2250ドル(約2万5000円)の費用で、不気味なテストの修理に1.28%を費やしている。フラキーテストは、しばしばクラスタ内に存在し、同じ根本原因を共有する共起失敗は、系統的なフレキネス(systemic flakiness)と呼ばれる。
論文参考訳（メタデータ） (2025-04-23T14:51:23Z)
UTFix: Change Aware Unit Test Repairing using LLM [24.12850207529614]
UTFixは, 焦点法が変化した場合に, 単体検査を修復するための新しい手法である。このアプローチでは,静的コードスライスや動的コードスライス,障害メッセージなどのコンテキスト情報を提供することで,言語モデルを利用してユニットテストを修復する。私たちの知る限りでは、これはPythonプロジェクトの進化におけるユニットテストに焦点を当てた初めての総合的な研究です。
論文参考訳（メタデータ） (2025-03-19T06:10:03Z)
Learning to Generate Unit Tests for Automated Debugging [52.63217175637201]
ユニットテスト(UT)は、コードの正確性を評価するだけでなく、大きな言語モデル(LLM)にフィードバックを提供する上でも重要な役割を果たします。提案するUTGenは,LLMに対して,予測出力とともにエラーを示す単体テスト入力を生成することを教える。 UTGen は他の LLM ベースラインを7.59% 上回っていることを示す。
論文参考訳（メタデータ） (2025-02-03T18:51:43Z)
Improving LLM-based Unit test generation via Template-based Repair [8.22619177301814]
単体テストは個々のプログラムユニットのバグを検出するのに不可欠だが、時間と労力を消費する。大規模言語モデル(LLM)は、顕著な推論と生成能力を示している。本稿では,新しい単体テスト生成法であるTestARTを提案する。
論文参考訳（メタデータ） (2024-08-06T10:52:41Z)
Fix the Tests: Augmenting LLMs to Repair Test Cases with Static Collector and Neural Reranker [9.428021853841296]
本稿では, TROCtxsの精密かつ高精度な構築により, 旧来の検査ケースを自動的に修復する新しい手法であるSynTERを提案する。構築されたTROCtxの増強により、幻覚は57.1%減少する。
論文参考訳（メタデータ） (2024-07-04T04:24:43Z)
A Generic Approach to Fix Test Flakiness in Real-World Projects [7.122378689356857]
FlakyDoctorは、LLMのパワーとプログラム分析音を組み合わせて、さまざまな種類のテストフレキネスを修復する、ニューロシンボリックなテクニックである。 3つの代替フレキネス修復アプローチと比較して、FrakyDoctorはDexFixよりも8%多いIDテスト、ODより12%多いODフレキテスト、iFixFlakiesより17%多いODフレキテストが可能である。
論文参考訳（メタデータ） (2024-04-15T01:07:57Z)
FlaKat: A Machine Learning-Based Categorization Framework for Flaky Tests [3.0846824529023382]
不安定なテストは、ソフトウェアシステムに変更を加えることなく、非決定的に通過または失敗する可能性がある。 State-of-the-art Researchは、機械学習ソリューションを不安定なテスト検出に取り入れ、合理的に優れた精度を達成する。
論文参考訳（メタデータ） (2024-03-01T22:00:44Z)
GPT-HateCheck: Can LLMs Write Better Functional Tests for Hate Speech Detection? [50.53312866647302]
HateCheckは、合成データに対してきめ細かいモデル機能をテストするスイートである。 GPT-HateCheckは,スクラッチからより多彩で現実的な機能テストを生成するフレームワークである。クラウドソースのアノテーションは、生成されたテストケースが高品質であることを示しています。
論文参考訳（メタデータ） (2024-02-23T10:02:01Z)
CAFA: Class-Aware Feature Alignment for Test-Time Adaptation [50.26963784271912]
テスト時間適応(TTA)は、テスト時にラベルのないデータにモデルを適応させることによって、この問題に対処することを目的としている。本稿では,クラス認識特徴アライメント(CAFA, Class-Aware Feature Alignment)と呼ばれる単純な機能アライメント損失を提案する。
論文参考訳（メタデータ） (2022-06-01T03:02:07Z)
Break-It-Fix-It: Unsupervised Learning for Program Repair [90.55497679266442]
我々は2つの重要なアイデアを持つ新しいトレーニング手法であるBreak-It-Fix-It (BIFI)を提案する。批判者は、実際の悪い入力でフィクスダーの出力をチェックし、トレーニングデータに良い(固定された)出力を追加する。これらのアイデアに基づいて、よりペア化されたデータを生成するために、ブレーカとフィクスチャを同時に使用しながら、繰り返し更新する。 BIFIは既存のメソッドより優れており、GitHub-Pythonで90.5%、DeepFixで71.7%の修正精度がある。
論文参考訳（メタデータ） (2021-06-11T20:31:04Z)
What is the Vocabulary of Flaky Tests? An Extended Replication [0.0]
本研究は,コード識別子を用いたテストフレキネスの予測に関する実証的研究である。トレーニング済みモデルのパフォーマンスを他のフラスコテストと異なるプロジェクトからデータセットを使用して検証しました。
論文参考訳（メタデータ） (2021-03-23T16:42:22Z)
Coping with Label Shift via Distributionally Robust Optimisation [72.80971421083937]
分散ロバスト最適化(DRO)に基づく目的最小化モデルを提案する。そこで我々は,提案した目的を最適化するために,大規模問題に適した勾配降下近位ミラー上昇アルゴリズムを設計し,解析する。
論文参考訳（メタデータ） (2020-10-23T08:33:04Z)
TACRED Revisited: A Thorough Evaluation of the TACRED Relation Extraction Task [80.38130122127882]
TACREDはリレーショナル抽出(RE)において最も大きく、最も広く使われているクラウドソースデータセットの1つであるパフォーマンスの天井に到達したのか、改善の余地はあるのか? ラベルエラーは絶対F1テストエラーの8%を占めており、例の50%以上を可逆化する必要がある。
論文参考訳（メタデータ） (2020-04-30T15:07:37Z)
Noisy Adaptive Group Testing using Bayesian Sequential Experimental Design [63.48989885374238]
病気の感染頻度が低い場合、Dorfman氏は80年前に、人のテストグループは個人でテストするよりも効率が良いことを示した。本研究の目的は,ノイズの多い環境で動作可能な新しいグループテストアルゴリズムを提案することである。
論文参考訳（メタデータ） (2020-04-26T23:41:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。