Fugu-MT 論文翻訳(概要): A Generic Approach to Fix Test Flakiness in Real-World Projects

論文の概要: A Generic Approach to Fix Test Flakiness in Real-World Projects

arxiv url: http://arxiv.org/abs/2404.09398v1
Date: Mon, 15 Apr 2024 01:07:57 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-16 14:09:06.903875
Title: A Generic Approach to Fix Test Flakiness in Real-World Projects
Title（参考訳）: 実世界のプロジェクトにおけるテストフレーキネスの修正のためのジェネリックアプローチ
Authors: Yang Chen, Reyhaneh Jabbarvand,
Abstract要約: FlakyDoctorは、LLMのパワーとプログラム分析音を組み合わせて、さまざまな種類のテストフレキネスを修復する、ニューロシンボリックなテクニックである。 3つの代替フレキネス修復アプローチと比較して、FrakyDoctorはDexFixよりも8%多いIDテスト、ODより12%多いODフレキテスト、iFixFlakiesより17%多いODフレキテストが可能である。
参考スコア（独自算出の注目度）: 7.122378689356857
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Test flakiness, a non-deterministic behavior of builds irrelevant to code changes, is a major and continuing impediment to delivering reliable software. The very few techniques for the automated repair of test flakiness are specifically crafted to repair either Order-Dependent (OD) or Implementation-Dependent (ID) flakiness. They are also all symbolic approaches, i.e., leverage program analysis to detect and repair known test flakiness patterns and root causes, failing to generalize. To bridge the gap, we propose FlakyDoctor, a neuro-symbolic technique that combines the power of LLMs-generalizability-and program analysis-soundness-to fix different types of test flakiness. Our extensive evaluation using 873 confirmed flaky tests (332 OD and 541 ID) from 243 real-world projects demonstrates the ability of FlakyDoctor in repairing flakiness, achieving 57% (OD) and 59% (ID) success rate. Comparing to three alternative flakiness repair approaches, FlakyDoctor can repair 8% more ID tests than DexFix, 12% more OD flaky tests than ODRepair, and 17% more OD flaky tests than iFixFlakies. Regardless of underlying LLM, the non-LLM components of FlakyDoctor contribute to 12-31% of the overall performance, i.e., while part of the FlakyDoctor power is from using LLMs, they are not good enough to repair flaky tests in real-world projects alone. What makes the proposed technique superior to related research on test flakiness mitigation specifically and program repair, in general, is repairing 79 previously unfixed flaky tests in real-world projects. We opened pull requests for all cases with corresponding patches; 19 of them were accepted and merged at the time of submission.
Abstract（参考訳）: テストのフレキネス(Test flakiness)は、コードの変更とは無関係に、ビルドの非決定的な振る舞いである。テストフレキネスを自動修復する技術はほとんどなく、オーダー依存(OD)か実装依存(ID)フレキネスのどちらかを修復するために特別に設計されている。また、プログラム解析を利用して既知のテストフレキネスパターンや根本原因を検出し、修復し、一般化に失敗する、という象徴的なアプローチである。このギャップを埋めるために、LLMのパワーとプログラム解析音のパワーを組み合わせて異なる種類のテストフレキネスを固定する、神経象徴的手法であるFrakyDoctorを提案する。実世界の243のプロジェクトから確認されたフレキ試験 (332 OD, 541 ID) を用いて, フレキドクターがフレキネスを修復する能力を示し, 57% (OD) および59% (ID) の成功率を得た。 3つの代替フレキネス修復アプローチと比較して、FrakyDoctorはDexFixよりも8%多いIDテスト、ODRepairより12%多いODフレキテスト、iFixFlakiesより17%多いODフレキテストが可能である。基盤となる LLM にかかわらず、FrakyDoctor の非LLM コンポーネントは全体の 12-31% に寄与している。提案手法は, テストフレキネスの緩和に関する関連する研究よりも優れているが, 一般には, 79個の未固定フレキ試験を実際のプロジェクトで修復している。対応するパッチですべてのケースに対してプルリクエストをオープンしました。

関連論文リスト

Specification-Guided Repair of Arithmetic Errors in Dafny Programs using LLMs [84.30534714651093]
本稿では,検証を意識したプログラミング言語であるDafnyに対して,革新的なAPRツールを提案する。プログラム内の各ステートメントの状態を決定するために、Hoare Logicの使用を含む一連のステップを通じて、障害をローカライズします。実世界のDafnyプログラムのベンチマークであるDafnyBenchを用いて,我々のアプローチを評価する。
論文参考訳（メタデータ） (2025-07-04T15:36:12Z)
DyePack: Provably Flagging Test Set Contamination in LLMs Using Backdoors [52.52021579531363]
トレーニング中にベンチマークテストセットを使用したモデルを識別するためにバックドアアタックを利用するフレームワークであるDiePackを紹介します。銀行が染料パックにお金を混ぜて強盗をマークするのと同じように、DiePackはバックドアのサンプルとテストデータとを混ぜて、その上で訓練されたモデルのフラグを立てる。我々はDiePackを3つのデータセットにわたる5つのモデルで評価し、複数の選択とオープンな生成タスクの両方をカバーした。
論文参考訳（メタデータ） (2025-05-29T02:22:14Z)
Systemic Flakiness: An Empirical Analysis of Co-Occurring Flaky Test Failures [6.824747267214373]
不安定なテストは、コードの変更なしに一貫性のない結果をもたらす。開発者は、毎月2250ドル(約2万5000円)の費用で、不気味なテストの修理に1.28%を費やしている。フラキーテストは、しばしばクラスタ内に存在し、同じ根本原因を共有する共起失敗は、系統的なフレキネス(systemic flakiness)と呼ばれる。
論文参考訳（メタデータ） (2025-04-23T14:51:23Z)
UTFix: Change Aware Unit Test Repairing using LLM [24.12850207529614]
UTFixは, 焦点法が変化した場合に, 単体検査を修復するための新しい手法である。このアプローチでは,静的コードスライスや動的コードスライス,障害メッセージなどのコンテキスト情報を提供することで,言語モデルを利用してユニットテストを修復する。私たちの知る限りでは、これはPythonプロジェクトの進化におけるユニットテストに焦点を当てた初めての総合的な研究です。
論文参考訳（メタデータ） (2025-03-19T06:10:03Z)
Automating Quantum Software Maintenance: Flakiness Detection and Root Cause Analysis [4.554856650068748]
コードの変更なしに不整合に合格または失敗する、不安定なテストは、ソフトウェア工学における大きな課題である。量子ソフトウェアにおける不安定なテストを自動的に検出するフレームワークの構築を目指しています。
論文参考訳（メタデータ） (2024-10-31T02:43:04Z)
Leveraging Stack Traces for Spectrum-based Fault Localization in the Absence of Failing Tests [44.13331329339185]
我々は,スタックトレースデータをテストカバレッジと統合し,障害局所化を強化する新しいアプローチであるSBESTを導入する。提案手法では,平均精度(MAP)が32.22%向上し,平均相互ランク(MRR)が17.43%向上した。
論文参考訳（メタデータ） (2024-05-01T15:15:52Z)
Lazy Layers to Make Fine-Tuned Diffusion Models More Traceable [70.77600345240867]
新たな任意の任意配置(AIAO)戦略は、微調整による除去に耐性を持たせる。拡散モデルの入力/出力空間のバックドアを設計する既存の手法とは異なり,本手法では,サンプルサブパスの特徴空間にバックドアを埋め込む方法を提案する。 MS-COCO,AFHQ,LSUN,CUB-200,DreamBoothの各データセットに関する実証研究により,AIAOの堅牢性が確認された。
論文参考訳（メタデータ） (2024-05-01T12:03:39Z)
FlaKat: A Machine Learning-Based Categorization Framework for Flaky Tests [3.0846824529023382]
不安定なテストは、ソフトウェアシステムに変更を加えることなく、非決定的に通過または失敗する可能性がある。 State-of-the-art Researchは、機械学習ソリューションを不安定なテスト検出に取り入れ、合理的に優れた精度を達成する。
論文参考訳（メタデータ） (2024-03-01T22:00:44Z)
230,439 Test Failures Later: An Empirical Evaluation of Flaky Failure Classifiers [9.45325012281881]
不安定なテストは、コードの変更がなくても、決定論的にパスまたはフェールできるテストである。欠陥が原因でテストが失敗したのか、それともバグを検知したのか、どうやって簡単に判断できるのか?
論文参考訳（メタデータ） (2024-01-28T22:36:30Z)
FlakyFix: Using Large Language Models for Predicting Flaky Test Fix Categories and Test Code Repair [0.5749787074942512]
不安定なテストは、テスト中の同じソフトウェアバージョンを非決定的にパスまたは失敗するため、問題となる。本稿では、フレキネスを除去し、それに基づいてテストコードを修正するために必要な修正の種類を予測することに焦点を当てる。 1つの鍵となるアイデアは、予想される修正カテゴリの形で、テストのフレキネスに関するさらなる知識で、修復プロセスを導くことである。
論文参考訳（メタデータ） (2023-06-21T19:34:16Z)
Debugging Flaky Tests using Spectrum-based Fault Localization [14.609208863749831]
不安定なテストは、信頼と無駄な計算と人的資源を破壊するため、回帰テストを妨げます。本稿では、従来のカバレッジベースのSFLの拡張であるSFFL(Spectrum-based Flaky Fault Localization)を紹介する。 48のオープンソースPythonプロジェクトから得られた101の不安定なテストの評価は、SFFLが有効であることを示している。
論文参考訳（メタデータ） (2023-05-08T14:40:05Z)
Fast and Accurate Error Simulation for CNNs against Soft Errors [64.54260986994163]
本稿では,誤りシミュレーションエンジンを用いて,コナールニューラルネットワーク(CNN)の信頼性解析のためのフレームワークを提案する。これらの誤差モデルは、故障によって誘導されるCNN演算子の出力の破損パターンに基づいて定義される。提案手法は,SASSIFIの欠陥効果の約99%の精度と,限定的なエラーモデルのみを実装した44倍から63倍までのスピードアップを実現する。
論文参考訳（メタデータ） (2022-06-04T19:45:02Z)
NADS: Neural Architecture Distribution Search for Uncertainty Awareness [79.18710225716791]
機械学習(ML)システムは、トレーニングデータとは異なるディストリビューションから来るテストデータを扱う場合、しばしばOoD(Out-of-Distribution)エラーに遭遇する。既存のOoD検出アプローチはエラーを起こしやすく、時にはOoDサンプルに高い確率を割り当てることもある。本稿では,すべての不確実性を考慮したアーキテクチャの共通構築ブロックを特定するために,ニューラルアーキテクチャ分布探索(NADS)を提案する。
論文参考訳（メタデータ） (2020-06-11T17:39:07Z)
TACRED Revisited: A Thorough Evaluation of the TACRED Relation Extraction Task [80.38130122127882]
TACREDはリレーショナル抽出(RE)において最も大きく、最も広く使われているクラウドソースデータセットの1つであるパフォーマンスの天井に到達したのか、改善の余地はあるのか? ラベルエラーは絶対F1テストエラーの8%を占めており、例の50%以上を可逆化する必要がある。
論文参考訳（メタデータ） (2020-04-30T15:07:37Z)
Noisy Adaptive Group Testing using Bayesian Sequential Experimental Design [63.48989885374238]
病気の感染頻度が低い場合、Dorfman氏は80年前に、人のテストグループは個人でテストするよりも効率が良いことを示した。本研究の目的は,ノイズの多い環境で動作可能な新しいグループテストアルゴリズムを提案することである。
論文参考訳（メタデータ） (2020-04-26T23:41:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。