論文の概要: FlakyGuard: Automatically Fixing Flaky Tests at Industry Scale
- arxiv url: http://arxiv.org/abs/2511.14002v1
- Date: Tue, 18 Nov 2025 00:10:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 16:23:52.8483
- Title: FlakyGuard: Automatically Fixing Flaky Tests at Industry Scale
- Title(参考訳): FlakyGuard: 業界規模でFrakyテストを自動的に修正する
- Authors: Chengpeng Li, Farnaz Behrang, August Shi, Peng Liu,
- Abstract要約: FlakyGuardは、コードをグラフ構造として扱い、選択的なグラフ探索を使用して、最も関連するコンテキストのみを見つける。
修復成功率の少なくとも22%は、最先端のアプローチよりも優れています。
- 参考スコア(独自算出の注目度): 8.284242545707228
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Flaky tests that non-deterministically pass or fail waste developer time and slow release cycles. While large language models (LLMs) show promise for automatically repairing flaky tests, existing approaches like FlakyDoctor fail in industrial settings due to the context problem: providing either too little context (missing critical production code) or too much context (overwhelming the LLM with irrelevant information). We present FlakyGuard, which addresses this problem by treating code as a graph structure and using selective graph exploration to find only the most relevant context. Evaluation on real-world flaky tests from industrial repositories shows that FlakyGuard repairs 47.6 % of reproducible flaky tests with 51.8 % of the fixes accepted by developers. Besides it outperforms state-of-the-art approaches by at least 22 % in repair success rate. Developer surveys confirm that 100 % find FlakyGuard's root cause explanations useful.
- Abstract(参考訳): 非決定的に無駄な開発者時間と遅いリリースサイクルをパスまたは失敗する不安定なテスト。
大きな言語モデル(LLM)は、フレキなテストを自動的に修復することを約束する一方で、FrakyDoctorのような既存のアプローチは、コンテキストの問題によって工業的に失敗する。
本稿では、FrakyGuardを提案する。これは、コードをグラフ構造として扱い、選択的なグラフ探索を用いて、最も関係のあるコンテキストのみを見つけることで、この問題に対処する。
産業用レポジトリによる現実のフレキテストの評価によると、FrakyGuardは再現可能なフレキテストの47.6%を、開発者が受け入れた修正の51.8%で修復している。
さらに、修復の成功率の少なくとも22%は、最先端のアプローチよりも優れています。
開発者の調査では、100%がFrakyGuardの根本原因の説明が有用だと確認されている。
関連論文リスト
- Nexus: Execution-Grounded Multi-Agent Test Oracle Synthesis [57.40527331817245]
非回帰テストにおけるテストオラクル生成は、ソフトウェア工学における長年の課題である。
この課題に対処するための新しいマルチエージェントフレームワークであるNexusを紹介します。
論文 参考訳(メタデータ) (2025-10-30T12:20:25Z) - Agentic Property-Based Testing: Finding Bugs Across the Python Ecosystem [34.68658860352019]
プロパティベースのテスト(PBT)は、ランダム化テストフレームワークとして実装される軽量な形式的手法である。
本研究では,Pythonモジュールを解析し,コードやドキュメントから関数固有およびクロスファンクショナルプロパティを推論し,PBTを合成・実行するLLMベースのエージェントを実演する。
論文 参考訳(メタデータ) (2025-10-10T22:43:54Z) - Where LLM Agents Fail and How They can Learn From Failures [62.196870049524364]
大規模言語モデル(LLM)エージェントは、複雑なマルチステップタスクの解決において有望であることを示す。
単一ルート原因エラーがその後の決定を通じて伝播する、障害のカスケードに対する脆弱性を増幅する。
現在のシステムは、モジュール的で体系的な方法でエージェントエラーを包括的に理解できるフレームワークを欠いている。
AgentErrorTaxonomyは、メモリ、リフレクション、計画、アクション、システムレベルの操作にまたがる障害モードのモジュール分類である。
論文 参考訳(メタデータ) (2025-09-29T18:20:27Z) - SemGuard: Real-Time Semantic Evaluator for Correcting LLM-Generated Code [46.20378145112059]
ポストホック修復パイプラインは、実行後にのみそのような障害を検出する。
本稿では,実時間で行レベルのセマンティック監視を行うセマンティック評価フレームワークSemGuardを紹介する。
論文 参考訳(メタデータ) (2025-09-29T09:21:32Z) - Agentic Program Repair from Test Failures at Scale: A Neuro-symbolic approach with static analysis and test execution feedback [11.070932612938154]
我々は、さまざまなソフトウェア製品にまたがる大規模なテスト失敗に基づいて、ソースコードを修正するエンジニアリングエージェントを開発した。
静的解析とテストの失敗を通じてエージェントにフィードバックを提供し、ソリューションを洗練できるようにします。
3ヶ月の間に、生成された修正の80%がレビューされ、そのうち31.5%が着陸した。
論文 参考訳(メタデータ) (2025-07-24T19:12:32Z) - Dockerfile Flakiness: Characterization and Repair [6.518508607788089]
Dockerfileのフレキネスに関する最初の包括的な研究で、Docker化された8,132のプロジェクトの9ヶ月にわたる分析を特徴としている。
本稿では,依存性エラーやサーバ接続の問題など,一般的なフラキネスの原因を分類する分類法を提案する。
静的および動的解析,類似性検索,および大規模言語モデルを用いた反復的フィードバックループを組み合わせた新しい修復フレームワークであるFLAKIDOCKを紹介する。
論文 参考訳(メタデータ) (2024-08-09T23:17:56Z) - A Generic Approach to Fix Test Flakiness in Real-World Projects [7.122378689356857]
FlakyDoctorは、LLMのパワーとプログラム分析音を組み合わせて、さまざまな種類のテストフレキネスを修復する、ニューロシンボリックなテクニックである。
3つの代替フレキネス修復アプローチと比較して、FrakyDoctorはDexFixよりも8%多いIDテスト、ODより12%多いODフレキテスト、iFixFlakiesより17%多いODフレキテストが可能である。
論文 参考訳(メタデータ) (2024-04-15T01:07:57Z) - Taming Timeout Flakiness: An Empirical Study of SAP HANA [47.29324864511411]
不安定なテストは回帰テストに悪影響を及ぼします。
テストタイムアウトは、このような不安定なテストの失敗に寄与する要因のひとつです。
テストのフレキネス率は、繰り返しテストの実行回数によって49%から70%の範囲である。
論文 参考訳(メタデータ) (2024-02-07T20:01:41Z) - FlakyFix: Using Large Language Models for Predicting Flaky Test Fix Categories and Test Code Repair [0.5749787074942512]
不安定なテストは、テスト中の同じソフトウェアバージョンを非決定的にパスまたは失敗するため、問題となる。
本稿では、フレキネスを除去し、それに基づいてテストコードを修正するために必要な修正の種類を予測することに焦点を当てる。
1つの鍵となるアイデアは、予想される修正カテゴリの形で、テストのフレキネスに関するさらなる知識で、修復プロセスを導くことである。
論文 参考訳(メタデータ) (2023-06-21T19:34:16Z) - Break-It-Fix-It: Unsupervised Learning for Program Repair [90.55497679266442]
我々は2つの重要なアイデアを持つ新しいトレーニング手法であるBreak-It-Fix-It (BIFI)を提案する。
批判者は、実際の悪い入力でフィクスダーの出力をチェックし、トレーニングデータに良い(固定された)出力を追加する。
これらのアイデアに基づいて、よりペア化されたデータを生成するために、ブレーカとフィクスチャを同時に使用しながら、繰り返し更新する。
BIFIは既存のメソッドより優れており、GitHub-Pythonで90.5%、DeepFixで71.7%の修正精度がある。
論文 参考訳(メタデータ) (2021-06-11T20:31:04Z) - TACRED Revisited: A Thorough Evaluation of the TACRED Relation
Extraction Task [80.38130122127882]
TACREDはリレーショナル抽出(RE)において最も大きく、最も広く使われているクラウドソースデータセットの1つである
パフォーマンスの天井に到達したのか、改善の余地はあるのか?
ラベルエラーは絶対F1テストエラーの8%を占めており、例の50%以上を可逆化する必要がある。
論文 参考訳(メタデータ) (2020-04-30T15:07:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。