論文の概要: Just-in-Time Catching Test Generation at Meta
- arxiv url: http://arxiv.org/abs/2601.22832v1
- Date: Fri, 30 Jan 2026 10:58:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.398335
- Title: Just-in-Time Catching Test Generation at Meta
- Title(参考訳): メタにおけるジャスト・イン・タイム・キャッチテスト生成
- Authors: Matthew Becker, Yifei Chen, Nicholas Cochran, Pouyan Ghasemi, Abhishek Gulati, Mark Harman, Zachary Haluza, Mehrdad Honarkhah, Herve Robert, Jiacheng Liu, Weini Liu, Sreeja Thummala, Xiaoning Yang, Rui Xin, Sophie Zeng,
- Abstract要約: ジャスト・イン・タイムのキャッチテストは、コードが到着する前にバグを指摘して失敗することを目的としている。
符号変化認識手法は, ハードニング試験で4倍, 偶然に失敗した試験で20倍の予測値が得られることを示す。
8例は真陽性と確認され、そのうち4例は未発見のままでは深刻な失敗に繋がった。
- 参考スコア(独自算出の注目度): 10.710139850909073
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We report on Just-in-Time catching test generation at Meta, designed to prevent bugs in large scale backend systems of hundreds of millions of line of code. Unlike traditional hardening tests, which pass at generation time, catching tests are meant to fail, surfacing bugs before code lands. The primary challenge is to reduce development drag from false positive test failures. Analyzing 22,126 generated tests, we show code-change-aware methods improve candidate catch generation 4x over hardening tests and 20x over coincidentally failing tests. To address false positives, we use rule-based and LLM-based assessors. These assessors reduce human review load by 70%. Inferential statistical analysis showed that human-accepted code changes are assessed to have significantly more false positives, while human-rejected changes have significantly more true positives. We reported 41 candidate catches to engineers; 8 were confirmed to be true positives, 4 of which would have led to serious failures had they remained uncaught. Overall, our results show that Just-in-Time catching is scalable, industrially applicable, and that it prevents serious failures from reaching production.
- Abstract(参考訳): 数億行のコードからなる大規模バックエンドシステムのバグを防止するために設計された,MetaにおけるJust-in-Timeキャッチテスト生成について報告する。
生成時にパスする従来のハードニングテストとは異なり、テストのキャッチは失敗を意図しており、コードが到着する前にバグを発生させる。
一番の課題は、偽陽性のテスト失敗による開発障害を減らすことです。
22,126件の検定結果から, コードチェンジ対応法では, 硬化試験より4倍, 偶然に故障した検定より20倍の改善が見られた。
偽陽性に対処するために、ルールベースおよびLCMベースの評価器を用いる。
これらの評価器は人間のレビュー負荷を70%削減する。
推論統計分析により、人間の受容したコードの変更は、はるかに偽陽性であるのに対して、ヒトの拒絶されたコードの変更は、著しく真陽性であることが示された。
8例は真陽性と確認され、そのうち4例は未発見のままでは深刻な失敗に繋がった。
全体としては、Just-in-Timeのキャッチはスケーラブルで、産業的にも適用可能であり、重大な失敗が本番環境に到達するのを防いでいる。
関連論文リスト
- Reflective Unit Test Generation for Precise Type Error Detection with Large Language Models [13.969152395348653]
RTEDはPythonの型エラーを自動的に検出する型認識テスト生成技術である。
RTEDは4つの最先端技術よりも22-29のベンチマーク型エラーを検出できることを示す。
また、偽陽性を減らし、173.9%-245.9%の精度で改善できる。
論文 参考訳(メタデータ) (2025-07-03T05:10:33Z) - Harden and Catch for Just-in-Time Assured LLM-Based Software Testing: Open Research Challenges [12.931831095319456]
ソフトウェアテスト生成のための大規模言語モデルという文脈において、テストの硬化と捕捉がエキサイティングな新しい課題を引き起こすことを示す。
ハードニングテストは将来のリグレッションから保護しようとするが、キャッチテストはコード変更によって導入された新機能のそのようなリグレッションや欠陥をキャッチするものだ。
私たちは、レガシーコードの遅延障害をキャッチするために、Jetching JiTTest生成のあらゆるソリューションを再利用できることを示します。
論文 参考訳(メタデータ) (2025-04-23T07:32:43Z) - Studying the Impact of Early Test Termination Due to Assertion Failure on Code Coverage and Spectrum-based Fault Localization [48.22524837906857]
本研究は,アサーション障害による早期検査終了に関する最初の実証的研究である。
6つのオープンソースプロジェクトの207バージョンを調査した。
以上の結果から,早期検査終了は,コードカバレッジとスペクトルに基づく障害局所化の有効性の両方を損なうことが示唆された。
論文 参考訳(メタデータ) (2025-04-06T17:14:09Z) - Examining False Positives under Inference Scaling for Mathematical Reasoning [83.97128486951999]
言語モデルにおける数学的問題解決における偽陽性解の有効性を体系的に検討する。
実験結果から,(1)異なるモデル,データセット,復号化手法,(2)サンプリングベース推論時間スケーリング手法では問題を緩和できないこと,(3)pass@N評価基準の方が偽陽性の影響を受けやすいこと,などが明らかになった。
論文 参考訳(メタデータ) (2025-02-10T07:49:35Z) - Do Large Language Model Benchmarks Test Reliability? [66.1783478365998]
モデル信頼性の定量化について検討する。
信頼性評価におけるこのギャップにより、我々はいわゆるプラチナベンチマークの概念を提案する。
我々は、これらのプラチナベンチマークにおいて、幅広いモデルを評価し、実際、フロンティアLSMは、単純なタスクで失敗を示す。
論文 参考訳(メタデータ) (2025-02-05T18:58:19Z) - Measuring the Influence of Incorrect Code on Test Generation [22.168699378889148]
間違ったコードエクスペリエンスのために生成されたテストは、バグ検出率を47%上回っている。
+18%の精度、+4%のカバレッジ、+34%のバグ検出の改善は、自然言語によるコード記述を提供することで達成できる。
論文 参考訳(メタデータ) (2024-09-14T15:17:34Z) - Leveraging Large Language Models for Efficient Failure Analysis in Game Development [47.618236610219554]
本稿では,テストの失敗の原因となるコードの変更を自動的に識別する手法を提案する。
このメソッドは、LLM(Large Language Models)を利用して、エラーメッセージと対応するコード変更を関連付ける。
当社のアプローチは新たに作成したデータセットで71%の精度に達しています。
論文 参考訳(メタデータ) (2024-06-11T09:21:50Z) - Observation-based unit test generation at Meta [52.4716552057909]
TestGenは、アプリケーション実行中に観察された複雑なオブジェクトのシリアライズされた観察から作られたユニットテストを自動的に生成する。
TestGenは518のテストを本番環境に投入し、継続的統合で9,617,349回実行され、5,702の障害が見つかった。
評価の結果,信頼性の高い4,361のエンドツーエンドテストから,少なくとも86%のクラスでテストを生成することができた。
論文 参考訳(メタデータ) (2024-02-09T00:34:39Z) - Taming Timeout Flakiness: An Empirical Study of SAP HANA [47.29324864511411]
不安定なテストは回帰テストに悪影響を及ぼします。
テストタイムアウトは、このような不安定なテストの失敗に寄与する要因のひとつです。
テストのフレキネス率は、繰り返しテストの実行回数によって49%から70%の範囲である。
論文 参考訳(メタデータ) (2024-02-07T20:01:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。