論文の概要: Mutation-Guided LLM-based Test Generation at Meta
- arxiv url: http://arxiv.org/abs/2501.12862v1
- Date: Wed, 22 Jan 2025 13:14:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-23 16:54:00.495063
- Title: Mutation-Guided LLM-based Test Generation at Meta
- Title(参考訳): メタにおける変異誘導LDMによる試験生成
- Authors: Christopher Foster, Abhishek Gulati, Mark Harman, Inna Harper, Ke Mao, Jillian Ritchey, Hervé Robert, Shubho Sengupta,
- Abstract要約: ACHは、従来の突然変異検査と比較して、比較的少数の変異体を生成する。
懸念事項に特有の、現在検出されていない障害を生成することに焦点を当てている。
ACHは特定の問題に対してコードを固くし、テストが特定の問題に直接対処しない場合でも、エンジニアは他の利点に役立つと判断する、と結論付けています。
- 参考スコア(独自算出の注目度): 9.733669595913517
- License:
- Abstract: This paper describes Meta's ACH system for mutation-guided LLM-based test generation. ACH generates relatively few mutants (aka simulated faults), compared to traditional mutation testing. Instead, it focuses on generating currently undetected faults that are specific to an issue of concern. From these currently uncaught faults, ACH generates tests that can catch them, thereby `killing' the mutants and consequently hardening the platform against regressions. We use privacy concerns to illustrate our approach, but ACH can harden code against {\em any} type of regression. In total, ACH was applied to 10,795 Android Kotlin classes in 7 software platforms deployed by Meta, from which it generated 9,095 mutants and 571 privacy-hardening test cases. ACH also deploys an LLM-based equivalent mutant detection agent that achieves a precision of 0.79 and a recall of 0.47 (rising to 0.95 and 0.96 with simple pre-processing). ACH was used by Messenger and WhatsApp test-a-thons where engineers accepted 73% of its tests, judging 36% to privacy relevant. We conclude that ACH hardens code against specific concerns and that, even when its tests do not directly tackle the specific concern, engineers find them useful for their other benefits.
- Abstract(参考訳): 本稿では,変異誘導型LSMテスト生成のためのMetaのACHシステムについて述べる。
ACHは、従来の突然変異検査と比較して比較的少数の突然変異体(別名シミュレート・フォールト)を生成する。
代わりに、懸念する問題に特有の、現在検出されていない障害を生成することに重点を置いている。
現在未解決のこれらの欠陥から、ACHはそれらをキャッチできるテストを生成し、それによってミュータントを'キル'し、結果としてプラットフォームをレグレッションに対して強化する。
プライバシの懸念を使ってアプローチを説明していますが、ACHは回帰型に対してコードを厳格化できます。
合計で、ACHはMetaがデプロイした7つのソフトウェアプラットフォームで10,795のAndroid Kotlinクラスに適用される。
ACHはまた、LSMベースの等価変異検出剤をデプロイし、精度は0.79でリコールは0.47である(単純な前処理で0.95と0.96となる)。
ACHはMessengerとWhatsAppのテストアソンで使われ、エンジニアはテストの73%を受け入れた。
ACHは特定の関心事に対してコードを固くし、テストが特定の関心事に直接対処しない場合でも、エンジニアは他の利益に役立ちます。
関連論文リスト
- CorrectBench: Automatic Testbench Generation with Functional Self-Correction using LLMs for HDL Design [6.414167153186868]
機能的自己検証と自己補正を備えた自動テストベンチ生成フレームワークであるCorrectBenchを提案する。
提案手法は, 88.85%の成功率で生成したテストベンチの正当性を検証できる。
作業性能は, 従来よりも62.18%高く, 直接手法のパス比の約5倍である。
論文 参考訳(メタデータ) (2024-11-13T10:45:19Z) - LLM Robustness Against Misinformation in Biomedical Question Answering [50.98256373698759]
探索拡張生成(RAG)アプローチは,質問応答のための大規模言語モデル(LLM)の折り畳みを低減するために用いられる。
バイオメディカル質問に対する誤報に対する4つのLDMの有効性とロバスト性を評価した。
論文 参考訳(メタデータ) (2024-10-27T16:23:26Z) - An Exploratory Study on Using Large Language Models for Mutation Testing [32.91472707292504]
LLM(Large Language Models)は、コードに関連するタスクにおいて大きな可能性を示しているが、突然変異テストにおけるそれらの有用性は未解明のままである。
本稿では, LLMのユーザビリティ, 障害検出可能性, および実際のバグとの関係について, 効果的な突然変異生成における性能について検討する。
既存のアプローチと比較して、LSMは実際のバグに近い振る舞いをする、より多様な突然変異を生成する。
論文 参考訳(メタデータ) (2024-06-14T08:49:41Z) - OR-Bench: An Over-Refusal Benchmark for Large Language Models [65.34666117785179]
大きな言語モデル(LLM)は、悪意のある出力を防ぐために慎重に安全アライメントを必要とする。
本研究では,大規模に有害なプロンプトを自動生成する新しい手法を提案する。
次に,8つのモデルファミリーにまたがる25のLLMの過剰拒絶量を測定するための総合的研究を行った。
論文 参考訳(メタデータ) (2024-05-31T15:44:33Z) - Lazy Layers to Make Fine-Tuned Diffusion Models More Traceable [70.77600345240867]
新たな任意の任意配置(AIAO)戦略は、微調整による除去に耐性を持たせる。
拡散モデルの入力/出力空間のバックドアを設計する既存の手法とは異なり,本手法では,サンプルサブパスの特徴空間にバックドアを埋め込む方法を提案する。
MS-COCO,AFHQ,LSUN,CUB-200,DreamBoothの各データセットに関する実証研究により,AIAOの堅牢性が確認された。
論文 参考訳(メタデータ) (2024-05-01T12:03:39Z) - Automated Unit Test Improvement using Large Language Models at Meta [44.87533111512982]
本稿では,LLMを用いたMetaのTestGen-LLMツールについて述べる。
InstagramとFacebookプラットフォームのMetaテストアソンにおけるTestGen-LLMのデプロイについて説明する。
論文 参考訳(メタデータ) (2024-02-14T13:43:14Z) - Zero-Shot Detection of Machine-Generated Codes [83.0342513054389]
本研究は,LLMの生成したコードを検出するためのトレーニング不要な手法を提案する。
既存のトレーニングベースまたはゼロショットテキスト検出装置は、コード検出に効果がないことがわかった。
本手法は,リビジョン攻撃に対する堅牢性を示し,Javaコードによく適応する。
論文 参考訳(メタデータ) (2023-10-08T10:08:21Z) - Effective Test Generation Using Pre-trained Large Language Models and
Mutation Testing [13.743062498008555]
大規模言語モデル(LLM)が生成するテストケースの有効性を,バグの発見の観点から改善するための MuTAP を導入する。
MuTAPは、プログラム・アンダー・テスト(PUT)の自然言語記述がない場合に有効なテストケースを生成することができる
提案手法は, 最大28%の人書きコードスニペットを検出できることを示す。
論文 参考訳(メタデータ) (2023-08-31T08:48:31Z) - MuRS: Mutant Ranking and Suppression using Identifier Templates [4.9205581820379765]
Googleの突然変異テストサービスは、差分ベースの突然変異テストをコードレビュープロセスに統合する。
Googleの突然変異テストサービスは、役に立たないミュータントをターゲットにした、いくつかの抑制ルールを実装している。
テスト中のソースコードのパターンによってミュータントをグループ化する自動手法である MuRS を提案し,評価する。
論文 参考訳(メタデータ) (2023-06-15T13:43:52Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。