論文の概要: Automated Unit Test Improvement using Large Language Models at Meta
- arxiv url: http://arxiv.org/abs/2402.09171v1
- Date: Wed, 14 Feb 2024 13:43:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-15 15:18:48.126665
- Title: Automated Unit Test Improvement using Large Language Models at Meta
- Title(参考訳): metaにおける大規模言語モデルを用いたユニットテストの自動改善
- Authors: Nadia Alshahwan, Jubin Chheda, Anastasia Finegenova, Beliz Gokkaya,
Mark Harman, Inna Harper, Alexandru Marginean, Shubho Sengupta, Eddy Wang
- Abstract要約: 本稿では,LLMを用いたMetaのTestGen-LLMツールについて述べる。
InstagramとFacebookプラットフォームのMetaテストアソンにおけるTestGen-LLMのデプロイについて説明する。
- 参考スコア(独自算出の注目度): 44.87533111512982
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper describes Meta's TestGen-LLM tool, which uses LLMs to
automatically improve existing human-written tests. TestGen-LLM verifies that
its generated test classes successfully clear a set of filters that assure
measurable improvement over the original test suite, thereby eliminating
problems due to LLM hallucination. We describe the deployment of TestGen-LLM at
Meta test-a-thons for the Instagram and Facebook platforms. In an evaluation on
Reels and Stories products for Instagram, 75% of TestGen-LLM's test cases built
correctly, 57% passed reliably, and 25% increased coverage. During Meta's
Instagram and Facebook test-a-thons, it improved 11.5% of all classes to which
it was applied, with 73% of its recommendations being accepted for production
deployment by Meta software engineers. We believe this is the first report on
industrial scale deployment of LLM-generated code backed by such assurances of
code improvement.
- Abstract(参考訳): 本稿では,LLMを用いたMetaのTestGen-LLMツールについて述べる。
TestGen-LLMは、生成されたテストクラスが元のテストスイートよりも測定可能な改善を保証する一連のフィルタをクリアし、LCM幻覚による問題を排除したことを検証している。
InstagramとFacebookプラットフォームのMetaテストアソンにおけるTestGen-LLMのデプロイについて説明する。
InstagramのReelsとStories製品の評価では、TestGen-LLMのテストケースの75%が正しく構築され、57%が確実にパスし、25%がカバレッジが増加した。
metaのinstagramとfacebookのtest-a-thonsでは、適用されたすべてのクラスの11.5%が改善され、その73%がメタソフトウェアエンジニアによる製品展開に受け入れられた。
LLM生成コードの産業規模展開に関する最初の報告であり、コード改善の保証に支えられている。
関連論文リスト
- GPT-HateCheck: Can LLMs Write Better Functional Tests for Hate Speech
Detection? [55.20381279291041]
HateCheckは、合成データに対してきめ細かいモデル機能をテストするスイートである。
GPT-HateCheckは,スクラッチからより多彩で現実的な機能テストを生成するフレームワークである。
クラウドソースのアノテーションは、生成されたテストケースが高品質であることを示しています。
論文 参考訳(メタデータ) (2024-02-23T10:02:01Z) - Observation-based unit test generation at Meta [52.4716552057909]
TestGenは、アプリケーション実行中に観察された複雑なオブジェクトのシリアライズされた観察から作られたユニットテストを自動的に生成する。
TestGenは518のテストを本番環境に投入し、継続的統合で9,617,349回実行され、5,702の障害が見つかった。
評価の結果,信頼性の高い4,361のエンドツーエンドテストから,少なくとも86%のクラスでテストを生成することができた。
論文 参考訳(メタデータ) (2024-02-09T00:34:39Z) - Assured LLM-Based Software Engineering [51.003878077888686]
この記事では,2024年4月15日にポルトガルのリスボンで開催された International Workshop on Interpretability, Robustness, and Benchmarking in Neural Software Engineering で,Mark Harman 氏による基調講演の内容の概要を紹介する。
論文 参考訳(メタデータ) (2024-02-06T20:38:46Z) - Code-Aware Prompting: A study of Coverage Guided Test Generation in
Regression Setting using LLM [34.07127332725332]
テスト生成における大規模言語モデルのコード認識促進戦略であるSymPromptを提案する。
我々のアプローチは、事前訓練されたLLMが、追加の訓練をすることなく、より完全なテストケースを生成することを可能にする。
論文 参考訳(メタデータ) (2024-01-31T18:21:49Z) - ML-Bench: Large Language Models Leverage Open-source Libraries for
Machine Learning Tasks [75.12666425091702]
大規模な言語モデルは、コード生成ベンチマークで有望なパフォーマンスを示している。
この研究は、LLMがオープンソースのライブラリを使用して機械学習タスクを終了する、新たな評価設定を提案することを目的としている。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z) - Reinforcement Learning from Automatic Feedback for High-Quality Unit
Test Generation [13.658632458850144]
大規模言語モデル(LLM)は、テストケースの自動生成を含むコード生成で人気を集めている。
LLMは、多くの場合、大量の公開コードでトレーニングされ、ベストプラクティスに従わないテストケースを含む。
RLSQM(Reinforcement Learning from Static Quality Metrics)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-10-03T18:48:31Z) - Effective Test Generation Using Pre-trained Large Language Models and
Mutation Testing [13.743062498008555]
大規模言語モデル(LLM)が生成するテストケースの有効性を,バグの発見の観点から改善するための MuTAP を導入する。
MuTAPは、プログラム・アンダー・テスト(PUT)の自然言語記述がない場合に有効なテストケースを生成することができる
提案手法は, 最大28%の人書きコードスニペットを検出できることを示す。
論文 参考訳(メタデータ) (2023-08-31T08:48:31Z) - An Empirical Evaluation of Using Large Language Models for Automated
Unit Test Generation [3.9762912548964864]
本稿では,自動単体テスト生成における大規模言語モデルの有効性について,大規模な実証評価を行った。
これはJavaScript用のテスト生成ツールで、npmパッケージ内のすべてのAPI関数のユニットテストを自動的に生成します。
TestPilotの生成されたテストの92.8%は、既存のテストと50%以上の類似性を持っていない。
論文 参考訳(メタデータ) (2023-02-13T17:13:41Z) - CodeT: Code Generation with Generated Tests [49.622590050797236]
テストケースを自動的に生成するための事前学習言語モデルについて検討する。
CodeTは生成されたテストケースを使ってコードソリューションを実行し、次に最良のソリューションを選択します。
我々は,HumanEvalとMBPPのベンチマークを用いて,5種類の事前学習モデル上でCodeTを評価する。
論文 参考訳(メタデータ) (2022-07-21T10:18:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。