論文の概要: Ever-Improving Test Suite by Leveraging Large Language Models
- arxiv url: http://arxiv.org/abs/2506.11000v1
- Date: Tue, 15 Apr 2025 13:38:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-22 23:32:14.453556
- Title: Ever-Improving Test Suite by Leveraging Large Language Models
- Title(参考訳): 大規模言語モデルの活用による絶え間なく改善されたテストスイート
- Authors: Ketai Qiu,
- Abstract要約: ソフトウェアシステムの実際の使用を反映したテストケースによるテストスイートの拡大は、長く続くソフトウェアシステムの品質を維持する上で非常に重要である。
E-Testは、本番環境で発生しまだテストされていない動作を実行するテストケースでテストスイートを漸進的に拡張するアプローチである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Augmenting test suites with test cases that reflect the actual usage of the software system is extremely important to sustain the quality of long lasting software systems. In this paper, we propose E-Test, an approach that incrementally augments a test suite with test cases that exercise behaviors that emerge in production and that are not been tested yet. E-Test leverages Large Language Models to identify already-tested, not-yet-tested, and error-prone unit execution scenarios, and augment the test suite accordingly. Our experimental evaluation shows that E-Test outperforms the main state-of-the-art approaches to identify inadequately tested behaviors and optimize test suites.
- Abstract(参考訳): ソフトウェアシステムの実際の使用を反映したテストケースによるテストスイートの拡大は、長く続くソフトウェアシステムの品質を維持する上で非常に重要である。
本稿では,テストスイートを段階的に拡張し,本番環境で発生し,まだテストされていない動作をエクササイズする手法であるE-Testを提案する。
E-TestはLarge Language Modelsを利用して、すでにテスト済みで、未テストで、エラーを起こしやすいユニットテストシナリオを特定し、それに従ってテストスイートを拡張する。
実験の結果,E-Testは不適切なテスト動作を特定し,テストスイートを最適化するために,最先端のアプローチよりも優れていることがわかった。
関連論文リスト
- TestAgent: An Adaptive and Intelligent Expert for Human Assessment [62.060118490577366]
対話型エンゲージメントによる適応テストを強化するために,大規模言語モデル(LLM)を利用したエージェントであるTestAgentを提案する。
TestAgentは、パーソナライズされた質問の選択をサポートし、テストテイカーの応答と異常をキャプチャし、動的で対話的なインタラクションを通じて正確な結果を提供する。
論文 参考訳(メタデータ) (2025-06-03T16:07:54Z) - Automatic High-Level Test Case Generation using Large Language Models [1.8136446064778242]
主な課題は、テストスクリプトを書くのではなく、テスト作業とビジネス要件の整合性です。
我々は、高レベルのテストケースを生成するためのトレーニング/ファインチューンモデルを構築するユースケースデータセットを構築した。
当社の積極的なアプローチは要件テストのアライメントを強化し,早期テストケース生成を容易にする。
論文 参考訳(メタデータ) (2025-03-23T09:14:41Z) - Adaptive Testing for LLM-Based Applications: A Diversity-based Approach [15.33985438101206]
本稿では,適応ランダムテスト(ART)のような多様性に基づくテスト手法が,プロンプトテンプレートのテストに効果的に適用可能であることを示す。
いくつかの文字列ベース距離を探索する様々な実装を用いて得られた結果,本手法が試験予算の削減による故障の発見を可能にすることを確認した。
論文 参考訳(メタデータ) (2025-01-23T08:53:12Z) - Context-Aware Testing: A New Paradigm for Model Testing with Large Language Models [49.06068319380296]
我々は,コンテキストを帰納バイアスとして用いて意味のあるモデル障害を探索するコンテキスト認識テスト(CAT)を導入する。
最初のCATシステムSMART Testingをインスタンス化し、大きな言語モデルを用いて、関連性があり、起こりうる失敗を仮説化します。
論文 参考訳(メタデータ) (2024-10-31T15:06:16Z) - A System for Automated Unit Test Generation Using Large Language Models and Assessment of Generated Test Suites [1.4563527353943984]
大規模言語モデル(LLM)はソフトウェア開発の様々な側面に適用されている。
Javaプロジェクトのテストスイートを生成する自動化システムであるAgoneTestを紹介します。
論文 参考訳(メタデータ) (2024-08-14T23:02:16Z) - Automatic benchmarking of large multimodal models via iterative experiment programming [71.78089106671581]
本稿では,LMMの自動ベンチマークのための最初のフレームワークであるAPExを紹介する。
自然言語で表現された研究の質問に対して、APExは大きな言語モデル(LLM)と事前定義されたツールのライブラリを活用して、手元にあるモデルの一連の実験を生成する。
調査の現在の状況に基づいて、APExはどの実験を行うか、結果が結論を引き出すのに十分かどうかを選択する。
論文 参考訳(メタデータ) (2024-06-18T06:43:46Z) - Towards Automatic Generation of Amplified Regression Test Oracles [44.45138073080198]
回帰テストオラクルを増幅するためのテストオラクル導出手法を提案する。
このアプローチはテスト実行中にオブジェクトの状態を監視し、以前のバージョンと比較して、SUTの意図した振る舞いに関連する変更を検出する。
論文 参考訳(メタデータ) (2023-07-28T12:38:44Z) - Beyond Accuracy: Behavioral Testing of NLP models with CheckList [66.42971817954806]
CheckList は NLP モデルをテストするためのタスクに依存しない方法論である。
CheckListには、包括的なテストのアイデアを促進する一般的な言語機能とテストタイプのマトリックスが含まれている。
ユーザスタディでは、CheckListのNLP実践者が2倍の数のテストを作成し、それのないユーザの約3倍のバグを発見しました。
論文 参考訳(メタデータ) (2020-05-08T15:48:31Z) - Noisy Adaptive Group Testing using Bayesian Sequential Experimental
Design [63.48989885374238]
病気の感染頻度が低い場合、Dorfman氏は80年前に、人のテストグループは個人でテストするよりも効率が良いことを示した。
本研究の目的は,ノイズの多い環境で動作可能な新しいグループテストアルゴリズムを提案することである。
論文 参考訳(メタデータ) (2020-04-26T23:41:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。