論文の概要: LTM: Scalable and Black-box Similarity-based Test Suite Minimization
based on Language Models
- arxiv url: http://arxiv.org/abs/2304.01397v2
- Date: Mon, 21 Aug 2023 16:51:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 12:45:06.202376
- Title: LTM: Scalable and Black-box Similarity-based Test Suite Minimization
based on Language Models
- Title(参考訳): LTM: 言語モデルに基づく拡張性とブラックボックス類似性に基づくテストスイートの最小化
- Authors: Rongqi Pan, Taher A. Ghaleb, Lionel Briand
- Abstract要約: テストスイートはソフトウェアが進化するにつれて成長する傾向にあり、割り当てられたテスト予算ですべてのテストケースを実行することができないことが多い。
テストスイートの最小化(TSM)は、冗長なテストケースを削除することで、ソフトウェアテストの効率を改善するために使用される。
LTM(Language model-based Test suite Minimization)を提案する。
- 参考スコア(独自算出の注目度): 0.716879432974126
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Test suites tend to grow when software evolves, making it often infeasible to
execute all test cases with the allocated testing budgets, especially for large
software systems. Therefore, test suite minimization (TSM) is employed to
improve the efficiency of software testing by removing redundant test cases,
thus reducing testing time and resources, while maintaining the fault detection
capability of the test suite. Most of the TSM approaches rely on code coverage
(white-box) or model-based features, which are not always available for test
engineers. Recent TSM approaches that rely only on test code (black-box) have
been proposed, such as ATM and FAST-R. To address scalability, we propose LTM
(Language model-based Test suite Minimization), a novel, scalable, and
black-box similarity-based TSM approach based on large language models (LLMs).
To support similarity measurement, we investigated three different pre-trained
language models: CodeBERT, GraphCodeBERT, and UniXcoder, to extract embeddings
of test code, on which we computed two similarity measures: Cosine Similarity
and Euclidean Distance. Our goal is to find similarity measures that are not
only computationally more efficient but can also better guide a Genetic
Algorithm (GA), thus reducing the overall search time. Experimental results,
under a 50% minimization budget, showed that the best configuration of LTM
(using UniXcoder with Cosine similarity) outperformed the best two
configurations of ATM in three key facets: (a) achieving a greater saving rate
of testing time (40.38% versus 38.06%, on average); (b) attaining a
significantly higher fault detection rate (0.84 versus 0.81, on average); and,
more importantly, (c) minimizing test suites much faster (26.73 minutes versus
72.75 minutes, on average) in terms of both preparation time (up to two orders
of magnitude faster) and search time (one order of magnitude faster).
- Abstract(参考訳): テストスイートはソフトウェアが進化するにつれて成長する傾向にあり、特に大規模なソフトウェアシステムにおいて、割り当てられたテスト予算ですべてのテストケースを実行することができないことが多い。
したがって、テストスイートの障害検出能力を維持しつつ、冗長なテストケースを取り除いてテスト時間とリソースを削減し、ソフトウェアテストの効率を向上させるためにテストスイートの最小化(tsm)が採用される。
TSMのアプローチのほとんどはコードカバレッジ(ホワイトボックス)やモデルベースの機能に依存している。
ATMやFAST-Rのようなテストコード(ブラックボックス)のみに依存する最近のTSMアプローチが提案されている。
スケーラビリティに対処するため,我々は,大規模言語モデル(llm)に基づく新規でスケーラブルでブラックボックスの類似性に基づくtsmアプローチであるltm(language model-based test suite minimization)を提案する。
類似度測定を支援するために,CodeBERT,GraphCodeBERT,UniXcoderの3種類の事前学習言語モデルを用いて,テストコードの埋め込みを抽出し,コサイン類似度とユークリッド距離の2つの類似度尺度を計算した。
我々のゴールは、計算効率が向上するだけでなく、遺伝的アルゴリズム(GA)を導出し、全体の検索時間を短縮できる類似性尺度を見つけることである。
実験の結果、50%の最小化予算の下で、LTM(UniXcoderとCosineの類似性を使用)の最適構成は、ATMの最高の2構成を3つのキーセットで上回った。
(a) 試験時間の節約率の向上(平均で38.06%に対して40.38%)
(b)断層検出率(平均0.84対0.81)が著しく高く、さらに重要なこと。
c) テストスイートの最小化(平均26.73分に対して72.75分)は、準備時間(最大2桁の高速化)と検索時間(最大1桁の高速化)の両方においてはるかに高速である。
関連論文リスト
- Scaling LLM Inference with Optimized Sample Compute Allocation [56.524278187351925]
我々は、異なる推論構成の最適な混合を見つけるアルゴリズムであるOSCAを提案する。
実験の結果,学習した混合アロケーションでは,最高の単一構成よりも精度がよいことがわかった。
OSCAはシングルターンタスク以外のエージェント処理にも有効であることが示されており、デフォルト設定よりも3倍少ない計算でSWE-Benchの精度が向上している。
論文 参考訳(メタデータ) (2024-10-29T19:17:55Z) - Scalable Similarity-Aware Test Suite Minimization with Reinforcement Learning [6.9290255098776425]
TripRLは多種多様なテストスイートを生成し、高いテスト効率を実現している。
本稿では,TripRLのランタイムは,Multi-Criteria Test Suite Minimization問題の規模と線形にスケール可能であることを示す。
論文 参考訳(メタデータ) (2024-08-24T08:43:03Z) - On Test Sequence Generation using Multi-Objective Particle Swarm Optimization [0.2999888908665658]
ソフトウェア開発ライフサイクルにおいて、ソフトウェアテストは重要かつ不可欠な部分です。
ソフトウェア業界では、テストコストはソフトウェアプロジェクトの総コストの約35%から40%を占めることができます。
論文 参考訳(メタデータ) (2024-04-09T18:35:21Z) - Active Test-Time Adaptation: Theoretical Analyses and An Algorithm [51.84691955495693]
テスト時間適応(TTA)は、教師なし設定でストリーミングテストデータの分散シフトに対処する。
完全TTA設定内に能動学習を統合する能動テスト時間適応(ATTA)の新たな問題設定を提案する。
論文 参考訳(メタデータ) (2024-04-07T22:31:34Z) - UniTSyn: A Large-Scale Dataset Capable of Enhancing the Prowess of Large
Language Models for Program Testing [27.45301385265713]
単体テスト合成のためのLLMの高度化が可能な大規模データセットUniTSynを提案する。
Language Server Protocolを活用することで、UniSynは、プロジェクトごとの実行セットアップや言語ごとのセットアップなしでフォーカス-テストペアを収集するという挑戦的な目標を達成する。
実験により、UniTSynをベースとした自己回帰モデルを構築することにより、単体テスト表現の学習と理解において大きなメリットが得られます。
論文 参考訳(メタデータ) (2024-02-04T22:48:05Z) - Code-Aware Prompting: A study of Coverage Guided Test Generation in Regression Setting using LLM [32.44432906540792]
テスト生成における大規模言語モデルのコード認識促進戦略であるSymPromptを提案する。
SymPromptは、正しいテスト世代を5倍に増やし、CodeGen2の相対カバレッジを26%向上させる。
特に、GPT-4に適用すると、SymPromptはベースラインのプロンプト戦略に比べて2倍以上のカバレッジが向上する。
論文 参考訳(メタデータ) (2024-01-31T18:21:49Z) - Precise Error Rates for Computationally Efficient Testing [75.63895690909241]
本稿では,計算複雑性に着目した単純な対数-単純仮説テストの問題を再考する。
線形スペクトル統計に基づく既存の試験は、I型とII型の誤差率の間の最良のトレードオフ曲線を達成する。
論文 参考訳(メタデータ) (2023-11-01T04:41:16Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z) - Exact Paired-Permutation Testing for Structured Test Statistics [67.71280539312536]
構造化されたテスト統計群のペア置換テストに対して,効率的な正確なアルゴリズムを提案する。
我々の正確なアルゴリズムはモンテカルロ近似よりも10ドル速く、共通のデータセットに20000ドルのサンプルがある。
論文 参考訳(メタデータ) (2022-05-03T11:00:59Z) - Noisy Adaptive Group Testing using Bayesian Sequential Experimental
Design [63.48989885374238]
病気の感染頻度が低い場合、Dorfman氏は80年前に、人のテストグループは個人でテストするよりも効率が良いことを示した。
本研究の目的は,ノイズの多い環境で動作可能な新しいグループテストアルゴリズムを提案することである。
論文 参考訳(メタデータ) (2020-04-26T23:41:33Z) - Genetic Algorithms for Redundancy in Interaction Testing [0.6396288020763143]
インタラクションテストには一連のテストの設計が含まれており、少数のコンポーネントが連携して動作する場合、障害を検出することが保証される。
これらのテストスイートを構築するための既存のアルゴリズムは通常、ほとんどのテストを生成する1つの"高速"アルゴリズムと、テストスイートを"完全"する別の"より遅い"アルゴリズムを含んでいる。
我々は、これらのアプローチを一般化する遺伝的アルゴリズムを用いて、選択したアルゴリズムの数を増やして冗長性も含み、それを「ステージ」と呼ぶ。
論文 参考訳(メタデータ) (2020-02-13T10:16:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。