論文の概要: LTM: Scalable and Black-box Similarity-based Test Suite Minimization based on Language Models
- arxiv url: http://arxiv.org/abs/2304.01397v5
- Date: Mon, 30 Sep 2024 20:29:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-02 16:33:15.165829
- Title: LTM: Scalable and Black-box Similarity-based Test Suite Minimization based on Language Models
- Title(参考訳): LTM: 言語モデルに基づく拡張性とブラックボックス類似性に基づくテストスイートの最小化
- Authors: Rongqi Pan, Taher A. Ghaleb, Lionel Briand,
- Abstract要約: テストスイートはソフトウェアが進化するにつれて成長する傾向にあり、割り当てられたテスト予算ですべてのテストケースを実行することができないことが多い。
テストスイートの最小化(TSM)は、冗長なテストケースを削除することで、ソフトウェアテストの効率を改善するために使用される。
LTM(Language model-based Test suite Minimization)を提案する。
- 参考スコア(独自算出の注目度): 0.6562256987706128
- License:
- Abstract: Test suites tend to grow when software evolves, making it often infeasible to execute all test cases with the allocated testing budgets, especially for large software systems. Test suite minimization (TSM) is employed to improve the efficiency of software testing by removing redundant test cases, thus reducing testing time and resources, while maintaining the fault detection capability of the test suite. Most existing TSM approaches rely on code coverage (white-box) or model-based features, which are not always available to test engineers. Recent TSM approaches that rely only on test code (black-box) have been proposed, such as ATM and FAST-R. To address the scalability, we propose LTM (Language model-based Test suite Minimization), a novel, scalable, and black-box similarity-based TSM approach based on large language models (LLMs), which is the first application of LLMs in the context of TSM. To support similarity measurement for test code embeddings, we investigate five pre-trained language models: CodeBERT, GraphCodeBERT, UniXcoder, StarEncoder, and CodeLlama, on which we compute two similarity measures: Cosine Similarity and Euclidean Distance. Our goal is to find similarity measures that are not only computationally more efficient but can also better guide a Genetic Algorithm (GA) to search for optimal minimized test suites, thus reducing the overall search time. Experimental results show that the best configuration of LTM (UniXcoder/Cosine) outperforms ATM in three aspects: (a) achieving a slightly greater saving rate of testing time (41.72% versus 41.02%, on average); (b) attaining a significantly higher fault detection rate (0.84 versus 0.81, on average); and, most importantly, (c) minimizing test suites nearly five times faster on average, with higher gains for larger test suites and systems, thus achieving much higher scalability.
- Abstract(参考訳): テストスイートはソフトウェアが進化するにつれて成長する傾向にあり、特に大規模なソフトウェアシステムにおいて、割り当てられたテスト予算ですべてのテストケースを実行することができないことが多い。
テストスイートの最小化(TSM)は、冗長なテストケースを取り除き、テスト時間とリソースを削減し、テストスイートの障害検出能力を維持しながら、ソフトウェアテストの効率を向上させるために使用される。
既存のTSMアプローチのほとんどはコードカバレッジ(ホワイトボックス)やモデルベースの機能に依存している。
ATMやFAST-Rのようなテストコード(ブラックボックス)のみに依存する最近のTSMアプローチが提案されている。
このスケーラビリティに対処するため,大規模言語モデル(LLM)に基づく新しい,スケーラブルかつブラックボックス類似性に基づくTSMアプローチであるLTM(Language Model-based Test Suite Minimization)を提案する。
テストコード埋め込みにおける類似度測定を支援するため,CodeBERT,GraphCodeBERT,Unixcoder,StarEncoder,CodeLlamaの5つの事前学習言語モデルについて検討した。
我々のゴールは、計算効率が向上するだけでなく、遺伝的アルゴリズム(GA)により最適な最小化テストスイートを探索し、全体の探索時間を短縮できる類似性尺度を見つけることである。
実験結果から, LTM (UniXcoder/Cosine) の最適構成は, 3つの点でATMより優れていることがわかった。
(a)試験時間の短縮率(平均41.02%に対して41.72%)をわずかに向上させる。
(b)断層検出率(平均0.84対0.81)が著しく高く、そして最も重要な点
(c) テストスイートを平均で5倍近い速度で最小化する。
関連論文リスト
- S*: Test Time Scaling for Code Generation [55.11863577956177]
コード生成のための最初のハイブリッドテストタイムスケーリングフレームワークであるS*を提案する。
S*は生成されたコードのカバレッジと選択精度を大幅に改善する。
論文 参考訳(メタデータ) (2025-02-20T09:18:53Z) - Scaling Test-Time Compute Without Verification or RL is Suboptimal [70.28430200655919]
RL法や検索法に基づく検証器ベース (VB) 手法による微調整は, 一定量の計算・データ予算を条件として, 蒸留・クローニングに基づく検証器フリー (VF) 手法よりもはるかに優れていることを示す。
我々は,3/8Bの事前学習型LLMのドクティクスと数学推論の両問題に対して,我々の理論を実証的に相関させ,テスト時間計算のスケーリングには検証が不可欠であることを確認した。
論文 参考訳(メタデータ) (2025-02-17T18:43:24Z) - Automated Robustness Testing for LLM-based NLP Software [6.986328098563149]
LLMベースのNLPソフトウェア用に特別に設計された、自動化された堅牢性テスト手法は知られていない。
既存のテスト手法は AORTA による LLM ベースのソフトウェアに適用できるが,有効性は限られている。
本稿では,アダプティブビームサーチ (Adaptive Beam Search) と呼ばれる AORTA 内における LLM ベースのソフトウェアの新しいテスト手法を提案する。
論文 参考訳(メタデータ) (2024-12-30T15:33:34Z) - Simple and Provable Scaling Laws for the Test-Time Compute of Large Language Models [70.07661254213181]
大規模言語モデルのテスト時間計算のための2つの原理的アルゴリズムを提案する。
理論的には、1つのアルゴリズムの故障確率は、そのテスト時間計算が大きくなるにつれて指数関数的に減衰する。
論文 参考訳(メタデータ) (2024-11-29T05:29:47Z) - Scalable Similarity-Aware Test Suite Minimization with Reinforcement Learning [6.9290255098776425]
TripRLは、多種多様なテストスイートを高いテスト効率で生成する新しい技術である。
本稿では,TripRLのランタイムは,Multi-Criteria Test Suite Minimization問題の規模と線形にスケール可能であることを示す。
論文 参考訳(メタデータ) (2024-08-24T08:43:03Z) - On Test Sequence Generation using Multi-Objective Particle Swarm Optimization [0.2999888908665658]
ソフトウェア開発ライフサイクルにおいて、ソフトウェアテストは重要かつ不可欠な部分です。
ソフトウェア業界では、テストコストはソフトウェアプロジェクトの総コストの約35%から40%を占めることができます。
論文 参考訳(メタデータ) (2024-04-09T18:35:21Z) - Active Test-Time Adaptation: Theoretical Analyses and An Algorithm [51.84691955495693]
テスト時間適応(TTA)は、教師なし設定でストリーミングテストデータの分散シフトに対処する。
完全TTA設定内に能動学習を統合する能動テスト時間適応(ATTA)の新たな問題設定を提案する。
論文 参考訳(メタデータ) (2024-04-07T22:31:34Z) - Code-Aware Prompting: A study of Coverage Guided Test Generation in Regression Setting using LLM [32.44432906540792]
テスト生成における大規模言語モデルのコード認識促進戦略であるSymPromptを提案する。
SymPromptは、正しいテスト世代を5倍に増やし、CodeGen2の相対カバレッジを26%向上させる。
特に、GPT-4に適用すると、SymPromptはベースラインのプロンプト戦略に比べて2倍以上のカバレッジが向上する。
論文 参考訳(メタデータ) (2024-01-31T18:21:49Z) - Precise Error Rates for Computationally Efficient Testing [75.63895690909241]
本稿では,計算複雑性に着目した単純な対数-単純仮説テストの問題を再考する。
線形スペクトル統計に基づく既存の試験は、I型とII型の誤差率の間の最良のトレードオフ曲線を達成する。
論文 参考訳(メタデータ) (2023-11-01T04:41:16Z) - Noisy Adaptive Group Testing using Bayesian Sequential Experimental
Design [63.48989885374238]
病気の感染頻度が低い場合、Dorfman氏は80年前に、人のテストグループは個人でテストするよりも効率が良いことを示した。
本研究の目的は,ノイズの多い環境で動作可能な新しいグループテストアルゴリズムを提案することである。
論文 参考訳(メタデータ) (2020-04-26T23:41:33Z) - Genetic Algorithms for Redundancy in Interaction Testing [0.6396288020763143]
インタラクションテストには一連のテストの設計が含まれており、少数のコンポーネントが連携して動作する場合、障害を検出することが保証される。
これらのテストスイートを構築するための既存のアルゴリズムは通常、ほとんどのテストを生成する1つの"高速"アルゴリズムと、テストスイートを"完全"する別の"より遅い"アルゴリズムを含んでいる。
我々は、これらのアプローチを一般化する遺伝的アルゴリズムを用いて、選択したアルゴリズムの数を増やして冗長性も含み、それを「ステージ」と呼ぶ。
論文 参考訳(メタデータ) (2020-02-13T10:16:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。