Fugu-MT 論文翻訳(概要): Design, implementation, and validation of a benchmark generator for combinatorial interaction testing tools

論文の概要: Design, implementation, and validation of a benchmark generator for combinatorial interaction testing tools

arxiv url: http://arxiv.org/abs/2311.03016v1
Date: Mon, 6 Nov 2023 10:44:48 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-07 14:48:54.391281
Title: Design, implementation, and validation of a benchmark generator for combinatorial interaction testing tools
Title（参考訳）: 組合せ相互作用試験ツールのためのベンチマークジェネレータの設計・実装・検証
Authors: Andrea Bombarda and Angelo Gargantini
Abstract要約: 組合せテストはソフトウェアの欠陥を効率的に検出する手法として広く採用されている。テストジェネレータの品質は、効果的なテストカバレッジを達成する上で重要な役割を果たす。テストジェネレータが使用するベンチマークのジェネレータであるBenCIGenを紹介する。
参考スコア（独自算出の注目度）: 0.29008108937701327
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Combinatorial testing is a widely adopted technique for efficiently detecting faults in software. The quality of combinatorial test generators plays a crucial role in achieving effective test coverage. Evaluating combinatorial test generators remains a challenging task that requires diverse and representative benchmarks. Having such benchmarks might help developers to test their tools, and improve their performance. For this reason, in this paper, we present BenCIGen, a highly configurable generator of benchmarks to be used by combinatorial test generators, empowering users to customize the type of benchmarks generated, including constraints and parameters, as well as their complexity. An initial version of such a tool has been used during the CT-Competition, held yearly during the International Workshop on Combinatorial Testing. This paper describes the requirements, the design, the implementation, and the validation of BenCIGen. Tests for the validation of BenCIGen are derived from its requirements by using a combinatorial interaction approach. Moreover, we demonstrate the tool's ability to generate benchmarks that reflect the characteristics of real software systems. BenCIGen not only facilitates the evaluation of existing generators but also serves as a valuable resource for researchers and practitioners seeking to enhance the quality and effectiveness of combinatorial testing methodologies.
Abstract（参考訳）: 組合せテストはソフトウェアの欠陥を効率的に検出する手法として広く採用されている。コンビネーションテストジェネレータの品質は、効果的なテストカバレッジを達成する上で重要な役割を果たす。コンビネートテストジェネレータの評価は、多様で代表的なベンチマークを必要とする課題である。このようなベンチマークを行うことで、開発者はツールをテストし、パフォーマンスを改善することができる。そこで本稿では,コンビネータテスト生成器が使用するベンチマークの高度に構成可能な生成器であるbencigenを提案する。このツールの最初のバージョンはCT-Competitionで使われており、毎年、International Workshop on Combinatorial Testingで行われている。本稿では,BenCIGenの要件,設計,実装,検証について述べる。 BenCIGenの検証テストは、組合せ的相互作用アプローチを用いてその要求から導かれる。さらに,本ツールが実際のソフトウェアシステムの特徴を反映したベンチマークを生成する能力を示す。 BenCIGenは、既存のジェネレータの評価を促進するだけでなく、組み合わせテスト手法の品質と有効性を高めるために研究者や実践者にとって貴重な情報源となっている。

関連論文リスト

Learning to Solve and Verify: A Self-Play Framework for Code and Test Generation [69.62857948698436]
大規模言語モデル(LLM)の最近の進歩は、コーディングベンチマークのパフォーマンスを改善している。しかし、手軽に利用できる高品質なデータの枯渇により、改善は停滞している。本稿では,単一モデルのコードとテスト生成能力を共同で改善するセルフプレイ・ソルバ検証フレームワークであるSol-Verを提案する。
論文参考訳（メタデータ） (2025-02-20T18:32:19Z)
Scoring Verifiers: Evaluating Synthetic Verification for Code and Reasoning [59.25951947621526]
本稿では,既存の符号化ベンチマークをスコアとランキングデータセットに変換して,合成検証の有効性を評価する手法を提案する。我々は4つの新しいベンチマーク(HE-R, HE-R+, MBPP-R, MBPP-R+)を公表し, 標準, 推論, 報酬に基づくLCMを用いて合成検証手法を解析した。実験の結果, 推論はテストケースの生成を著しく改善し, テストケースのスケーリングによって検証精度が向上することがわかった。
論文参考訳（メタデータ） (2025-02-19T15:32:11Z)
Commit0: Library Generation from Scratch [77.38414688148006]
Commit0は、AIエージェントにスクラッチからライブラリを書くよう促すベンチマークである。エージェントには、ライブラリのAPIを概説する仕様文書と、インタラクティブなユニットテストスイートが提供されている。 Commit0はまた、モデルが生成したコードに対して静的解析と実行フィードバックを受け取る、インタラクティブな環境も提供する。
論文参考訳（メタデータ） (2024-12-02T18:11:30Z)
LLM-based Unit Test Generation via Property Retrieval [26.906316611858518]
プロパティベースのRetrieval Augmentationは、基本的なベクトル、テキスト類似性、グラフベースのメソッドを超えてLLMベースのRetrieval-Augmented Generationを拡張する。提案手法では,タスク固有のコンテキストを考慮し,プロパティ検索機構を導入している。提案手法は,前処理,プロパティ検索,単体テスト生成を逐次実行するAPTと呼ばれるツールに実装する。
論文参考訳（メタデータ） (2024-10-17T13:33:12Z)
Codev-Bench: How Do LLMs Understand Developer-Centric Code Completion? [60.84912551069379]
Code-Development Benchmark (Codev-Bench)は、細粒度で現実世界、リポジトリレベル、開発者中心の評価フレームワークです。 Codev-Agentは、リポジトリのクローリングを自動化し、実行環境を構築し、既存のユニットテストから動的呼び出しチェーンを抽出し、データ漏洩を避けるために新しいテストサンプルを生成するエージェントベースのシステムである。
論文参考訳（メタデータ） (2024-10-02T09:11:10Z)
ASTER: Natural and Multi-language Unit Test Generation with LLMs [6.259245181881262]
静的解析を組み込んだジェネリックパイプラインを記述し,コンパイル可能な高カバレッジテストケースの生成においてLCMをガイドする。コードカバレッジとテスト自然性の観点から,生成したテストの品質を評価するための実証的研究を行った。
論文参考訳（メタデータ） (2024-09-04T21:46:18Z)
SYNTHEVAL: Hybrid Behavioral Testing of NLP Models with Synthetic CheckLists [59.08999823652293]
我々は,NLPモデルの包括的評価のために,SyntheVALを提案する。最後の段階では、人間の専門家が困難な例を調査し、手動でテンプレートを設計し、タスク固有のモデルが一貫して示す障害の種類を特定します。我々は、感情分析と有害言語検出という2つの分類課題にSynTHEVALを適用し、これらの課題における強力なモデルの弱点を特定するのに、我々のフレームワークが有効であることを示す。
論文参考訳（メタデータ） (2024-08-30T17:41:30Z)
A System for Automated Unit Test Generation Using Large Language Models and Assessment of Generated Test Suites [1.4563527353943984]
大規模言語モデル(LLM)はソフトウェア開発の様々な側面に適用されている。 Javaプロジェクトのテストスイートを生成する自動化システムであるAgoneTestを紹介します。
論文参考訳（メタデータ） (2024-08-14T23:02:16Z)
RepoMasterEval: Evaluating Code Completion via Real-World Repositories [12.176098357240095]
RepoMasterEvalは、現実のPythonとTypeScriptリポジトリから構築されたコード補完モデルを評価するための新しいベンチマークである。モデル生成コードのテスト精度を向上させるため,テストケースの有効性を測定するために突然変異試験を用いる。 6つの最先端モデルに対する実証的な評価は、テスト議論がベンチマークの精度向上に重要であることを示している。
論文参考訳（メタデータ） (2024-08-07T03:06:57Z)
GCC: Generative Calibration Clustering [55.44944397168619]
本稿では,特徴学習と拡張をクラスタリングに組み込む新しいGCC法を提案する。まず,実検体と実検体間の固有関係を識別する識別的特徴アライメント機構を開発する。第二に、より信頼性の高いクラスタ割り当てを生成するための自己教師付きメトリック学習を設計する。
論文参考訳（メタデータ） (2024-04-14T01:51:11Z)
Test Case Recommendations with Distributed Representation of Code Syntactic Features [2.225268436173329]
本稿では,ソースコード手法とテストケースの構造的・意味的特性を利用する自動手法を提案する。提案するアプローチは、当初、メソッドレベルのソースコードとユニットテストを分散表現に変換するためにニューラルネットワークをトレーニングする。このモデルは、メソッドの埋め込みと以前に組み込まれたトレーニングインスタンスのコサイン類似性を計算します。
論文参考訳（メタデータ） (2023-10-04T21:42:01Z)
From Static Benchmarks to Adaptive Testing: Psychometrics in AI Evaluation [60.14902811624433]
本稿では,静的評価手法から適応テストへのパラダイムシフトについて論じる。これには、ベンチマークで各テスト項目の特性と価値を推定し、リアルタイムでアイテムを動的に調整することが含まれる。我々は、AI評価にサイコメトリックを採用する現在のアプローチ、アドバンテージ、そして根底にある理由を分析します。
論文参考訳（メタデータ） (2023-06-18T09:54:33Z)
A Benchmark Generator for Combinatorial Testing [0.0]
Combinatorial Testing (CT)ツールは、幅広いシステムの適切なテストに不可欠である。我々は、利用可能なコンビニアル問題の多くに含まれる構造を基本的に借用する、CTベンチマークの新しいジェネレータを導入する。
論文参考訳（メタデータ） (2022-12-29T09:03:10Z)
Benchopt: Reproducible, efficient and collaborative optimization benchmarks [67.29240500171532]
Benchoptは、機械学習で最適化ベンチマークを自動化、再生、公開するためのフレームワークである。 Benchoptは実験を実行、共有、拡張するための既製のツールを提供することで、コミュニティのベンチマークを簡単にする。
論文参考訳（メタデータ） (2022-06-27T16:19:24Z)
An Evaluation Study of Generative Adversarial Networks for Collaborative Filtering [75.83628561622287]
本研究は、原論文で発表された結果の再現に成功し、CFGANフレームワークと原評価で使用されるモデルとの相違が与える影響について論じる。この研究は、CFGANと単純でよく知られた適切に最適化されたベースラインの選択を比較した実験的な分析をさらに拡張し、CFGANは高い計算コストにもかかわらず、それらに対して一貫して競合していないことを観察した。
論文参考訳（メタデータ） (2022-01-05T20:53:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。