論文の概要: Directed Grammar-Based Test Generation
- arxiv url: http://arxiv.org/abs/2508.01472v1
- Date: Sat, 02 Aug 2025 19:43:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 14:08:58.298676
- Title: Directed Grammar-Based Test Generation
- Title(参考訳): 直接文法に基づくテスト生成
- Authors: Lukas Kirschner, Ezekiel Soremekun,
- Abstract要約: この研究は自動テスト生成アプローチ(FdLoopと呼ばれる)を提案する。
FdLoopは、既存の入力から関連する入力特性を反復的に学習し、ゴール固有の入力を生成する。
FdLoopは3つのよく知られた入力形式(JSON、CSS、JavaScript)と20のオープンソースソフトウェアを用いて評価する。
- 参考スコア(独自算出の注目度): 2.0948216657769616
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To effectively test complex software, it is important to generate goal-specific inputs, i.e., inputs that achieve a specific testing goal. However, most state-of-the-art test generators are not designed to target specific goals. Notably, grammar-based test generators, which (randomly) produce syntactically valid inputs via an input specification (i.e., grammar) have a low probability of achieving an arbitrary testing goal. This work addresses this challenge by proposing an automated test generation approach (called FdLoop) which iteratively learns relevant input properties from existing inputs to drive the generation of goal-specific inputs. Given a testing goal, FdLoop iteratively selects, evolves and learn the input distribution of goal-specific test inputs via test feedback and a probabilistic grammar. We concretize FdLoop for four testing goals, namely unique code coverage, input-to-code complexity, program failures (exceptions) and long execution time. We evaluate FdLoop using three (3) well-known input formats (JSON, CSS and JavaScript) and 20 open-source software. In most (86%) settings, FdLoop outperforms all five tested baselines namely the baseline grammar-based test generators (random, probabilistic and inverse-probabilistic methods), EvoGFuzz and DynaMosa. FdLoop is (up to) twice (2X) as effective as the best baseline (EvoGFuzz) in inducing erroneous behaviors. In addition, we show that the main components of FdLoop (i.e., input mutator, grammar mutator and test feedbacks) contribute positively to its effectiveness. Finally, our evaluation demonstrates that FdLoop effectively achieves single testing goals (revealing erroneous behaviors, generating complex inputs, or inducing long execution time) and scales to multiple testing goals across varying parameter settings.
- Abstract(参考訳): 複雑なソフトウェアを効果的にテストするには、ゴール固有のインプット、すなわち特定のテスト目標を達成するインプットを生成することが重要である。
しかし、ほとんどの最先端のテストジェネレータは特定の目標を目標に設計されていない。
特に、(ランダムに)入力仕様(文法)を介して構文的に有効な入力を生成する文法ベースのテストジェネレータは、任意のテスト目標を達成する確率が低い。
この研究は、既存の入力から関連する入力特性を反復的に学習し、ゴール固有の入力を生成する自動テスト生成アプローチ(FdLoopと呼ばれる)を提案することで、この問題に対処する。
テスト目標が与えられた場合、FdLoopは、テストフィードバックと確率文法を通じて、目標固有のテストインプットの入力分布を反復的に選択し、進化させ、学習する。
FdLoopを4つのテスト目標、すなわちユニークなコードカバレッジ、インプット・トゥ・コード複雑性、(例外を除いて)プログラムの失敗、そして実行時間の4つにまとめています。
FdLoopは3つのよく知られた入力形式(JSON、CSS、JavaScript)と20のオープンソースソフトウェアを用いて評価する。
ほとんどの(86%)設定では、FdLoopは、ベースライン文法ベースのテストジェネレータ(ランダム、確率的、逆確率的メソッド)、EvoGFuzz、DynaMosaの5つのテストベースラインを上回ります。
FdLoopは(最大2倍)、誤った振る舞いを誘発する最良のベースライン(EvoGFuzz)と同じくらい効果的である。
さらに,FdLoopの主成分(入力ミュータ,文法ミュータ,テストフィードバックなど)が有効性に寄与することを示す。
最後に、FdLoopは単一のテスト目標(誤動作の検証、複雑な入力の生成、実行時間の短縮)を効果的に達成し、パラメータ設定の異なる複数のテスト目標にスケールすることを示した。
関連論文リスト
- LLM-based Unit Test Generation for Dynamically-Typed Programs [16.38145000434927]
TypeTestは、ベクトルベースのRetrieval-Augmented Generationシステムを通じて、テスト生成における型正しさを高める新しいフレームワークである。
125の現実世界のPythonモジュールの評価において、TypeTestは平均で86.6%、ブランチで76.8%を獲得し、それぞれ5.4%、9.3%の最先端ツールを上回った。
論文 参考訳(メタデータ) (2025-03-18T08:07:17Z) - Learning to Generate Unit Tests for Automated Debugging [52.63217175637201]
ユニットテスト(UT)は、コードの正確性を評価するだけでなく、大きな言語モデル(LLM)にフィードバックを提供する上でも重要な役割を果たします。
提案するUTGenは,LLMに対して,予測出力とともにエラーを示す単体テスト入力を生成することを教える。
UTGen は他の LLM ベースラインを7.59% 上回っていることを示す。
論文 参考訳(メタデータ) (2025-02-03T18:51:43Z) - Training on the Benchmark Is Not All You Need [52.01920740114261]
本稿では,複数選択肢の内容に基づいた簡易かつ効果的なデータ漏洩検出手法を提案する。
本手法は,モデルトレーニングデータや重みを使用せずに,グレーボックス条件下で動作可能である。
4つのベンチマークデータセットから35個の主要なオープンソースLCMのデータ漏洩度を評価する。
論文 参考訳(メタデータ) (2024-09-03T11:09:44Z) - PROZE: Generating Parameterized Unit Tests Informed by Runtime Data [10.405775369526006]
パラメータ化された単体テスト(PUT)は、一連の入力を引数として受け取り、これらすべての入力に対して真であると予想されるアサーションを含む。
本稿では,複数の入力を保持するPUTのオーラクルを見つける問題に対処する。
我々は,複数のテスト入力に対して有効な開発者記述アサーションを識別し,PUTを生成するPROZEと呼ばれるシステムの設計を行う。
論文 参考訳(メタデータ) (2024-06-30T17:07:12Z) - LLM-Powered Test Case Generation for Detecting Bugs in Plausible Programs [37.48856389469826]
TrickCatcherは、可算プログラムでバグを発見するためのテストケースを生成する。
TrickCatcherは1.80x、2.65x、1.66xのリコール、精度、F1スコアを達成する。
論文 参考訳(メタデータ) (2024-04-16T06:20:06Z) - Test-Driven Development for Code Generation [0.850206009406913]
大きな言語モデル(LLM)は、問題ステートメントから直接コードスニペットを生成する重要な機能を示している。
本稿では,テスト駆動開発(TDD)をAI支援コード生成プロセスに組み込む方法について検討する。
論文 参考訳(メタデータ) (2024-02-21T04:10:12Z) - Test Generation Strategies for Building Failure Models and Explaining
Spurious Failures [4.995172162560306]
テスト入力は、テスト対象のシステムが故障している場合だけでなく、入力が無効または非現実的である場合も失敗する。
テストインプットに対して解釈可能なルールを推論し,重大な障害を引き起こす障害モデルを構築することを提案する。
提案手法は, 平均精度83%の故障モデルを生成する。
論文 参考訳(メタデータ) (2023-12-09T18:36:15Z) - Generative Input: Towards Next-Generation Input Methods Paradigm [49.98958865125018]
我々はGeneInputという新しい生成入力パラダイムを提案する。
すべての入力シナリオと他のインテリジェントな補助入力関数を処理するためにプロンプトを使用し、ユーザーフィードバックでモデルを最適化し、パーソナライズされた結果を提供する。
その結果,FK2C(Full-mode Key-sequence to Characters)タスクにおいて,最先端のパフォーマンスを初めて達成したことを示す。
論文 参考訳(メタデータ) (2023-11-02T12:01:29Z) - LeTI: Learning to Generate from Textual Interactions [60.425769582343506]
本稿では,テキストインタラクション(LETI)から学習するLMの可能性を,バイナリラベルによる正当性をチェックするだけでなく,テキストフィードバックを通じて出力中のエラーをピンポイントし,説明する。
私たちの焦点はコード生成タスクであり、そこではモデルが自然言語命令に基づいてコードを生成する。
LETIは、目的のLMを用いて、自然言語命令、LM生成プログラム、テキストフィードバックの結合に基づいて、モデルを反復的に微調整する。
論文 参考訳(メタデータ) (2023-05-17T15:53:31Z) - Intergenerational Test Generation for Natural Language Processing
Applications [16.63835131985415]
各種NLPアプリケーションの誤動作を検出する自動テスト生成手法を提案する。
この手法をNLPLegoに実装し、シード文の可能性を完全に活用する。
NLPLegoは3つのタスクで約95.7%の精度で1,732, 5301, 261,879の誤った行動を検出することに成功した。
論文 参考訳(メタデータ) (2023-02-21T07:57:59Z) - READIN: A Chinese Multi-Task Benchmark with Realistic and Diverse Input
Noises [87.70001456418504]
我々は、Realistic and Diverse Input Noisesを用いた中国のマルチタスクベンチマークREADINを構築した。
READINには4つの多様なタスクとアノテータが含まれており、Pinyin入力と音声入力という2つの一般的な中国語入力方式で元のテストデータを再入力するよう要求する。
我々は、強化された事前訓練された言語モデルと、堅牢なトレーニング手法を用いて実験を行い、これらのモデルがREADINに顕著な性能低下を被ることがしばしば見いだされた。
論文 参考訳(メタデータ) (2023-02-14T20:14:39Z) - Interactive Code Generation via Test-Driven User-Intent Formalization [60.90035204567797]
大きな言語モデル(LLM)は、非公式な自然言語(NL)の意図からコードを生成する。
自然言語は曖昧であり、形式的な意味論が欠けているため、正確性の概念を定義するのは難しい。
言語に依存しない抽象アルゴリズムと具体的な実装TiCoderについて述べる。
論文 参考訳(メタデータ) (2022-08-11T17:41:08Z) - Synthetic Datasets for Neural Program Synthesis [66.20924952964117]
本稿では,プログラムと仕様の両方で合成データ分布のバイアスを制御し,評価するための新しい手法を提案する。
そこで我々は,Karel DSLと小さなCalculator DSLを用いて,これらの分布上でのディープネットワークのトレーニングにより,分散一般化性能が向上することが実証された。
論文 参考訳(メタデータ) (2019-12-27T21:28:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。