Fugu-MT 論文翻訳(概要): On the Soundness and Consistency of LLM Agents for Executing Test Cases Written in Natural Language

論文の概要: On the Soundness and Consistency of LLM Agents for Executing Test Cases Written in Natural Language

arxiv url: http://arxiv.org/abs/2509.19136v2
Date: Wed, 01 Oct 2025 09:32:15 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-02 14:33:21.770292
Title: On the Soundness and Consistency of LLM Agents for Executing Test Cases Written in Natural Language
Title（参考訳）: 自然言語で書かれたテストケースの実行のためのLLMエージェントの音質と一貫性について
Authors: Sébastien Salva, Redha Taguelmimt,
Abstract要約: グラフィカルユーザインタフェース(GUI)アプリケーションを検証するための自然言語(NL)テストケースの利用は、将来性のある方向として現れつつある。大規模言語モデル(LLM)の最近の進歩は、LLMエージェントによるNLテストケースの直接実行の可能性を広げている。本稿では,NLテストケースの不協和性とテストケース実行の整合性に与える影響について検討する。
参考スコア（独自算出の注目度）: 4.290931412096985
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The use of natural language (NL) test cases for validating graphical user interface (GUI) applications is emerging as a promising direction to manually written executable test scripts, which are costly to develop and difficult to maintain. Recent advances in large language models (LLMs) have opened the possibility of the direct execution of NL test cases by LLM agents. This paper investigates this direction, focusing on the impact on NL test case unsoundness and on test case execution consistency. NL test cases are inherently unsound, as they may yield false failures due to ambiguous instructions or unpredictable agent behaviour. Furthermore, repeated executions of the same NL test case may lead to inconsistent outcomes, undermining test reliability. To address these challenges, we propose an algorithm for executing NL test cases with guardrail mechanisms and specialised agents that dynamically verify the correct execution of each test step. We introduce measures to evaluate the capabilities of LLMs in test execution and one measure to quantify execution consistency. We propose a definition of weak unsoundness to characterise contexts in which NL test case execution remains acceptable, with respect to the industrial quality levels Six Sigma. Our experimental evaluation with eight publicly available LLMs, ranging from 3B to 70B parameters, demonstrates both the potential and current limitations of current LLM agents for GUI testing. Our experiments show that Meta Llama 3.1 70B demonstrates acceptable capabilities in NL test case execution with high execution consistency (above the level 3-sigma). We provide prototype tools, test suites, and results.
Abstract（参考訳）: グラフィカルユーザインタフェース(GUI)アプリケーションを検証するための自然言語(NL)テストケースの使用は、手作業で記述されたテストスクリプトにとって有望な方向として現れており、開発にコストがかかり、メンテナンスが困難である。大規模言語モデル(LLM)の最近の進歩は、LLMエージェントによるNLテストケースの直接実行の可能性を広げている。本稿では,NLテストケースの無音性およびテストケース実行の整合性に焦点をあてて,この方向について検討する。 NLテストケースは、不明瞭な指示や予測不能なエージェントの振る舞いによって偽の失敗を生じる可能性があるため、本質的に不正確である。さらに、同じNLテストケースの繰り返し実行は、一貫性のない結果をもたらし、テスト信頼性を損なう可能性がある。これらの課題に対処するため、ガードレール機構を備えたNLテストケースの実行アルゴリズムと、各テストステップの正しい実行を動的に検証する特別化エージェントを提案する。テスト実行におけるLCMの能力を評価するための尺度と,実行一貫性の定量化のための尺度を導入する。本研究では,NLテストケースの実行が引き続き許容されるコンテキストを特徴付けるために,産業品質レベルであるシックスシグマについて弱い不協和性の定義を提案する。 3B から 70B のパラメータを含む 8 個の LLM を用いた実験により,GUI 試験における現在の LLM エージェントの可能性と限界を実証した。実験の結果,Meta Llama 3.1 70Bは高い実行一貫性(レベル3シグマ以上)でNLテストケースの実行を許容できる能力を示した。プロトタイプツール、テストスイート、結果を提供しています。

関連論文リスト

TestWeaver: Execution-aware, Feedback-driven Regression Testing Generation with Large Language Models [5.871736617580623]
回帰テストは、コードの変更が意図せずに既存の機能を壊さないようにする。大規模言語モデル(LLM)の最近の進歩は、回帰テストのためのテスト生成を自動化することを約束している。テスト生成をより効率的にガイドするために、軽量なプログラム分析を統合する新しいアプローチであるTestWeaverを提案する。
論文参考訳（メタデータ） (2025-08-02T08:13:02Z)
Automatic High-Level Test Case Generation using Large Language Models [1.8136446064778242]
主な課題は、テストスクリプトを書くのではなく、テスト作業とビジネス要件の整合性です。我々は、高レベルのテストケースを生成するためのトレーニング/ファインチューンモデルを構築するユースケースデータセットを構築した。当社の積極的なアプローチは要件テストのアライメントを強化し,早期テストケース生成を容易にする。
論文参考訳（メタデータ） (2025-03-23T09:14:41Z)
Toward Automated Validation of Language Model Synthesized Test Cases using Semantic Entropy [0.5057850174013127]
現代の大規模言語モデル(LLM)ベースのプログラミングエージェントは、しばしば、生成されたコードを洗練するためにテスト実行フィードバックに依存する。本稿では,LLMが生成したテストケースの自動検証にセマンティックエントロピーを利用する新しいフレームワークVALTESTを紹介する。 VALTESTはテストの妥当性を最大29%向上し、パス@1スコアの大幅な増加によって証明されたコード生成のパフォーマンスが向上することを示している。
論文参考訳（メタデータ） (2024-11-13T00:07:32Z)
SYNTHEVAL: Hybrid Behavioral Testing of NLP Models with Synthetic CheckLists [59.08999823652293]
我々は,NLPモデルの包括的評価のために,SyntheVALを提案する。最後の段階では、人間の専門家が困難な例を調査し、手動でテンプレートを設計し、タスク固有のモデルが一貫して示す障害の種類を特定します。我々は、感情分析と有害言語検出という2つの分類課題にSynTHEVALを適用し、これらの課題における強力なモデルの弱点を特定するのに、我々のフレームワークが有効であることを示す。
論文参考訳（メタデータ） (2024-08-30T17:41:30Z)
Large-scale, Independent and Comprehensive study of the power of LLMs for test case generation [11.517293765116307]
ユニットテストはソフトウェアの信頼性に不可欠だが、手動のテスト作成には時間がかかり、しばしば無視される。本研究は,LLM生成単体テストの大規模評価をクラスレベルで行った最初の大規模評価である。
論文参考訳（メタデータ） (2024-06-28T20:38:41Z)
Benchmarking Uncertainty Quantification Methods for Large Language Models with LM-Polygraph [83.90988015005934]
不確実性定量化は機械学習アプリケーションにおいて重要な要素である。最新のUQベースラインの集合を実装した新しいベンチマークを導入する。我々は、11タスクにわたるUQと正規化技術に関する大規模な実証的研究を行い、最も効果的なアプローチを特定した。
論文参考訳（メタデータ） (2024-06-21T20:06:31Z)
ALI-Agent: Assessing LLMs' Alignment with Human Values via Agent-based Evaluation [48.54271457765236]
大規模言語モデル(LLM)は、人間の価値観と不一致した場合、意図しない、有害なコンテンツも引き出すことができる。現在の評価ベンチマークでは、LLMが人的価値とどの程度うまく一致しているかを評価するために、専門家が設計した文脈シナリオが採用されている。本研究では, LLM エージェントの自律的能力を活用し, 奥行き及び適応的アライメント評価を行う評価フレームワーク ALI-Agent を提案する。
論文参考訳（メタデータ） (2024-05-23T02:57:42Z)
Effective Test Generation Using Pre-trained Large Language Models and Mutation Testing [13.743062498008555]
大規模言語モデル(LLM)が生成するテストケースの有効性を,バグの発見の観点から改善するための MuTAP を導入する。 MuTAPは、プログラム・アンダー・テスト(PUT)の自然言語記述がない場合に有効なテストケースを生成することができる提案手法は, 最大28%の人書きコードスニペットを検出できることを示す。
論文参考訳（メタデータ） (2023-08-31T08:48:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。