論文の概要: FeedbackLLM: Metadata driven Multi-Agentic Language Agnostic Test Case Generator with Evolving prompt and Coverage Feedback
- arxiv url: http://arxiv.org/abs/2605.01264v1
- Date: Sat, 02 May 2026 05:43:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.674994
- Title: FeedbackLLM: Metadata driven Multi-Agentic Language Agnostic Test Case Generator with Evolving prompt and Coverage Feedback
- Title(参考訳): FeedbackLLM: 進化的プロンプトと被覆フィードバックを用いたメタデータ駆動多言語テストケースジェネレータ
- Authors: Kushal Jasti, Tejamani Prashanth Sahu, Rishitha Pentyala, Muvvala Mohit, Vivek Yelleti,
- Abstract要約: テストケース生成に対する従来のアプローチは、しばしば手作業と計算オーバーヘッドの増大を伴う。
We propose FeedbackLLM, a novel language-agnostic test case generation framework based on tightly coupled two-stage approach。
提案アーキテクチャの性能は,CプログラムとPythonプログラムに関連する標準ベンチマークプログラムで評価される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Traditional approaches to test case generation often involve manual effort and incur significant computational overhead. Additionally, these approaches are not scalable, and hence, unsuitable for complex software systems. Recently, Large Language Models (LLMs) have been applied to software testing. However, single-shot prompt engineering-based approaches tend to hallucinate and generate redundant test cases, resulting in fewer branches. To handle the above-mentioned limitations, in this paper, we propose FeedbackLLM, a novel automated language-agnostic test case generation framework based on tightly coupled two-stage approach. In the first stage, FeedbackLLM extracts the input constraints by parsing source code and generates the possible test cases. The quality of the test cases is evaluated in the second stage by the following two specialized LLM feedback agents: (i) Line Feedback Agent: extracts the metadata related to missed line executions and (ii) Branch Feedback Agent: extracts the metadata of the unexecuted branch conditions. The above agents operate in a two-stage process, communicating in tandem, and this procedure is repeated for k-steps. Further, we also introduced a redundancy prevention cache to avoid duplicate API requests and avoid unnecessary execution cycles. The performance of the proposed architecture is evaluated on the standard benchmark programs related to C and Python programs. FeedbackLLM demonstrated more line and branch coverage than baseline tools while scaling linearly in execution time.
- Abstract(参考訳): テストケース生成に対する従来のアプローチは、しばしば手作業と計算オーバーヘッドの増大を伴う。
さらに、これらのアプローチはスケーラブルではないため、複雑なソフトウェアシステムには適さない。
近年,大規模言語モデル (LLM) がソフトウェアテストに適用されている。
しかしながら、シングルショットプロンプトエンジニアリングベースのアプローチは、冗長なテストケースを幻覚し、生成する傾向があり、結果としてブランチが少なくなる。
本稿では,この制約に対処するために,厳密に結合された2段階アプローチに基づく,言語に依存しない新しい自動テストケース生成フレームワークであるFeedbackLLMを提案する。
最初の段階で、FeedbackLLMはソースコードを解析して入力制約を抽出し、可能なテストケースを生成する。
テストケースの品質は以下の2つの特殊なLSMフィードバックエージェントによって第2段階で評価される。
(i)行フィードバックエージェント:失敗した行の実行に関連するメタデータを抽出し、
(ii)ブランチフィードバックエージェント:実行されていないブランチ条件のメタデータを抽出する。
上記のエージェントは2段階のプロセスで動作し、タンデムで通信し、この手順はkステップで繰り返される。
さらに、重複するAPI要求を回避し、不要な実行サイクルを回避するために冗長性防止キャッシュを導入しました。
提案アーキテクチャの性能は,CプログラムとPythonプログラムに関連する標準ベンチマークプログラムで評価される。
FeedbackLLMは、実行時に線形にスケーリングしながら、ベースラインツールよりもラインとブランチのカバレッジを示した。
関連論文リスト
- LiveFMBench: Unveiling the Power and Limits of Agentic Workflows in Specification Generation [75.05397479715576]
大規模言語モデル(LLM)とエージェントは有望な進歩を示しているが、その真の能力と失敗モードは未だ不明である。
CプログラムのためのLCMおよびエージェントベースの形式仕様生成に関する、最初の体系的および汚染に配慮した研究を提案する。
論文 参考訳(メタデータ) (2026-05-02T11:31:33Z) - An Agentic Evaluation Framework for AI-Generated Scientific Code in PETSc [7.236134946837382]
petscagent-benchはエージェント評価エージェントのパラダイムに基づいて構築されたエージェントフレームワークである。
正確性、パフォーマンス、コード品質、アルゴリズムの適切性、ライブラリ固有の規約の5つの評価カテゴリで14評価パイプラインを編成する。
本フレームワークは,HPC用PETScライブラリを用いて,現実的な問題のベンチマークスイート上で実演する。
論文 参考訳(メタデータ) (2026-03-16T22:46:10Z) - AgentProcessBench: Diagnosing Step-Level Process Quality in Tool-Using Agents [50.481033105867205]
我々はAgentProcessBenchを紹介した。AgentProcessBenchは、現実的なツール拡張トラジェクトリにおけるステップレベルの有効性を評価するための最初のベンチマークである。
ベンチマークは、1,000の多様な軌跡と8,509の人間ラベル付きステップアノテーションと89.1%のアノテーション間合意で構成されている。
探索をキャプチャする3つのラベリングスキームと、ラベルのあいまいさを減らすためのエラー伝搬ルールを備えている。
論文 参考訳(メタデータ) (2026-03-15T16:13:58Z) - Enhancing LLM-Based Test Generation by Eliminating Covered Code [2.2566909388480743]
大規模言語モデル(LLM)は、テスト生成を改善することを約束している。
スケーラブルなLLMベースの単体テスト生成法を提案する。
提案手法は,最先端のLCM法および検索法より優れている。
論文 参考訳(メタデータ) (2026-02-25T15:16:43Z) - Scaling Agentic Verifier for Competitive Coding [66.11758166379092]
大規模言語モデル(LLM)は強力なコーディング能力を示しているが、1回の試行で競合するプログラミング問題を正しく解くのに苦戦している。
実行ベースの再ランク付けは、有望なテスト時間スケーリング戦略を提供するが、既存のメソッドは、難しいテストケースの生成または非効率的なランダム入力サンプリングによって制約される。
本稿では,プログラムの動作を積極的に推論し,高い差別性のあるテスト入力を検索するエージェント検証手法を提案する。
論文 参考訳(メタデータ) (2026-02-04T06:30:40Z) - A Benchmark for Procedural Memory Retrieval in Language Agents [0.023227405857540805]
現在のAIエージェントは、慣れ親しんだ設定で優れていますが、目に見えないProcで新しいタスクに直面したとき、急激に失敗します。
タスク実行から手続き的メモリ検索を分離する最初のベンチマークを示す。
埋め込み型手法は、慣れ親しんだ文脈で強く機能するが、新規な手法では著しく劣化する。
論文 参考訳(メタデータ) (2025-11-21T08:08:53Z) - Taming Imperfect Process Verifiers: A Sampling Perspective on Backtracking [54.43083499412643]
言語モデルの生成能力をプロセス検証器と組み合わせたテストタイムアルゴリズムは、新しい推論能力を引き出すための有望なレバーを提供する。
提案手法は, 理論的に根拠付きバックトラックを用いて, 検証誤差に対して, 確実な堅牢性を実現するための新しいプロセス誘導型テスト時間サンプリングアルゴリズムであるVGBを導入する。
論文 参考訳(メタデータ) (2025-10-03T16:21:14Z) - TestWeaver: Execution-aware, Feedback-driven Regression Testing Generation with Large Language Models [5.871736617580623]
回帰テストは、コードの変更が意図せずに既存の機能を壊さないようにする。
大規模言語モデル(LLM)の最近の進歩は、回帰テストのためのテスト生成を自動化することを約束している。
テスト生成をより効率的にガイドするために、軽量なプログラム分析を統合する新しいアプローチであるTestWeaverを提案する。
論文 参考訳(メタデータ) (2025-08-02T08:13:02Z) - Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。
実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文 参考訳(メタデータ) (2025-05-28T17:57:47Z) - Tractable Offline Learning of Regular Decision Processes [50.11277112628193]
この研究は、正則決定過程(RDP)と呼ばれる非マルコフ環境のクラスにおけるオフライン強化学習(RL)を研究する。
インスは、未来の観測と過去の相互作用からの報酬の未知の依存を実験的に捉えることができる。
多くのアルゴリズムは、まずこの未知の依存関係を自動学習技術を用いて再構築する。
論文 参考訳(メタデータ) (2024-09-04T14:26:58Z) - Code-Aware Prompting: A study of Coverage Guided Test Generation in Regression Setting using LLM [32.44432906540792]
テスト生成における大規模言語モデルのコード認識促進戦略であるSymPromptを提案する。
SymPromptは、正しいテスト世代を5倍に増やし、CodeGen2の相対カバレッジを26%向上させる。
特に、GPT-4に適用すると、SymPromptはベースラインのプロンプト戦略に比べて2倍以上のカバレッジが向上する。
論文 参考訳(メタデータ) (2024-01-31T18:21:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。