Fugu-MT 論文翻訳(概要): Code-Aware Prompting: A study of Coverage Guided Test Generation in Regression Setting using LLM

論文の概要: Code-Aware Prompting: A study of Coverage Guided Test Generation in Regression Setting using LLM

arxiv url: http://arxiv.org/abs/2402.00097v1
Date: Wed, 31 Jan 2024 18:21:49 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-02 17:52:15.774311
Title: Code-Aware Prompting: A study of Coverage Guided Test Generation in Regression Setting using LLM
Title（参考訳）: Code-Aware Prompting:LLMを用いた回帰設定におけるカバーガイドテスト生成の検討
Authors: Gabriel Ryan, Siddhartha Jain, Mingyue Shang, Shiqi Wang, Xiaofei Ma, Murali Krishna Ramanathan, Baishakhi Ray
Abstract要約: テスト生成における大規模言語モデルのコード認識促進戦略であるSymPromptを提案する。我々のアプローチは、事前訓練されたLLMが、追加の訓練をすることなく、より完全なテストケースを生成することを可能にする。
参考スコア（独自算出の注目度）: 34.07127332725332
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Testing plays a pivotal role in ensuring software quality, yet conventional Search Based Software Testing (SBST) methods often struggle with complex software units, achieving suboptimal test coverage. Recent work using large language models (LLMs) for test generation have focused on improving generation quality through optimizing the test generation context and correcting errors in model outputs, but use fixed prompting strategies that prompt the model to generate tests without additional guidance. As a result LLM-generated test suites still suffer from low coverage. In this paper, we present SymPrompt, a code-aware prompting strategy for LLMs in test generation. SymPrompt's approach is based on recent work that demonstrates LLMs can solve more complex logical problems when prompted to reason about the problem in a multi-step fashion. We apply this methodology to test generation by deconstructing the testsuite generation process into a multi-stage sequence, each of which is driven by a specific prompt aligned with the execution paths of the method under test, and exposing relevant type and dependency focal context to the model. Our approach enables pretrained LLMs to generate more complete test cases without any additional training. We implement SymPrompt using the TreeSitter parsing framework and evaluate on a benchmark challenging methods from open source Python projects. SymPrompt enhances correct test generations by a factor of 5 and bolsters relative coverage by 26% for CodeGen2. Notably, when applied to GPT-4, symbolic path prompts improve coverage by over 2x compared to baseline prompting strategies.
Abstract（参考訳）: テストはソフトウェアの品質を確保する上で重要な役割を果たすが、従来のsbst(search based software testing)メソッドは複雑なソフトウェアユニットで苦労し、準最適テストカバレッジを達成する。テスト生成に大規模な言語モデル(llms)を使用する最近の研究は、テスト生成コンテキストを最適化し、モデル出力のエラーを訂正することで、生成品質を改善することに重点を置いている。その結果、LLM生成テストスイートは、まだ低カバレッジに悩まされている。本稿では,テスト生成におけるLLMのコード認識促進戦略であるSymPromptを提案する。 SymPrompt のアプローチは、LLM がより複雑な論理的問題を、多段階的な推論によって解けることを示す最近の研究に基づいている。この手法をテスト生成に適用し、テストスイート生成プロセスを多段階のシーケンスに分解し、それぞれがテスト対象のメソッドの実行パスに合わせた特定のプロンプトによって駆動され、関連する型と依存関係の焦点コンテキストをモデルに暴露する。我々のアプローチは、事前訓練されたLLMが追加の訓練をすることなく、より完全なテストケースを生成することを可能にする。我々はtreesitterパースフレームワークを使ってsympromptを実装し,オープンソースpythonプロジェクトのベンチマーク課題メソッドを評価した。 SymPromptは、正しいテスト世代を5倍に増やし、CodeGen2の相対カバレッジを26%向上させる。特に、GPT-4に適用すると、シンボリックパスはベースラインのプロンプト戦略に比べて2倍以上のカバレッジを向上させる。

関連論文リスト

Enhancing LLM-Based Test Generation by Eliminating Covered Code [2.2566909388480743]
大規模言語モデル(LLM)は、テスト生成を改善することを約束している。スケーラブルなLLMベースの単体テスト生成法を提案する。提案手法は,最先端のLCM法および検索法より優れている。
論文参考訳（メタデータ） (2026-02-25T15:16:43Z)
Automated Test Suite Enhancement Using Large Language Models with Few-shot Prompting [0.0]
単体テストは、コードモジュールの機能的正当性を検証するのに不可欠である。検索ベースのソフトウェアテスト(SBST)、可読性、自然性、実用的なユーザビリティの欠如など、従来のアプローチを採用したツールによって生成されたユニットテスト。ソフトウェアリポジトリには、人間によるテスト、LLMで生成されたテスト、SBSTのような従来のアプローチを使ったツールが混在している。
論文参考訳（メタデータ） (2026-02-12T18:42:49Z)
ATGen: Adversarial Reinforcement Learning for Test Case Generation [78.48498301767079]
大きな言語モデル(LLM)はコード生成に優れていますが、その出力には微妙なバグが伴います。既存のテスト生成方法は静的データセットに依存している。我々は,対戦型強化学習を通じてテストケースジェネレータを訓練するフレームワークであるATGenを紹介する。
論文参考訳（メタデータ） (2025-10-16T12:49:25Z)
Rethinking Testing for LLM Applications: Characteristics, Challenges, and a Lightweight Interaction Protocol [83.83217247686402]
大言語モデル(LLM)は、単純なテキストジェネレータから、検索強化、ツール呼び出し、マルチターンインタラクションを統合する複雑なソフトウェアシステムへと進化してきた。その固有の非決定主義、ダイナミズム、文脈依存は品質保証に根本的な課題をもたらす。本稿では,LLMアプリケーションを3層アーキテクチャに分解する: textbftextitSystem Shell Layer, textbftextitPrompt Orchestration Layer, textbftextitLLM Inference Core。
論文参考訳（メタデータ） (2025-08-28T13:00:28Z)
Alignment with Fill-In-the-Middle for Enhancing Code Generation [56.791415642365415]
コードスニペットを小さな粒度のブロックに分割し,同じテストケースからより多様なDPOペアを生成する手法を提案する。提案手法は,HumanEval (+), MBPP (+), APPS, LiveCodeBench, BigCodeBenchといったベンチマークデータセットの実験によって検証された,コード生成タスクの大幅な改善を示す。
論文参考訳（メタデータ） (2025-08-27T03:15:53Z)
TestWeaver: Execution-aware, Feedback-driven Regression Testing Generation with Large Language Models [5.871736617580623]
回帰テストは、コードの変更が意図せずに既存の機能を壊さないようにする。大規模言語モデル(LLM)の最近の進歩は、回帰テストのためのテスト生成を自動化することを約束している。テスト生成をより効率的にガイドするために、軽量なプログラム分析を統合する新しいアプローチであるTestWeaverを提案する。
論文参考訳（メタデータ） (2025-08-02T08:13:02Z)
Boosting Rust Unit Test Coverage through Hybrid Program Analysis and Large Language Models [14.536415473544146]
本稿では,大規模言語モデル(LLM)を活用して高カバレッジ単体テストを生成する手法であるPALMを提案する。 PALMはプログラム解析を行い、関数内の分岐条件を特定し、それを経路制約に結合する。このアプローチを実装し、それを10のオープンソースのRustクラッドで評価します。
論文参考訳（メタデータ） (2025-06-10T17:21:21Z)
Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文参考訳（メタデータ） (2025-05-28T17:57:47Z)
TestForge: Feedback-Driven, Agentic Test Suite Generation [7.288137795439405]
TestForgeは、現実世界のコードのための高品質なテストスイートをコスト効率よく生成するように設計されたエージェントユニットテスティングフレームワークである。 TestForgeは、最先端の検索ベースの技術と比較して、より自然で理解しやすいテストを生成する。
論文参考訳（メタデータ） (2025-03-18T20:21:44Z)
Token-Level Density-Based Uncertainty Quantification Methods for Eliciting Truthfulness of Large Language Models [76.17975723711886]
不確実性定量化(英: Uncertainty Quantification、UQ)は、大規模言語モデル(LLM)から真正性を求めるための顕著なアプローチである。本研究では,テキスト生成のために,分類タスクのUQ技術であるMahalanobis Distance (MD)を適用した。提案手法は,複数レイヤのLCMからトークン埋め込みを抽出し,各トークンのMDスコアを計算し,これらの特徴を訓練した線形回帰を用いてロバストな不確実性スコアを提供する。
論文参考訳（メタデータ） (2025-02-20T10:25:13Z)
Test Wars: A Comparative Study of SBST, Symbolic Execution, and LLM-Based Approaches to Unit Test Generation [11.037212298533069]
大規模言語モデル(LLM)は、自動テストを生成する新しい機会を開いた。本稿では,SBSTのEvoSuite,シンボル実行のKex,LLMベースのテスト生成のTestSparkという3つのツールを用いた自動テスト生成手法について検討する。以上の結果から,LSMベースのテスト生成は有望であるが,従来の手法には及ばないことがわかった。
論文参考訳（メタデータ） (2025-01-17T13:48:32Z)
AIME: AI System Optimization via Multiple LLM Evaluators [79.03422337674664]
AIME は複数の LLM を利用した評価プロトコルであり、それぞれが独立した基準で評価を生成し、結合を通してそれらを結合する。コード生成タスクにおける AIME のベースラインメソッドのパフォーマンスは,LeetCodeHard と HumanEval データセットの単一 LLM 評価プロトコルよりも最大 62% 高いエラー検出率,最大 16% 高い成功率で向上している。
論文参考訳（メタデータ） (2024-10-04T04:03:24Z)
TestBench: Evaluating Class-Level Test Case Generation Capability of Large Language Models [8.22619177301814]
クラスレベルのLLMベースのテストケース生成のためのベンチマークであるTestBenchを紹介する。 GitHub上の9つの実世界の大規模プロジェクトから108のJavaプログラムのデータセットを構築します。本稿では,構文的正当性,コンパイル的正当性,テスト的正当性,コードカバレッジ率,欠陥検出率という,テストケースの5つの側面を考慮した詳細な評価フレームワークを提案する。
論文参考訳（メタデータ） (2024-09-26T06:18:06Z)
SYNTHEVAL: Hybrid Behavioral Testing of NLP Models with Synthetic CheckLists [59.08999823652293]
我々は,NLPモデルの包括的評価のために,SyntheVALを提案する。最後の段階では、人間の専門家が困難な例を調査し、手動でテンプレートを設計し、タスク固有のモデルが一貫して示す障害の種類を特定します。我々は、感情分析と有害言語検出という2つの分類課題にSynTHEVALを適用し、これらの課題における強力なモデルの弱点を特定するのに、我々のフレームワークが有効であることを示す。
論文参考訳（メタデータ） (2024-08-30T17:41:30Z)
HITS: High-coverage LLM-based Unit Test Generation via Method Slicing [37.43624865049592]
大規模言語モデル(LLM)は、Javaプロジェクトの単体テストの生成においてうまく振る舞っている。しかし、プロジェクト内の複雑な焦点メソッドをカバーするパフォーマンスは貧弱である。そこで本研究では, 焦点メソッドをスライスに分解し, LLMに対してスライス毎にテストケーススライスを生成することを提案する。
論文参考訳（メタデータ） (2024-08-21T04:14:26Z)
Improving LLM-based Unit test generation via Template-based Repair [8.22619177301814]
単体テストは個々のプログラムユニットのバグを検出するのに不可欠だが、時間と労力を消費する。大規模言語モデル(LLM)は、顕著な推論と生成能力を示している。本稿では,新しい単体テスト生成法であるTestARTを提案する。
論文参考訳（メタデータ） (2024-08-06T10:52:41Z)
Large-scale, Independent and Comprehensive study of the power of LLMs for test case generation [11.056044348209483]
クラスやメソッドなどのコードモジュールのバグを特定するのに不可欠なユニットテストは、時間的制約のため、開発者によって無視されることが多い。 GPTやMistralのようなLarge Language Models (LLM)は、テスト生成を含むソフトウェア工学における約束を示す。
論文参考訳（メタデータ） (2024-06-28T20:38:41Z)
Benchmarking Uncertainty Quantification Methods for Large Language Models with LM-Polygraph [83.90988015005934]
不確実性定量化(英: Uncertainty Quantification、UQ)は、機械学習(ML)アプリケーションにおいて重要なコンポーネントである。最新のUQベースラインの集合を実装した新しいベンチマークを導入する。我々は、9つのタスクにわたるUQと正規化技術に関する大規模な実証的研究を行い、最も有望なアプローチを特定した。
論文参考訳（メタデータ） (2024-06-21T20:06:31Z)
Test-Time Training on Graphs with Large Language Models (LLMs) [68.375487369596]
グラフニューラルネットワーク(GNN)をトレーニングするための有望なアプローチとして,TTT(Test-Time Training)が提案されている。テキスト分散グラフ(TAG)上でのLLM(Large Language Models)の優れたアノテーション能力に着想を得て,LLMをアノテータとしてグラフ上でのテスト時間トレーニングを強化することを提案する。 2段階のトレーニング戦略は、限定的でノイズの多いラベルでテストタイムモデルを調整するように設計されている。
論文参考訳（メタデータ） (2024-04-21T08:20:02Z)
Large Language Models as Test Case Generators: Performance Evaluation and Enhancement [3.5398126682962587]
大規模言語モデルが高品質なテストケースをいかに生み出すかを検討する。本稿では,テストインプットとテストアウトプットの生成を分離するemphTestChainというマルチエージェントフレームワークを提案する。以上の結果から,TestChainはベースラインのマージンを大きく上回っていることが示唆された。
論文参考訳（メタデータ） (2024-04-20T10:27:01Z)
StepCoder: Improve Code Generation with Reinforcement Learning from Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。 CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。 FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文参考訳（メタデータ） (2024-02-02T13:14:31Z)
Text Generation with Efficient (Soft) Q-Learning [91.47743595382758]
強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を導入する。雑音/負の例から学習し、敵攻撃、即時生成など、幅広いタスクにアプローチを適用する。
論文参考訳（メタデータ） (2021-06-14T18:48:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。