Fugu-MT 論文翻訳(概要): Improving LLM-Driven Test Generation by Learning from Mocking Information

論文の概要: Improving LLM-Driven Test Generation by Learning from Mocking Information

arxiv url: http://arxiv.org/abs/2604.19315v1
Date: Tue, 21 Apr 2026 10:24:26 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-22 22:41:49.722633
Title: Improving LLM-Driven Test Generation by Learning from Mocking Information
Title（参考訳）: モック情報からの学習によるLCM駆動テスト生成の改善
Authors: Jamie Lee, Flynn Teh, Hengcheng Zhu, Mengzhen Li, Mattia Fazzini, Valerio Terragni,
Abstract要約: MOCKMILLは開発者が書いたテストから自動的に抽出されたモック情報を利用してテストケースを生成する。 4つの大規模言語モデルを用いて6つのJavaプロジェクトから10のオープンソースクラスでMOCKMILLを評価した。
参考スコア（独自算出の注目度）: 3.7334264501860375
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) have recently shown strong potential for automated unit test generation. This has motivated us to investigate whether developer-defined test doubles (commonly referred to as mocks) available in existing test suites can be leveraged to improve LLM-driven test generation. To this end, we propose MOCKMILL, an LLM-based technique and tool that generates test cases by exploiting mocking information automatically extracted from developer-written tests. MOCKMILL targets components that are replaced by test doubles in existing tests and uses the encoded stubbings and interaction expectations to guide test generation, combined with an iterative generation-and-repair process to ensure executable tests. We evaluated MOCKMILL on 10 open-source classes from six Java projects using four LLMs, and compared the generated tests with existing project tests and tests produced by baseline approaches. The results show that MOCKMILL's tests cover lines of code and kill mutants that existing tests and baseline-generated tests miss. Overall, our findings provide preliminary evidence that leveraging mocking information is a complementary and effective way to enhance LLM-based test generation.
Abstract（参考訳）: 大規模言語モデル(LLM)は、最近、自動ユニットテスト生成の強い可能性を示している。これにより、開発者が定義したテストダブル(一般的にモックと呼ばれる)を既存のテストスイートで利用して、LCM駆動のテスト生成を改善することができるかどうかを調査する動機になりました。そこで本研究では,開発者によるテストから自動的に抽出されたモック情報を利用して,LLMに基づくテストケースを生成するMOCKMILLを提案する。 MOCKMILLは、既存のテストでテストダブルに置き換えられるコンポーネントをターゲットにしており、コード化されたスタブと相互作用期待を使ってテスト生成をガイドし、実行可能なテストを保証するために反復的な生成と再実行のプロセスを組み合わせている。 4つのLCMを用いて6つのJavaプロジェクトから10のオープンソースクラスでMOCKMILLを評価し、生成されたテストと既存のプロジェクトテストとベースラインアプローチによるテストを比較した。結果は、MOCKMILLのテストがコード行をカバーし、既存のテストやベースライン生成テストが見逃しているミュータントを殺すことを示している。以上の結果から,モック情報の活用がLCMベースのテスト生成の補完的かつ効果的な方法であることを示す予備的証拠が得られた。

関連論文リスト

Code-A1: Adversarial Evolving of Code LLM and Test LLM via Reinforcement Learning [54.95476453942411]
コード生成のための強化学習は、単体テストのパスレートから検証可能な報酬に依存する。最近のセルフプレイ手法は、1つのモデルでコードとテスト生成を統合する。 Code-A1は、人間のアノテーションによるテストでトレーニングされたコード生成のパフォーマンスマッチングまたはモデルを超えることを実現する。
論文参考訳（メタデータ） (2026-03-16T17:58:13Z)
LLMs for Automated Unit Test Generation and Assessment in Java: The AgoneTest Framework [2.501198441875755]
AgoneTestは、Javaにおける大規模言語モデル生成ユニットテストの評価フレームワークである。コンパイルされるテストのサブセットでは、LLMの生成したテストは、カバレッジと欠陥検出の点で、人間によるテストと一致またはオーバーすることができる。
論文参考訳（メタデータ） (2025-11-25T15:33:00Z)
ImpossibleBench: Measuring LLMs' Propensity of Exploiting Test Cases [58.411135609139855]
タスク完了のための「ショートカット」は、大規模言語モデルの信頼性評価と展開に重大なリスクをもたらす。我々は,LLMエージェントがテストケースを利用するための正当性を測定するベンチマークフレームワークであるImpossibleBenchを紹介する。実践的なフレームワークとして、ImpossibleBenchは単なる評価ではなく、汎用的なツールである。
論文参考訳（メタデータ） (2025-10-23T06:58:32Z)
ProjectTest: A Project-level LLM Unit Test Generation Benchmark and Impact of Error Fixing Mechanisms [48.43237545197775]
単体テスト生成はLLMの有望かつ重要なユースケースとなっている。 ProjectTestは、Python、Java、JavaScriptをカバーするユニットテスト生成のためのプロジェクトレベルのベンチマークである。
論文参考訳（メタデータ） (2025-02-10T15:24:30Z)
Test smells in LLM-Generated Unit Tests [16.061139428298986]
本稿では, LLM 生成単体試験におけるテスト臭拡散の大規模解析法として, マルチベンチマークを初めて提案する。本研究では,4つのLCM(GPT-3.5,GPT-4,Mistral 7B,Mixtral 8x7B)から20,505のクラスレベルスイート,TestBenchから972のメソッドレベルケース,14,469のEvoSuiteテスト,34,635のオープンソースJavaプロジェクトから779,585の人書きテストについて検討した。
論文参考訳（メタデータ） (2024-10-14T15:35:44Z)
Large Language Models as Test Case Generators: Performance Evaluation and Enhancement [3.5398126682962587]
大規模言語モデルが高品質なテストケースをいかに生み出すかを検討する。本稿では,テストインプットとテストアウトプットの生成を分離するemphTestChainというマルチエージェントフレームワークを提案する。以上の結果から,TestChainはベースラインのマージンを大きく上回っていることが示唆された。
論文参考訳（メタデータ） (2024-04-20T10:27:01Z)
Code-Aware Prompting: A study of Coverage Guided Test Generation in Regression Setting using LLM [32.44432906540792]
テスト生成における大規模言語モデルのコード認識促進戦略であるSymPromptを提案する。 SymPromptは、正しいテスト世代を5倍に増やし、CodeGen2の相対カバレッジを26%向上させる。特に、GPT-4に適用すると、SymPromptはベースラインのプロンプト戦略に比べて2倍以上のカバレッジが向上する。
論文参考訳（メタデータ） (2024-01-31T18:21:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。