論文の概要: TAM-Eval: Evaluating LLMs for Automated Unit Test Maintenance
- arxiv url: http://arxiv.org/abs/2601.18241v1
- Date: Mon, 26 Jan 2026 07:47:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.726685
- Title: TAM-Eval: Evaluating LLMs for Automated Unit Test Maintenance
- Title(参考訳): TAM-Eval:自動単体テスト保守のためのLCMの評価
- Authors: Elena Bruches, Vadim Alperovich, Dari Baturova, Roman Derunets, Daniil Grebenkin, Georgy Mkrtchyan, Oleg Sedukhin, Mikhail Klementev, Ivan Bondarenko, Nikolay Bushkov, Stanislav Moiseev,
- Abstract要約: TAM-Evalは、3つのコアテストメンテナンスシナリオにわたるモデルパフォーマンスを評価するフレームワークである。
ベンチマークでは、Python、Java、Goプロジェクトのシナリオを自動的に抽出し、検証します。
我々は,自動ソフトウェアテストの今後の研究を支援するオープンソースフレームワークとして,TAM-Evalをリリースした。
- 参考スコア(独自算出の注目度): 1.4341136505032424
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Large Language Models (LLMs) have shown promise in software engineering, their application to unit testing remains largely confined to isolated test generation or oracle prediction, neglecting the broader challenge of test suite maintenance. We introduce TAM-Eval (Test Automated Maintenance Evaluation), a framework and benchmark designed to evaluate model performance across three core test maintenance scenarios: creation, repair, and updating of test suites. Unlike prior work limited to function-level tasks, TAM-Eval operates at the test file level, while maintaining access to full repository context during isolated evaluation, better reflecting real-world maintenance workflows. Our benchmark comprises 1,539 automatically extracted and validated scenarios from Python, Java, and Go projects. TAM-Eval supports system-agnostic evaluation of both raw LLMs and agentic workflows, using a reference-free protocol based on test suite pass rate, code coverage, and mutation testing. Empirical results indicate that state-of-the-art LLMs have limited capabilities in realistic test maintenance processes and yield only marginal improvements in test effectiveness. We release TAM-Eval as an open-source framework to support future research in automated software testing. Our data and code are publicly available at https://github.com/trndcenter/TAM-Eval.
- Abstract(参考訳): 大規模言語モデル(LLM)はソフトウェア工学において有望であるが、ユニットテストへの応用は独立したテスト生成やオラクル予測に限られており、テストスイートの保守というより広範な課題を無視している。
TAM-Eval(Test Automated maintenance Evaluation)は,テストスイートの生成,修復,更新という,3つのテストメンテナンスシナリオにおけるモデルパフォーマンスの評価を目的とした,フレームワークとベンチマークである。
関数レベルのタスクに限定された以前の作業とは異なり、TAM-Evalはテストファイルレベルで動作し、独立した評価中に完全なリポジトリコンテキストへのアクセスを維持し、現実のメンテナンスワークフローをより良く反映する。
ベンチマークでは、Python、Java、Goプロジェクトのシナリオを自動的に抽出し、検証します。
TAM-Evalは、テストスイートのパスレート、コードカバレッジ、突然変異テストに基づく参照なしプロトコルを使用して、生のLLMとエージェントワークフローの両方のシステムに依存しない評価をサポートする。
実験結果から, 現状のLLMは, 現実的なテスト保守プロセスにおいて限られた能力を有し, 試験効率の限界改善しか得られないことが示唆された。
我々は,自動ソフトウェアテストの今後の研究を支援するオープンソースフレームワークとして,TAM-Evalをリリースした。
私たちのデータとコードはhttps://github.com/trndcenter/TAM-Eval.comで公開されています。
関連論文リスト
- LLMs for Automated Unit Test Generation and Assessment in Java: The AgoneTest Framework [2.501198441875755]
AgoneTestは、Javaにおける大規模言語モデル生成ユニットテストの評価フレームワークである。
コンパイルされるテストのサブセットでは、LLMの生成したテストは、カバレッジと欠陥検出の点で、人間によるテストと一致またはオーバーすることができる。
論文 参考訳(メタデータ) (2025-11-25T15:33:00Z) - MCPEval: Automatic MCP-based Deep Evaluation for AI Agent Models [76.72220653705679]
我々は、エンドツーエンドタスク生成とインテリジェントエージェントの深い評価を自動化するオープンソースのフレームワークであるMCPEvalを紹介する。
MCPEvalはメトリクスを標準化し、ネイティブエージェントツールとシームレスに統合し、評価パイプラインを構築するための手作業を排除する。
実世界の5つのドメインにまたがる実証的な結果から、ニュアンスのある、ドメイン固有のパフォーマンスを明らかにする効果が示された。
論文 参考訳(メタデータ) (2025-07-17T05:46:27Z) - TestForge: Feedback-Driven, Agentic Test Suite Generation [7.288137795439405]
TestForgeは、現実世界のコードのための高品質なテストスイートをコスト効率よく生成するように設計されたエージェントユニットテスティングフレームワークである。
TestForgeは、最先端の検索ベースの技術と比較して、より自然で理解しやすいテストを生成する。
論文 参考訳(メタデータ) (2025-03-18T20:21:44Z) - ProjectTest: A Project-level LLM Unit Test Generation Benchmark and Impact of Error Fixing Mechanisms [48.43237545197775]
単体テスト生成はLLMの有望かつ重要なユースケースとなっている。
ProjectTestは、Python、Java、JavaScriptをカバーするユニットテスト生成のためのプロジェクトレベルのベンチマークである。
論文 参考訳(メタデータ) (2025-02-10T15:24:30Z) - AutoPT: How Far Are We from the End2End Automated Web Penetration Testing? [54.65079443902714]
LLMによって駆動されるPSMの原理に基づく自動浸透試験エージェントであるAutoPTを紹介する。
以上の結果から, AutoPT は GPT-4o ミニモデル上でのベースラインフレームワーク ReAct よりも優れていた。
論文 参考訳(メタデータ) (2024-11-02T13:24:30Z) - A System for Automated Unit Test Generation Using Large Language Models and Assessment of Generated Test Suites [1.4563527353943984]
大規模言語モデル(LLM)はソフトウェア開発の様々な側面に適用されている。
Javaプロジェクトのテストスイートを生成する自動化システムであるAgoneTestを紹介します。
論文 参考訳(メタデータ) (2024-08-14T23:02:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。