論文の概要: TAM-Eval: Evaluating LLMs for Automated Unit Test Maintenance
- arxiv url: http://arxiv.org/abs/2601.18241v1
- Date: Mon, 26 Jan 2026 07:47:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.726685
- Title: TAM-Eval: Evaluating LLMs for Automated Unit Test Maintenance
- Title(参考訳): TAM-Eval:自動単体テスト保守のためのLCMの評価
- Authors: Elena Bruches, Vadim Alperovich, Dari Baturova, Roman Derunets, Daniil Grebenkin, Georgy Mkrtchyan, Oleg Sedukhin, Mikhail Klementev, Ivan Bondarenko, Nikolay Bushkov, Stanislav Moiseev,
- Abstract要約: TAM-Evalは、3つのコアテストメンテナンスシナリオにわたるモデルパフォーマンスを評価するフレームワークである。
ベンチマークでは、Python、Java、Goプロジェクトのシナリオを自動的に抽出し、検証します。
我々は,自動ソフトウェアテストの今後の研究を支援するオープンソースフレームワークとして,TAM-Evalをリリースした。
- 参考スコア(独自算出の注目度): 1.4341136505032424
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Large Language Models (LLMs) have shown promise in software engineering, their application to unit testing remains largely confined to isolated test generation or oracle prediction, neglecting the broader challenge of test suite maintenance. We introduce TAM-Eval (Test Automated Maintenance Evaluation), a framework and benchmark designed to evaluate model performance across three core test maintenance scenarios: creation, repair, and updating of test suites. Unlike prior work limited to function-level tasks, TAM-Eval operates at the test file level, while maintaining access to full repository context during isolated evaluation, better reflecting real-world maintenance workflows. Our benchmark comprises 1,539 automatically extracted and validated scenarios from Python, Java, and Go projects. TAM-Eval supports system-agnostic evaluation of both raw LLMs and agentic workflows, using a reference-free protocol based on test suite pass rate, code coverage, and mutation testing. Empirical results indicate that state-of-the-art LLMs have limited capabilities in realistic test maintenance processes and yield only marginal improvements in test effectiveness. We release TAM-Eval as an open-source framework to support future research in automated software testing. Our data and code are publicly available at https://github.com/trndcenter/TAM-Eval.
- Abstract(参考訳): 大規模言語モデル(LLM)はソフトウェア工学において有望であるが、ユニットテストへの応用は独立したテスト生成やオラクル予測に限られており、テストスイートの保守というより広範な課題を無視している。
TAM-Eval(Test Automated maintenance Evaluation)は,テストスイートの生成,修復,更新という,3つのテストメンテナンスシナリオにおけるモデルパフォーマンスの評価を目的とした,フレームワークとベンチマークである。
関数レベルのタスクに限定された以前の作業とは異なり、TAM-Evalはテストファイルレベルで動作し、独立した評価中に完全なリポジトリコンテキストへのアクセスを維持し、現実のメンテナンスワークフローをより良く反映する。
ベンチマークでは、Python、Java、Goプロジェクトのシナリオを自動的に抽出し、検証します。
TAM-Evalは、テストスイートのパスレート、コードカバレッジ、突然変異テストに基づく参照なしプロトコルを使用して、生のLLMとエージェントワークフローの両方のシステムに依存しない評価をサポートする。
実験結果から, 現状のLLMは, 現実的なテスト保守プロセスにおいて限られた能力を有し, 試験効率の限界改善しか得られないことが示唆された。
我々は,自動ソフトウェアテストの今後の研究を支援するオープンソースフレームワークとして,TAM-Evalをリリースした。
私たちのデータとコードはhttps://github.com/trndcenter/TAM-Eval.comで公開されています。
関連論文リスト
- LLMs for Automated Unit Test Generation and Assessment in Java: The AgoneTest Framework [2.501198441875755]
AgoneTestは、Javaにおける大規模言語モデル生成ユニットテストの評価フレームワークである。
コンパイルされるテストのサブセットでは、LLMの生成したテストは、カバレッジと欠陥検出の点で、人間によるテストと一致またはオーバーすることができる。
論文 参考訳(メタデータ) (2025-11-25T15:33:00Z) - Unit Test Update through LLM-Driven Context Collection and Error-Type-Aware Refinement [5.8748750353007635]
テストのメンテナンス方法は、主に壊れたテストの修復に焦点を当て、新しい機能を検証するために既存のテストを強化するシナリオを無視します。
実運用コードの変更に応じて、ジャスト・イン・タイムの自動テスト更新を可能にする新しいアプローチであるTESTUPDATERを提案する。
TestUPDATERは94.4%のコンパイルパス率と86.7%のテストパス率を達成し、それぞれ最先端のSYTERを15.9%と20.0%で上回っている。
論文 参考訳(メタデータ) (2025-09-29T08:08:22Z) - MCPEval: Automatic MCP-based Deep Evaluation for AI Agent Models [76.72220653705679]
我々は、エンドツーエンドタスク生成とインテリジェントエージェントの深い評価を自動化するオープンソースのフレームワークであるMCPEvalを紹介する。
MCPEvalはメトリクスを標準化し、ネイティブエージェントツールとシームレスに統合し、評価パイプラインを構築するための手作業を排除する。
実世界の5つのドメインにまたがる実証的な結果から、ニュアンスのある、ドメイン固有のパフォーマンスを明らかにする効果が示された。
論文 参考訳(メタデータ) (2025-07-17T05:46:27Z) - Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。
実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文 参考訳(メタデータ) (2025-05-28T17:57:47Z) - TestForge: Feedback-Driven, Agentic Test Suite Generation [7.288137795439405]
TestForgeは、現実世界のコードのための高品質なテストスイートをコスト効率よく生成するように設計されたエージェントユニットテスティングフレームワークである。
TestForgeは、最先端の検索ベースの技術と比較して、より自然で理解しやすいテストを生成する。
論文 参考訳(メタデータ) (2025-03-18T20:21:44Z) - ProjectTest: A Project-level LLM Unit Test Generation Benchmark and Impact of Error Fixing Mechanisms [48.43237545197775]
単体テスト生成はLLMの有望かつ重要なユースケースとなっている。
ProjectTestは、Python、Java、JavaScriptをカバーするユニットテスト生成のためのプロジェクトレベルのベンチマークである。
論文 参考訳(メタデータ) (2025-02-10T15:24:30Z) - Commit0: Library Generation from Scratch [77.38414688148006]
Commit0は、AIエージェントにスクラッチからライブラリを書くよう促すベンチマークである。
エージェントには、ライブラリのAPIを概説する仕様文書と、インタラクティブなユニットテストスイートが提供されている。
Commit0はまた、モデルが生成したコードに対して静的解析と実行フィードバックを受け取る、インタラクティブな環境も提供する。
論文 参考訳(メタデータ) (2024-12-02T18:11:30Z) - AutoPT: How Far Are We from the End2End Automated Web Penetration Testing? [54.65079443902714]
LLMによって駆動されるPSMの原理に基づく自動浸透試験エージェントであるAutoPTを紹介する。
以上の結果から, AutoPT は GPT-4o ミニモデル上でのベースラインフレームワーク ReAct よりも優れていた。
論文 参考訳(メタデータ) (2024-11-02T13:24:30Z) - ASTER: Natural and Multi-language Unit Test Generation with LLMs [6.259245181881262]
静的解析を組み込んだジェネリックパイプラインを記述し,コンパイル可能な高カバレッジテストケースの生成においてLCMをガイドする。
コードカバレッジとテスト自然性の観点から,生成したテストの品質を評価するための実証的研究を行った。
論文 参考訳(メタデータ) (2024-09-04T21:46:18Z) - A System for Automated Unit Test Generation Using Large Language Models and Assessment of Generated Test Suites [1.4563527353943984]
大規模言語モデル(LLM)はソフトウェア開発の様々な側面に適用されている。
Javaプロジェクトのテストスイートを生成する自動化システムであるAgoneTestを紹介します。
論文 参考訳(メタデータ) (2024-08-14T23:02:16Z) - Automatic benchmarking of large multimodal models via iterative experiment programming [71.78089106671581]
本稿では,LMMの自動ベンチマークのための最初のフレームワークであるAPExを紹介する。
自然言語で表現された研究の質問に対して、APExは大きな言語モデル(LLM)と事前定義されたツールのライブラリを活用して、手元にあるモデルの一連の実験を生成する。
調査の現在の状況に基づいて、APExはどの実験を行うか、結果が結論を引き出すのに十分かどうかを選択する。
論文 参考訳(メタデータ) (2024-06-18T06:43:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。