論文の概要: Rethinking the Value of Agent-Generated Tests for LLM-Based Software Engineering Agents
- arxiv url: http://arxiv.org/abs/2602.07900v1
- Date: Sun, 08 Feb 2026 10:26:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.86035
- Title: Rethinking the Value of Agent-Generated Tests for LLM-Based Software Engineering Agents
- Title(参考訳): LLMベースソフトウェアエンジニアリングエージェントにおけるエージェント生成テストの価値の再考
- Authors: Zhi Chen, Zhensu Sun, Yuling Shi, Chao Peng, Xiaodong Gu, David Lo, Lingxiao Jiang,
- Abstract要約: 大規模言語モデル(LLM)コードエージェントは、コードの反復的な編集、ツールの呼び出し、候補パッチの検証によって、リポジトリレベルの問題を徐々に解決している。
エージェントはしばしばテストを書くが、これはSWEベンチのリーダーボード上で多くの上級エージェントが採用しているパラダイムである。
このようなテストが問題解決を有意義に改善したのか、それとも、実際の相互作用予算を消費しながら、単に人間のテストプラクティスを模倣しただけなのか。
- 参考スコア(独自算出の注目度): 20.29427807019999
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Model (LLM) code agents increasingly resolve repository-level issues by iteratively editing code, invoking tools, and validating candidate patches. In these workflows, agents often write tests on the fly, a paradigm adopted by many high-ranking agents on the SWE-bench leaderboard. However, we observe that GPT-5.2, which writes almost no new tests, can even achieve performance comparable to top-ranking agents. This raises the critical question: whether such tests meaningfully improve issue resolution or merely mimic human testing practices while consuming a substantial interaction budget. To reveal the impact of agent-written tests, we present an empirical study that analyzes agent trajectories across six state-of-the-art LLMs on SWE-bench Verified. Our results show that while test writing is commonly adopted, but resolved and unresolved tasks within the same model exhibit similar test-writing frequencies Furthermore, these tests typically serve as observational feedback channels, where agents prefer value-revealing print statements significantly more than formal assertion-based checks. Based on these insights, we perform a controlled experiment by revising the prompts of four agents to either increase or reduce test writing. The results suggest that changes in the volume of agent-written tests do not significantly change final outcomes. Taken together, our study reveals that current test-writing practices may provide marginal utility in autonomous software engineering tasks.
- Abstract(参考訳): 大規模言語モデル(LLM)コードエージェントは、コードの反復的な編集、ツールの呼び出し、候補パッチの検証によって、リポジトリレベルの問題を徐々に解決している。
これらのワークフローでは、エージェントはしばしば、SWE-benchのリーダーボード上で多くの上位エージェントが採用するパラダイムであるテストを書く。
しかし、ほとんど新しいテストを書くことのできないGPT-5.2は、上位のエージェントに匹敵するパフォーマンスを達成できる。
このようなテストが問題解決を有意義に改善したのか、それとも、実際の相互作用予算を消費しながら、単に人間のテストプラクティスを模倣しただけなのか。
エージェント記述テストの効果を明らかにするために,6つの最先端LCMのエージェント軌跡をSWEベンチ検証上で解析する実験的検討を行った。
結果より,テスト記述は一般的に採用されているが,同じモデル内の未解決タスクは類似のテスト記述頻度を示すが,これらのテストは一般に観察フィードバックチャネルとして機能する。
これらの知見に基づいて、4つのエージェントのプロンプトを改訂し、テスト記述を増やすか、削減する制御実験を行う。
その結果, エージェント記述テスト量の変化は最終結果に大きく影響しないことがわかった。
まとめると、我々の研究は、現在のテスト記述プラクティスが自律的なソフトウェアエンジニアリングタスクに限界効用をもたらす可能性があることを明らかにした。
関連論文リスト
- Scaling Agentic Verifier for Competitive Coding [66.11758166379092]
大規模言語モデル(LLM)は強力なコーディング能力を示しているが、1回の試行で競合するプログラミング問題を正しく解くのに苦戦している。
実行ベースの再ランク付けは、有望なテスト時間スケーリング戦略を提供するが、既存のメソッドは、難しいテストケースの生成または非効率的なランダム入力サンプリングによって制約される。
本稿では,プログラムの動作を積極的に推論し,高い差別性のあるテスト入力を検索するエージェント検証手法を提案する。
論文 参考訳(メタデータ) (2026-02-04T06:30:40Z) - Automated structural testing of LLM-based agents: methods, framework, and case studies [0.05254956925594667]
LLMベースのエージェントは、様々な領域で急速に採用されている。
現在のテストアプローチは、ユーザの視点からの受け入れレベルの評価に重点を置いている。
LLMをベースとしたエージェントの構造試験を可能にする手法を提案する。
論文 参考訳(メタデータ) (2026-01-25T11:52:30Z) - Do Autonomous Agents Contribute Test Code? A Study of Tests in Agentic Pull Requests [1.2043574473965317]
AIDevデータセットを用いたエージェントプルリクエストにおけるテストインクルージョンに関する実証的研究を行った。
テストを含むPRは時間とともに一般的になり、より大きくなり、完成までに時間がかかる傾向にある。
また、テストPRにおけるテスト採用とテストコードと運用コードのバランスの両方において、エージェント間のばらつきも観察します。
論文 参考訳(メタデータ) (2026-01-07T03:52:13Z) - Establishing Best Practices for Building Rigorous Agentic Benchmarks [94.69724201080155]
多くのエージェントベンチマークがタスク設定や報酬設計に問題があることを示す。
このような問題は、エージェントのパフォーマンスを最大100%相対的に過小評価することにつながる可能性がある。
我々はベンチマーク構築経験から要約したガイドラインの集合であるAgentic Benchmark Checklist (ABC)を紹介した。
論文 参考訳(メタデータ) (2025-07-03T17:35:31Z) - Toward Automated Validation of Language Model Synthesized Test Cases using Semantic Entropy [0.5057850174013127]
現代の大規模言語モデル(LLM)ベースのプログラミングエージェントは、しばしば、生成されたコードを洗練するためにテスト実行フィードバックに依存する。
本稿では,LLMが生成したテストケースの自動検証にセマンティックエントロピーを利用する新しいフレームワークVALTESTを紹介する。
VALTESTはテストの妥当性を最大29%向上し、パス@1スコアの大幅な増加によって証明されたコード生成のパフォーマンスが向上することを示している。
論文 参考訳(メタデータ) (2024-11-13T00:07:32Z) - Leveraging Large Language Models for Enhancing the Understandability of Generated Unit Tests [4.574205608859157]
我々は,検索ベースのソフトウェアテストと大規模言語モデルを組み合わせたUTGenを導入し,自動生成テストケースの理解性を向上する。
UTGenテストケースで課題に取り組む参加者は、最大33%のバグを修正し、ベースラインテストケースと比較して最大20%の時間を使用できます。
論文 参考訳(メタデータ) (2024-08-21T15:35:34Z) - Effective Test Generation Using Pre-trained Large Language Models and
Mutation Testing [13.743062498008555]
大規模言語モデル(LLM)が生成するテストケースの有効性を,バグの発見の観点から改善するための MuTAP を導入する。
MuTAPは、プログラム・アンダー・テスト(PUT)の自然言語記述がない場合に有効なテストケースを生成することができる
提案手法は, 最大28%の人書きコードスニペットを検出できることを示す。
論文 参考訳(メタデータ) (2023-08-31T08:48:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。