Fugu-MT 論文翻訳(概要): Rethinking the Value of Agent-Generated Tests for LLM-Based Software Engineering Agents

論文の概要: Rethinking the Value of Agent-Generated Tests for LLM-Based Software Engineering Agents

arxiv url: http://arxiv.org/abs/2602.07900v1
Date: Sun, 08 Feb 2026 10:26:31 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-10 20:26:24.86035
Title: Rethinking the Value of Agent-Generated Tests for LLM-Based Software Engineering Agents
Title（参考訳）: LLMベースソフトウェアエンジニアリングエージェントにおけるエージェント生成テストの価値の再考
Authors: Zhi Chen, Zhensu Sun, Yuling Shi, Chao Peng, Xiaodong Gu, David Lo, Lingxiao Jiang,
Abstract要約: 大規模言語モデル(LLM)コードエージェントは、コードの反復的な編集、ツールの呼び出し、候補パッチの検証によって、リポジトリレベルの問題を徐々に解決している。エージェントはしばしばテストを書くが、これはSWEベンチのリーダーボード上で多くの上級エージェントが採用しているパラダイムである。このようなテストが問題解決を有意義に改善したのか、それとも、実際の相互作用予算を消費しながら、単に人間のテストプラクティスを模倣しただけなのか。
参考スコア（独自算出の注目度）: 20.29427807019999
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Model (LLM) code agents increasingly resolve repository-level issues by iteratively editing code, invoking tools, and validating candidate patches. In these workflows, agents often write tests on the fly, a paradigm adopted by many high-ranking agents on the SWE-bench leaderboard. However, we observe that GPT-5.2, which writes almost no new tests, can even achieve performance comparable to top-ranking agents. This raises the critical question: whether such tests meaningfully improve issue resolution or merely mimic human testing practices while consuming a substantial interaction budget. To reveal the impact of agent-written tests, we present an empirical study that analyzes agent trajectories across six state-of-the-art LLMs on SWE-bench Verified. Our results show that while test writing is commonly adopted, but resolved and unresolved tasks within the same model exhibit similar test-writing frequencies Furthermore, these tests typically serve as observational feedback channels, where agents prefer value-revealing print statements significantly more than formal assertion-based checks. Based on these insights, we perform a controlled experiment by revising the prompts of four agents to either increase or reduce test writing. The results suggest that changes in the volume of agent-written tests do not significantly change final outcomes. Taken together, our study reveals that current test-writing practices may provide marginal utility in autonomous software engineering tasks.
Abstract（参考訳）: 大規模言語モデル(LLM)コードエージェントは、コードの反復的な編集、ツールの呼び出し、候補パッチの検証によって、リポジトリレベルの問題を徐々に解決している。これらのワークフローでは、エージェントはしばしば、SWE-benchのリーダーボード上で多くの上位エージェントが採用するパラダイムであるテストを書く。しかし、ほとんど新しいテストを書くことのできないGPT-5.2は、上位のエージェントに匹敵するパフォーマンスを達成できる。このようなテストが問題解決を有意義に改善したのか、それとも、実際の相互作用予算を消費しながら、単に人間のテストプラクティスを模倣しただけなのか。エージェント記述テストの効果を明らかにするために,6つの最先端LCMのエージェント軌跡をSWEベンチ検証上で解析する実験的検討を行った。結果より,テスト記述は一般的に採用されているが,同じモデル内の未解決タスクは類似のテスト記述頻度を示すが,これらのテストは一般に観察フィードバックチャネルとして機能する。これらの知見に基づいて、4つのエージェントのプロンプトを改訂し、テスト記述を増やすか、削減する制御実験を行う。その結果, エージェント記述テスト量の変化は最終結果に大きく影響しないことがわかった。まとめると、我々の研究は、現在のテスト記述プラクティスが自律的なソフトウェアエンジニアリングタスクに限界効用をもたらす可能性があることを明らかにした。

関連論文リスト

Scaling Agentic Verifier for Competitive Coding [66.11758166379092]
大規模言語モデル(LLM)は強力なコーディング能力を示しているが、1回の試行で競合するプログラミング問題を正しく解くのに苦戦している。実行ベースの再ランク付けは、有望なテスト時間スケーリング戦略を提供するが、既存のメソッドは、難しいテストケースの生成または非効率的なランダム入力サンプリングによって制約される。本稿では,プログラムの動作を積極的に推論し,高い差別性のあるテスト入力を検索するエージェント検証手法を提案する。
論文参考訳（メタデータ） (2026-02-04T06:30:40Z)
Automated structural testing of LLM-based agents: methods, framework, and case studies [0.05254956925594667]
LLMベースのエージェントは、様々な領域で急速に採用されている。現在のテストアプローチは、ユーザの視点からの受け入れレベルの評価に重点を置いている。 LLMをベースとしたエージェントの構造試験を可能にする手法を提案する。
論文参考訳（メタデータ） (2026-01-25T11:52:30Z)
Do Autonomous Agents Contribute Test Code? A Study of Tests in Agentic Pull Requests [1.2043574473965317]
AIDevデータセットを用いたエージェントプルリクエストにおけるテストインクルージョンに関する実証的研究を行った。テストを含むPRは時間とともに一般的になり、より大きくなり、完成までに時間がかかる傾向にある。また、テストPRにおけるテスト採用とテストコードと運用コードのバランスの両方において、エージェント間のばらつきも観察します。
論文参考訳（メタデータ） (2026-01-07T03:52:13Z)
ImpossibleBench: Measuring LLMs' Propensity of Exploiting Test Cases [58.411135609139855]
タスク完了のための「ショートカット」は、大規模言語モデルの信頼性評価と展開に重大なリスクをもたらす。我々は,LLMエージェントがテストケースを利用するための正当性を測定するベンチマークフレームワークであるImpossibleBenchを紹介する。実践的なフレームワークとして、ImpossibleBenchは単なる評価ではなく、汎用的なツールである。
論文参考訳（メタデータ） (2025-10-23T06:58:32Z)
How Can Input Reformulation Improve Tool Usage Accuracy in a Complex Dynamic Environment? A Study on $τ$-bench [58.114899897566964]
マルチターンの会話環境では、大きな言語モデル(LLM)は、一貫性のある推論とドメイン固有のポリシーへの固執にしばしば苦労する。本稿では,関連するドメインルールを付加したユーザクエリを自動的に再構成するIRMA(Input-Reformulation Multi-Agent)フレームワークを提案する。 IRMAはReAct、Function Calling、Self-Reflectionをそれぞれ16.1%、12.7%、19.1%で大きく上回っている。
論文参考訳（メタデータ） (2025-08-28T15:57:33Z)
Establishing Best Practices for Building Rigorous Agentic Benchmarks [94.69724201080155]
多くのエージェントベンチマークがタスク設定や報酬設計に問題があることを示す。このような問題は、エージェントのパフォーマンスを最大100%相対的に過小評価することにつながる可能性がある。我々はベンチマーク構築経験から要約したガイドラインの集合であるAgentic Benchmark Checklist (ABC)を紹介した。
論文参考訳（メタデータ） (2025-07-03T17:35:31Z)
On the Role of Feedback in Test-Time Scaling of Agentic AI Workflows [71.92083784393418]
エージェントAI(自律的な計画と行動を行うシステム)は広く普及しているが、複雑なタスクにおけるタスクの成功率は低いままである。推論時のアライメントは、サンプリング、評価、フィードバックの3つのコンポーネントに依存します。本稿では,様々な形態の批判から抽出されたフィードバックを繰り返し挿入するIterative Agent Decoding(IAD)を紹介する。
論文参考訳（メタデータ） (2025-04-02T17:40:47Z)
On the Mistaken Assumption of Interchangeable Deep Reinforcement Learning Implementations [58.60617136236957]
ディープ・強化学習(Deep Reinforcement Learning, DRL)とは、エージェントがニューラルネットワークを使って特定の環境でどのアクションをとるかを学ぶ人工知能のパラダイムである。 DRLは最近、ドライビングシミュレーター、3Dロボット制御、マルチプレイヤー・オンライン・バトル・アリーナ・ビデオゲームといった複雑な環境を解くことで注目を集めている。現在、Deep Q-Network (DQN) や Proximal Policy Optimization (PPO) アルゴリズムのような、これらのエージェントを訓練する最先端のアルゴリズムの実装が数多く存在する。
論文参考訳（メタデータ） (2025-03-28T16:25:06Z)
Toward Automated Validation of Language Model Synthesized Test Cases using Semantic Entropy [0.5057850174013127]
現代の大規模言語モデル(LLM)ベースのプログラミングエージェントは、しばしば、生成されたコードを洗練するためにテスト実行フィードバックに依存する。本稿では,LLMが生成したテストケースの自動検証にセマンティックエントロピーを利用する新しいフレームワークVALTESTを紹介する。 VALTESTはテストの妥当性を最大29%向上し、パス@1スコアの大幅な増加によって証明されたコード生成のパフォーマンスが向上することを示している。
論文参考訳（メタデータ） (2024-11-13T00:07:32Z)
Leveraging Large Language Models for Enhancing the Understandability of Generated Unit Tests [4.574205608859157]
我々は,検索ベースのソフトウェアテストと大規模言語モデルを組み合わせたUTGenを導入し,自動生成テストケースの理解性を向上する。 UTGenテストケースで課題に取り組む参加者は、最大33%のバグを修正し、ベースラインテストケースと比較して最大20%の時間を使用できます。
論文参考訳（メタデータ） (2024-08-21T15:35:34Z)
Effective Test Generation Using Pre-trained Large Language Models and Mutation Testing [13.743062498008555]
大規模言語モデル(LLM)が生成するテストケースの有効性を,バグの発見の観点から改善するための MuTAP を導入する。 MuTAPは、プログラム・アンダー・テスト(PUT)の自然言語記述がない場合に有効なテストケースを生成することができる提案手法は, 最大28%の人書きコードスニペットを検出できることを示す。
論文参考訳（メタデータ） (2023-08-31T08:48:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。