論文の概要: Echo: Graph-Enhanced Retrieval and Execution Feedback for Issue Reproduction Test Generation
- arxiv url: http://arxiv.org/abs/2603.07326v1
- Date: Sat, 07 Mar 2026 20:11:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:14.294202
- Title: Echo: Graph-Enhanced Retrieval and Execution Feedback for Issue Reproduction Test Generation
- Title(参考訳): Echo: 問題再現テスト生成のためのグラフ強化検索と実行フィードバック
- Authors: Zhiwei Fei, Yue Pan, Federica Sarro, Jidong Ge, Marc Liu, Vincent Ng, He Ye,
- Abstract要約: 問題再現テストケースを生成するエージェントであるEchoを提案する。
生成中、Echoはコードグラフと新しい自動クエリリファインメント戦略を活用することで、検索を強化する。
さらに、Echoは潜在的なパッチを生成し、パッチされたバージョンを使用して、候補テストがフェール・ツー・パスの基準を満たしているかどうかを検証する。
- 参考スコア(独自算出の注目度): 26.789803959865107
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Identifying the root cause of a bug remains difficult for many developers because bug reports often lack a bug reproducing test case that reliably triggers the failure. Manually writing such test cases is time-consuming and requires substantial effort to understand the codebase and isolate the failing behavior. To address this challenge, we propose Echo, an agent for generating issue reproducing test cases, which advances previous work in several ways. During generation, Echo strengthens context retrieval by leveraging a code graph and a novel automatic query-refinement strategy. Echo also improves upon previous tools by automatically executing generated test cases, a first-of-its-kind feature that seamlessly integrates into practical development workflows. In addition, Echo generates potential patches and uses the patched version to validate whether a candidate test meets the fail-to-pass criterion and to provide actionable feedback for refinement. Unlike prior bug-reproduction agents that sample and rank multiple candidate tests, Echo generates a single test per issue, offering a better cost-performance trade-off. Experiments on SWT-Bench Verified show that Echo establishes a new state of the art among open-source approaches, achieving a 66.28% success rate.
- Abstract(参考訳): バグレポートには、失敗を確実に引き起こすバグ再現テストケースがないことが多いため、バグの根本原因を特定することは、多くの開発者にとって依然として難しい。
このようなテストケースを手作業で記述するのは時間がかかり、コードベースを理解し、失敗する振る舞いを分離するためにかなりの労力を要する。
この課題に対処するため,問題再現テストケースを生成するエージェントであるEchoを提案する。
生成中、Echoはコードグラフと新しい自動クエリリファインメント戦略を活用することでコンテキスト検索を強化する。
Echoは、生成したテストケースを自動的に実行することで、従来のツールを改善している。
さらに、Echoは潜在的なパッチを生成し、パッチされたバージョンを使用して、候補テストがフェール・ツー・パスの基準を満たしているかどうかを検証し、改善のための実行可能なフィードバックを提供する。
複数の候補テストのサンプリングとランク付けを行う以前のバグ再現エージェントとは異なり、Echoは問題毎に単一のテストを生成し、コストパフォーマンスのトレードオフを改善する。
SWT-Bench Verifiedの実験は、Echoがオープンソースアプローチの新たな最先端を確立し、66.28%の成功率を達成したことを示している。
関連論文リスト
- Scaling Agentic Verifier for Competitive Coding [66.11758166379092]
大規模言語モデル(LLM)は強力なコーディング能力を示しているが、1回の試行で競合するプログラミング問題を正しく解くのに苦戦している。
実行ベースの再ランク付けは、有望なテスト時間スケーリング戦略を提供するが、既存のメソッドは、難しいテストケースの生成または非効率的なランダム入力サンプリングによって制約される。
本稿では,プログラムの動作を積極的に推論し,高い差別性のあるテスト入力を検索するエージェント検証手法を提案する。
論文 参考訳(メタデータ) (2026-02-04T06:30:40Z) - The Rise of Agentic Testing: Multi-Agent Systems for Robust Software Quality Assurance [0.0]
現在のAIベースのテストジェネレータは、実行意識のフィードバックがないため、無効、冗長、あるいは実行不可能なテストを生成する。
本稿では,テスト生成エージェント,実行・分析エージェント,レビュー・最適化エージェントが協調してテストの生成,実行,解析,精査を行う,クローズドループの自己修正システムを提案する。
論文 参考訳(メタデータ) (2026-01-05T18:20:14Z) - RLAC: Reinforcement Learning with Adversarial Critic for Free-Form Generation Tasks [75.52891348667491]
オープンエンド生成タスクは、多様でしばしば暗黙的なタスク固有の評価ルーブリックを満たすために出力を必要とする。
関連するルーリックの数が多ければ多いほど、極めて高い検証コストと応答の不完全な評価につながる。
RLAC(Reinforcement Learning with Adrial Critic, Reinforcement Learning with Adrial Critic)を提案する。
論文 参考訳(メタデータ) (2025-11-03T17:15:05Z) - ATGen: Adversarial Reinforcement Learning for Test Case Generation [78.48498301767079]
大きな言語モデル(LLM)はコード生成に優れていますが、その出力には微妙なバグが伴います。
既存のテスト生成方法は静的データセットに依存している。
我々は,対戦型強化学習を通じてテストケースジェネレータを訓練するフレームワークであるATGenを紹介する。
論文 参考訳(メタデータ) (2025-10-16T12:49:25Z) - Execution-Feedback Driven Test Generation from SWE Issues [8.685764659884367]
本稿では,e-Otter++と呼ばれる新しい再生テストジェネレータに実装した,実行フィードバックを活用する新しい手法を提案する。
TDD-Bench Verifiedベンチマークでは、平均的なフェール・ツー・パス率63%のテストを生成する。
論文 参考訳(メタデータ) (2025-08-08T14:49:36Z) - From Reproduction to Replication: Evaluating Research Agents with Progressive Code Masking [48.90371827091671]
AutoExperimentは、AIエージェントの機械学習実験の実装と実行能力を評価するベンチマークである。
我々は最先端のエージェントを評価し、n$が増加するにつれて性能が急速に低下することを発見した。
本研究は、長期コード生成、文脈検索、自律的な実験実行における重要な課題を浮き彫りにした。
論文 参考訳(メタデータ) (2025-06-24T15:39:20Z) - AutoReproduce: Automatic AI Experiment Reproduction with Paper Lineage [62.049868205196425]
AutoReproduceは、研究論文に記載された実験をエンドツーエンドで自動再生できるフレームワークである。
結果は、AutoReproduceが平均的なパフォーマンスギャップを22.1%$で達成していることを示している。
論文 参考訳(メタデータ) (2025-05-27T03:15:21Z) - Towards Automatic Generation of Amplified Regression Test Oracles [44.45138073080198]
回帰テストオラクルを増幅するためのテストオラクル導出手法を提案する。
このアプローチはテスト実行中にオブジェクトの状態を監視し、以前のバージョンと比較して、SUTの意図した振る舞いに関連する変更を検出する。
論文 参考訳(メタデータ) (2023-07-28T12:38:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。