論文の概要: Beyond Fixed Tests: Repository-Level Issue Resolution as Coevolution of Code and Behavioral Constraints
- arxiv url: http://arxiv.org/abs/2604.04580v1
- Date: Mon, 06 Apr 2026 10:26:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:19.172363
- Title: Beyond Fixed Tests: Repository-Level Issue Resolution as Coevolution of Code and Behavioral Constraints
- Title(参考訳): コードと振る舞い制約の共進化としてのリポジトリレベルの課題解決
- Authors: Kefan Li, Yuan Yuan, Mengfei Wang, Shihao Zheng, Wei Wang, Ping Yang, Mu Li, Weifeng Lv,
- Abstract要約: ほとんどの大規模言語モデル(LLM)ベースの修復システムは、修理中に固定された動作制約を扱います。
本稿では,Agent-CoEvoを提案する。Agent-CoEvoは共進化的マルチエージェントフレームワークで,候補コードパッチとテストパッチを共同で探索し,洗練する。
Agent-CoEvoは、修復の成功と再現性の両方において、最先端のエージェントベースとエージェントレスベースラインを一貫して上回っている。
- 参考スコア(独自算出の注目度): 17.818522356206977
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Software engineers resolving repository-level issues do not treat existing tests as immutable correctness oracles. Instead, they iteratively refine both code and the tests used to characterize intended behavior, as new modifications expose missing assumptions or misinterpreted failure conditions. In contrast, most existing large language model (LLM)-based repair systems adopt a linear pipeline in which tests or other validation signals act mostly as post-hoc filters, treating behavioral constraints as fixed during repair. This formulation reduces repair to optimizing code under static and potentially misaligned constraints, leading to under-constrained search and brittle or overfitted fixes. We argue that repository-level issue resolution is fundamentally not optimization under fixed tests, but search over evolving behavioral constraints. To operationalize this view, we propose Agent-CoEvo, a coevolutionary multi-agent framework in which candidate code patches and test patches are jointly explored and iteratively refined. Rather than treating tests as immutable oracles, our framework models them as dynamic constraints that both guide and are revised by the repair process. Through mutual evaluation and semantic recombination, code and test candidates progressively narrow the space of behavior consistent with the issue description. Evaluated on SWE-bench Lite and SWT-bench Lite, Agent-CoEvo consistently outperforms state-of-the-art agent-based and agentless baselines in both repair success and test reproduction quality. Our findings suggest that enabling repair agents to revise behavioral constraints during search is critical for reliable issue resolution, pointing toward a shift from code-only optimization to coevolution of implementation and specification.
- Abstract(参考訳): リポジトリレベルの問題を解決するソフトウェアエンジニアは、既存のテストを不変の正当性オラクルとして扱っていません。
代わりに彼らは、意図した振る舞いを特徴づけるために使用されるコードとテストの両方を反復的に洗練します。
対照的に、既存の大規模言語モデル(LLM)ベースの修復システムは、テストやその他の検証信号が主にポストホックフィルタとして機能する線形パイプラインを採用しており、修理中の動作制約を固定として扱う。
この定式化は、静的で潜在的に一致しない制約の下でコードを最適化する修正を減らす。
リポジトリレベルの課題解決は、基本的には、固定テスト下での最適化ではなく、進化する振る舞い制約を探索するものである、と我々は主張する。
この視点を運用するために、候補コードパッチとテストパッチを共同で探索し、反復的に洗練する進化的マルチエージェントフレームワークであるAgent-CoEvoを提案する。
テストは不変のオラクルとして扱うのではなく、我々のフレームワークはそれらを動的制約としてモデル化し、修復プロセスによってガイドされ、修正されます。
相互評価とセマンティック・リコンビネーションを通じて、コードとテストの候補は、問題記述と整合した振る舞いの空間を徐々に狭めていく。
SWE-bench LiteとSWT-bench Liteで評価すると、Agent-CoEvoは、修復の成功と再現性の両方において、最先端のエージェントベースとエージェントレスベースラインを一貫して上回っている。
本研究は,コードのみの最適化から実装と仕様の共進化への転換をめざして,検索中の動作制約の修正を可能にすることが,信頼性の高い課題解決のために重要であることを示唆している。
関連論文リスト
- Runtime Execution Traces Guided Automated Program Repair with Multi-Agent Debate [8.424102114588559]
自動プログラム修復(APR)は複雑なロジックエラーとサイレント障害に悩まされる。
現在のLLMベースのAPRメソッドは主に静的であり、ソースコードと基本的なテスト出力に依存している。
我々は、パッチ検証のための共有制約としてランタイム事実を活用するマルチエージェントフレームワークであるTraceRepairを提案する。
論文 参考訳(メタデータ) (2026-04-03T02:23:25Z) - BACE: LLM-based Code Generation through Bayesian Anchored Co-Evolution of Code and Test Populations [0.9668407688201359]
我々は、ベイズ的共進化過程として合成を再構成するフレームワークであるBACEを紹介する。
BACEはプロプライエタリモデルとオープンウェイトな小言語モデルの両方で優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2026-03-30T16:40:11Z) - Dynamic analysis enhances issue resolution [53.50448142467294]
DAIRA(Dynamic Analysis-enhanced Issue Resolution Agent)は、エージェントの推論サイクルに動的解析を組み込む自動修復フレームワークである。
テストトレース駆動の方法論によって駆動されるDAIRAは、軽量モニタを使用して重要なランタイムデータを抽出する。
Gemini 3 Flash Previewを使用すると、DAIRAは新たな最先端(SOTA)パフォーマンスを確立し、SWE-bench Verifiedデータセットで79.4%の解像度を達成する。
論文 参考訳(メタデータ) (2026-03-23T14:48:54Z) - VIBEPASS: Can Vibe Coders Really Pass the Vibe Check? [46.85901599242161]
emphFault-Triggering Test Generation(FT-Test)とemphFault-targeted Program repair(FPR)の2つの組み合わせタスクを評価した。
故障対象推論は一般的な符号化能力ではスケールしないことがわかった。
自己生成テストが障害の発見に成功すると、結果として得られた修復結果が外部から提供されたテストによってガイドされた修復と一致したり、性能が低下する。
論文 参考訳(メタデータ) (2026-03-16T21:14:28Z) - TraceCoder: A Trace-Driven Multi-Agent Framework for Automated Debugging of LLM-Generated Code [11.207330722400764]
人間の観察・分析・修復過程をエミュレートするフレームワークであるTraceCoderを提案する。
このフレームワークはまずコードを診断プローブで測定し、粒度の細かいランタイムトレースをキャプチャする。
その後、これらのトレースについて因果解析を行い、失敗の根本原因を正確に特定する。
論文 参考訳(メタデータ) (2026-02-06T16:59:48Z) - Probing Pre-trained Language Models on Code Changes: Insights from ReDef, a High-Confidence Just-in-Time Defect Prediction Dataset [0.0]
本稿では,22の大規模C/C++プロジェクトから得られた関数レベル修正の信頼性の高いベンチマークであるReDefを紹介する。
欠陥ケースはコミットの反転によって固定され、クリーンケースはポストホック履歴チェックによって検証される。
このパイプラインは3,164の欠陥と10,268のクリーンな修正をもたらし、既存のリソースよりも信頼性の高いラベルを提供する。
論文 参考訳(メタデータ) (2025-09-11T07:07:11Z) - LLMs as Continuous Learners: Improving the Reproduction of Defective Code in Software Issues [62.12404317786005]
EvoCoderは、イシューコード再現のための継続的学習フレームワークである。
その結果,既存のSOTA法よりも20%改善した。
論文 参考訳(メタデータ) (2024-11-21T08:49:23Z) - Solving Continuous Control via Q-learning [54.05120662838286]
深いQ-ラーニングの簡単な修正は、アクター批判的手法による問題を大幅に軽減することを示します。
バンバン動作の離散化と値分解、協調マルチエージェント強化学習(MARL)としての単一エージェント制御のフレーミングにより、このシンプルな批判のみのアプローチは、最先端の連続アクター批判法の性能と一致する。
論文 参考訳(メタデータ) (2022-10-22T22:55:50Z) - Global Optimization of Objective Functions Represented by ReLU Networks [77.55969359556032]
ニューラルネットワークは複雑で非敵対的な関数を学ぶことができ、安全クリティカルな文脈でそれらの正しい振る舞いを保証することは困難である。
ネットワーク内の障害を見つけるための多くのアプローチ(例えば、敵の例)があるが、これらは障害の欠如を保証できない。
本稿では,最適化プロセスを検証手順に統合し,本手法よりも優れた性能を実現する手法を提案する。
論文 参考訳(メタデータ) (2020-10-07T08:19:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。