論文の概要: Beyond Isolated Tasks: A Framework for Evaluating Coding Agents on Sequential Software Evolution
- arxiv url: http://arxiv.org/abs/2604.03035v1
- Date: Fri, 03 Apr 2026 13:44:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 17:20:24.481039
- Title: Beyond Isolated Tasks: A Framework for Evaluating Coding Agents on Sequential Software Evolution
- Title(参考訳): 分離されたタスクを超えて: シーケンシャルソフトウェア進化におけるコーディングエージェントの評価フレームワーク
- Authors: KN Ajay Shastry, Ganesh Senrayan, Shrey Satapara, Pranoy Panda, Chaitanya Devaguptapu,
- Abstract要約: 既存のデータセットは、分離された単一のプルリクエスト(PR)タスクのパフォーマンスをステートレスな方法で評価する。
本稿では,SWE-STEPSのデータセット生成を支援する自動コーディングタスク生成フレームワークを提案する。
- 参考スコア(独自算出の注目度): 5.10403054516716
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Existing datasets for coding agents evaluate performance on isolated, single pull request (PR) tasks in a stateless manner, failing to capture the reality of real-world software development where code changes accumulate, technical debt accrues, and test suites grow over time. To bridge this gap, we introduce an automated coding task generation framework, which helps generate our dataset SWE-STEPS, that evaluates coding agents on long-horizon tasks through two realistic settings mirroring actual developer workflows: Conversational coding with iterative requests, and single-shot Project Requirement document (PRD)-based coding. Unlike existing datasets that evaluate agents on disjointed Pull Requests (PRs), our framework assesses performance across chains of dependent PRs, enabling evaluation of sequential execution, regression verification, and long-term repository health. We discover that widely used isolated PR evaluations yield inflated success rates, w.r.t. our settings - overshooting performance by as much as 20 percentage points - because they ignore the ``spillover'' effects of previous inefficient or buggy code. Furthermore, our analysis reveals that even when agents successfully resolve issues, they degrade repository health by generating code with higher cognitive complexity and technical debt compared to human developers, underscoring the necessity for multidimensional evaluation.
- Abstract(参考訳): 既存のコーディングエージェントのデータセットは、独立した単一のプルリクエスト(PR)タスクのパフォーマンスをステートレスな方法で評価し、コードの変更が蓄積され、技術的負債が蓄積され、テストスイートが時間とともに成長する現実のソフトウェア開発の現実を捉えていない。
このギャップを埋めるため、私たちはSWE-STEPSというデータセットの生成を支援する自動コーディングタスク生成フレームワークを導入しました。これは、実際の開発者のワークフローを反映した2つの現実的な設定を通じて、長期タスクのコーディングエージェントを評価します。
分離されたプルリクエスト(PR)のエージェントを評価する既存のデータセットとは異なり、我々のフレームワークは依存するPRのチェーン間でのパフォーマンスを評価し、シーケンシャルな実行、回帰検証、長期リポジトリの健全性を評価することができる。
広く使われている分離されたPR評価は、我々の設定によって、パフォーマンスを最大20パーセントオーバーシュートする、膨らませた成功率をもたらすことが分かりました。
さらに,エージェントが問題解決に成功しても,認知的複雑性と技術的負債の高いコードを生成することで,リポジトリの健全性を低下させ,多次元評価の必要性を浮き彫りにした。
関連論文リスト
- CR-Bench: Evaluating the Real-World Utility of AI Code Review Agents [0.7496422063843831]
我々は、ベンチマークデータセットであるCR-Benchと、コードレビューエージェントのためのきめ細かい評価パイプラインであるCR-Evaluatorを紹介する。
コードレビューエージェントは、隠されたすべての問題を特定するために設計された場合、低信号対雑音比を示すことができる。
本分析では,課題解決と突発的な発見との間に隠されたトレードオフを明らかにし,効果的なエージェント設計を制約するフロンティアを明らかにした。
論文 参考訳(メタデータ) (2026-03-10T21:29:42Z) - BeyondSWE: Can Current Code Agent Survive Beyond Single-Repo Bug Fixing? [61.247730037229815]
BeyondSWEは2つの軸 – 解像度スコープと知識スコープ – に沿って既存の評価を拡張する包括的なベンチマークです。
外部知識の役割を解明するために,ディープ検索とコーディング能力を統合するフレームワークであるSearchSWEを開発した。
この作業は、現実的で挑戦的な評価ベンチマークと、より有能なコードエージェントに向けた研究を進めるための柔軟なフレームワークの両方を提供する。
論文 参考訳(メタデータ) (2026-03-03T17:52:01Z) - FeatureBench: Benchmarking Agentic Coding for Complex Feature Development [42.26354337364403]
FeatureBenchは、エンドツーエンドのフィーチャ指向ソフトウェア開発におけるエージェントコーディングのパフォーマンスを評価するために設計されたベンチマークである。
実行ベースの評価プロトコルと、人間の最小限の労力でコードリポジトリからタスクを自動的に引き出す、スケーラブルなテスト駆動メソッドが組み込まれている。
実証的な評価により、クロード4.5オプスのような最先端のエージェントモデルがSWEベンチで74.4%の解決率を達成することが明らかになった。
論文 参考訳(メタデータ) (2026-02-11T16:06:32Z) - PaperRepro: Automated Computational Reproducibility Assessment for Social Science Papers [33.12402746591649]
PaperReproは、自動評価のための新しい2段階のマルチエージェントアプローチである。
実行段階では、エージェントが複製パッケージを実行し、コードを編集して再生結果を明示的な成果物としてキャプチャする。
評価段階では、エージェントは明確な証拠を用いてエージェントを評価する。
論文 参考訳(メタデータ) (2026-02-10T09:04:59Z) - NL2Repo-Bench: Towards Long-Horizon Repository Generation Evaluation of Coding Agents [79.29376673236142]
既存のベンチマークは、完全なソフトウェアシステムを構築するのに必要な長期的能力の厳格な評価に失敗する。
符号化エージェントの長期リポジトリ生成能力を評価するために設計されたベンチマークであるNL2Repo Benchを提案する。
論文 参考訳(メタデータ) (2025-12-14T15:12:13Z) - Multi-Agent Systems for Dataset Adaptation in Software Engineering: Capabilities, Limitations, and Future Directions [8.97512410819274]
本稿では,データセット適応タスクにおいて,最先端のマルチエージェントシステムがどのように機能するかについて,最初の実証的研究を行う。
我々は、GitHub Copilotを評価し、ROCODEやLogHub2.0といったベンチマークリポジトリからSE研究成果物を適用する。
その結果、現在のシステムはキーファイルを識別し、部分的な適応を生成することができるが、正しい実装を生成することは滅多にない。
論文 参考訳(メタデータ) (2025-11-26T13:26:11Z) - CoDA: Agentic Systems for Collaborative Data Visualization [57.270599188947294]
深層研究はデータ分析に革命をもたらしたが、データサイエンティストは依然として手作業による視覚化にかなりの時間を費やしている。
単純なシングルエージェントシステムやマルチエージェントシステムを含む既存のアプローチは、しばしばタスクを単純化する。
本稿では,メタデータ分析,タスク計画,コード生成,自己回帰に特殊なLLMエージェントを利用するマルチエージェントシステムであるCoDAを紹介する。
論文 参考訳(メタデータ) (2025-10-03T17:30:16Z) - Codev-Bench: How Do LLMs Understand Developer-Centric Code Completion? [60.84912551069379]
Code-Development Benchmark (Codev-Bench)は、細粒度で現実世界、リポジトリレベル、開発者中心の評価フレームワークです。
Codev-Agentは、リポジトリのクローリングを自動化し、実行環境を構築し、既存のユニットテストから動的呼び出しチェーンを抽出し、データ漏洩を避けるために新しいテストサンプルを生成するエージェントベースのシステムである。
論文 参考訳(メタデータ) (2024-10-02T09:11:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。