論文の概要: SWE-EVO: Benchmarking Coding Agents in Long-Horizon Software Evolution Scenarios
- arxiv url: http://arxiv.org/abs/2512.18470v2
- Date: Tue, 23 Dec 2025 19:29:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-25 13:34:31.935772
- Title: SWE-EVO: Benchmarking Coding Agents in Long-Horizon Software Evolution Scenarios
- Title(参考訳): SWE-EVO: 長期ソフトウェア進化シナリオにおけるベンチマークコーディングエージェント
- Authors: Minh V. T. Thai, Tue Le, Dung Nguyen Manh, Huy Phan Nhat, Nghi D. Q. Bui,
- Abstract要約: AIコーディングエージェントの既存のベンチマークでは、バグの修正や小さな機能の実装など、独立した単一課題のタスクに重点を置いている。
SWE-EVO(SWE-EVO)は、長期的ソフトウェア進化課題におけるエージェントの評価を行うベンチマークである。
ツールには48の進化タスクが含まれており、エージェントは平均21ファイルにまたがる複数ステップの修正を行う必要がある。
- 参考スコア(独自算出の注目度): 6.776894728701934
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing benchmarks for AI coding agents focus on isolated, single-issue tasks such as fixing a bug or implementing a small feature. However, real-world software engineering is fundamentally a long-horizon endeavor: developers must interpret high-level requirements, plan coordinated changes across many files, and evolve codebases over multiple iterations while preserving existing functionality. We introduce SWE-EVO, a benchmark that evaluates agents on this long-horizon software evolution challenge. Constructed from release notes and version histories of seven mature open-source Python projects, Tool comprises 48 evolution tasks that require agents to implement multi-step modifications spanning an average of 21 files, validated against comprehensive test suites averaging 874 tests per instance. Experiments with state-of-the-art models reveal a striking capability gap: even GPT-5 with OpenHands achieves only a 21 percent resolution rate on Tool, compared to 65 percent on the single-issue SWE-Bench Verified. This demonstrates that current agents struggle with sustained, multi-file reasoning. We also propose Fix Rate, a fine-grained metric that captures partial progress toward solving these complex, long-horizon tasks.
- Abstract(参考訳): AIコーディングエージェントの既存のベンチマークでは、バグの修正や小さな機能の実装など、独立した単一課題のタスクに重点を置いている。
開発者は高レベルの要求を解釈し、多くのファイルにまたがって調整された変更を計画し、既存の機能を保ちながら複数のイテレーションでコードベースを進化させなければならない。
本稿では,この長期的ソフトウェア進化課題におけるエージェントの評価を行うベンチマークであるSWE-EVOを紹介する。
リリースノートと7つの成熟したオープンソースPythonプロジェクトのバージョン履歴から構築されたツールには、平均21ファイルにまたがるマルチステップの修正をエージェントに要求する48の進化タスクが含まれている。
OpenHandsのGPT-5でさえ、ツールの解像度はわずか21%で、シングル発行のSWE-Bench Verifiedでは65%だった。
これは、現在のエージェントが持続的、複数ファイルの推論に苦労していることを示している。
また、これらの複雑で長期のタスクを解くための部分的な進歩を捉える、きめ細かい計量であるFix Rateを提案する。
関連論文リスト
- NL2Repo-Bench: Towards Long-Horizon Repository Generation Evaluation of Coding Agents [79.29376673236142]
既存のベンチマークは、完全なソフトウェアシステムを構築するのに必要な長期的能力の厳格な評価に失敗する。
符号化エージェントの長期リポジトリ生成能力を評価するために設計されたベンチマークであるNL2Repo Benchを提案する。
論文 参考訳(メタデータ) (2025-12-14T15:12:13Z) - Multi-Agent Systems for Dataset Adaptation in Software Engineering: Capabilities, Limitations, and Future Directions [8.97512410819274]
本稿では,データセット適応タスクにおいて,最先端のマルチエージェントシステムがどのように機能するかについて,最初の実証的研究を行う。
我々は、GitHub Copilotを評価し、ROCODEやLogHub2.0といったベンチマークリポジトリからSE研究成果物を適用する。
その結果、現在のシステムはキーファイルを識別し、部分的な適応を生成することができるが、正しい実装を生成することは滅多にない。
論文 参考訳(メタデータ) (2025-11-26T13:26:11Z) - The Tool Decathlon: Benchmarking Language Agents for Diverse, Realistic, and Long-Horizon Task Execution [86.4588675093384]
Toolathlonは、多様なアプリやツール、現実的な環境設定、信頼性の高い実行ベースの評価を提供する言語エージェントのベンチマークである。
このベンチマークには、手動でソースまたはクラフトされたタスクが108つ含まれており、平均20回以上にわたって複数のアプリと対話する必要がある。
Toolathlonは、より有能な言語エージェントを現実の長期タスク実行のために開発することを期待しています。
論文 参考訳(メタデータ) (2025-10-29T17:32:49Z) - VisCoder2: Building Multi-Language Visualization Coding Agents [63.63232038173407]
可視化符号化エージェントを進化させるための3つの相補的なリソースを紹介する。
VisCoder2は、強力なオープンソースベースラインを著しく上回り、プロプライエタリなモデルのパフォーマンスにアプローチする。
論文 参考訳(メタデータ) (2025-10-24T18:03:57Z) - UltraHorizon: Benchmarking Agent Capabilities in Ultra Long-Horizon Scenarios [63.67884284105684]
textbfUltraHorizonは、複雑な現実世界の課題に不可欠な基礎的能力を測定する新しいベンチマークである。
エージェントは、隠されたルールを反復的に発見しなければならない、長期にわたる発見タスクで設計されている。
実験の結果, LLM-agents はこれらの設定において常に不利な成績を示し, ヒトは高いスコアを得ることができた。
論文 参考訳(メタデータ) (2025-09-26T02:04:00Z) - SWE-Bench Pro: Can AI Agents Solve Long-Horizon Software Engineering Tasks? [13.645265361867565]
SWE-Bench ProはSWE-BENCH [25]のベストプラクティスに基づいていますが、現実的で複雑でエンタープライズレベルの問題を捉えるように設計されています。
ベンチマークはパブリックセットに分割され、11のリポジトリ、12のリポジトリのホールドアウトセット、18のプロプライエタリリポジトリの商用セットからソースされた問題にオープンアクセスされる。
広範に使用されている符号化モデルの評価では,SWE-Bench PROの性能は25%以下(Pass@1)であり,GPT-5は23.3%と最高スコアである。
論文 参考訳(メタデータ) (2025-09-21T06:28:17Z) - Lingma SWE-GPT: An Open Development-Process-Centric Language Model for Automated Software Improvement [62.94719119451089]
Lingma SWE-GPTシリーズは、現実世界のコード提出活動から学び、シミュレーションする。
Lingma SWE-GPT 72BはGitHubの30.20%の問題を解決する。
論文 参考訳(メタデータ) (2024-11-01T14:27:16Z) - Evaluating Software Development Agents: Patch Patterns, Code Quality, and Issue Complexity in Real-World GitHub Scenarios [13.949319911378826]
この調査は、500の現実のGitHubイシューで上位10のエージェントから4,892のパッチを評価した。
一人のエージェントが支配的であり、170の問題が未解決であり、改善の余地があった。
ほとんどのエージェントはコードの信頼性とセキュリティを維持し、新しいバグや脆弱性を避けた。
一部のエージェントはコードの複雑さを増し、多くの重複を減らし、コードの臭いを最小限にした。
論文 参考訳(メタデータ) (2024-10-16T11:33:57Z) - BigCodeBench: Benchmarking Code Generation with Diverse Function Calls and Complex Instructions [72.56339136017759]
BigCodeBenchは、大規模言語モデル(LLM)に対して、139のライブラリと7つのドメインから1140のきめ細かいタスクに対して、複数の関数呼び出しをツールとして呼び出すためのベンチマークである。
評価の結果,LLMは機能コールを正確に使用するための複雑な指示に従うことができず,スコアは最大60%,人的性能は97%と極めて低いことがわかった。
そこで本研究では,BigCodeBench-Instructという自然言語指向の変種を提案する。
論文 参考訳(メタデータ) (2024-06-22T15:52:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。