論文の概要: SWE-Bench Pro: Can AI Agents Solve Long-Horizon Software Engineering Tasks?
- arxiv url: http://arxiv.org/abs/2509.16941v1
- Date: Sun, 21 Sep 2025 06:28:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.046055
- Title: SWE-Bench Pro: Can AI Agents Solve Long-Horizon Software Engineering Tasks?
- Title(参考訳): SWE-Bench Pro: AIエージェントは長期のソフトウェアエンジニアリングタスクを解決できるか?
- Authors: Xiang Deng, Jeff Da, Edwin Pan, Yannis Yiming He, Charles Ide, Kanak Garg, Niklas Lauffer, Andrew Park, Nitin Pasari, Chetan Rane, Karmini Sampath, Maya Krishnan, Srivatsa Kundurthy, Sean Hendryx, Zifan Wang, Chen Bo Calvin Zhang, Noah Jacobson, Bing Liu, Brad Kenstler,
- Abstract要約: SWE-Bench ProはSWE-BENCH [25]のベストプラクティスに基づいていますが、現実的で複雑でエンタープライズレベルの問題を捉えるように設計されています。
ベンチマークはパブリックセットに分割され、11のリポジトリ、12のリポジトリのホールドアウトセット、18のプロプライエタリリポジトリの商用セットからソースされた問題にオープンアクセスされる。
広範に使用されている符号化モデルの評価では,SWE-Bench PROの性能は25%以下(Pass@1)であり,GPT-5は23.3%と最高スコアである。
- 参考スコア(独自算出の注目度): 13.645265361867565
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce SWE-Bench Pro, a substantially more challenging benchmark that builds upon the best practices of SWE-BENCH [25], but is explicitly designed to capture realistic, complex, enterprise-level problems beyond the scope of SWE-BENCH. SWE-BENCH PRO contains 1,865 problems sourced from a diverse set of 41 actively maintained repositories spanning business applications, B2B services, and developer tools. The benchmark is partitioned into a public set with open access to problems sourced from 11 repositories, a held-out set of 12 repositories and a commercial set of 18 proprietary repositories where we have formal partnership agreements with early-stage startups. Problems in the held-out and the commercial set are not publicly accessible, but we release results on the commercial set. Our benchmark features long-horizon tasks that may require hours to days for a professional software engineer to complete, often involving patches across multiple files and substantial code modifications. All tasks are human-verified and augmented with sufficient context to ensure resolvability. In our evaluation of widely used coding models, under a unified scaffold, we observe that their performance on SWE-Bench PRO remains below 25% (Pass@1), with GPT-5 achieving the highest score to date at 23.3%. To better understand these limitations, we cluster the failure modes observed in the collected agent trajectories for a clearer characterization of the error patterns exhibited by current models. Overall, SWE-BENCH PRO provides a contamination-resistant testbed that more faithfully captures the complexity and diversity of real-world software development, advancing the pursuit of truly autonomous software engineering agents at a professional level.
- Abstract(参考訳): SWE-Bench Proは、SWE-BENCH [25]のベストプラクティスに基づいた、かなり難しいベンチマークであるが、SWE-BENCHの範囲を超えて、現実的で複雑な、エンタープライズレベルの問題を捉えるように設計されている。
SWE-BENCH PROには、ビジネスアプリケーション、B2Bサービス、開発者ツールにまたがる41のアクティブメンテナンスリポジトリから得られた1,865の問題が含まれている。
ベンチマークは、11のレポジトリ、12のレポジトリ、および18のプロプライエタリなレポジトリから得られる問題にオープンアクセス可能な公開セットに分割され、アーリーステージのスタートアップと正式なパートナーシップを結んでいます。
ホールドアウトと商用セットの問題は一般にはアクセスできないが、我々は商用セットで結果を公表する。
私たちのベンチマークでは、プロのソフトウェアエンジニアが完成するまでに数時間から数日かかる長い水平タスクが特徴です。
すべてのタスクは人間によって検証され、解決可能性を保証するのに十分なコンテキストで拡張されます。
広範に使用されている符号化モデルの評価では,SWE-Bench PROの性能は25%以下であり(Pass@1),GPT-5は23.3%と高いスコアを得た。
これらの制約をよりよく理解するために、収集されたエージェント軌道で観測された障害モードをクラスタリングし、現在のモデルで示されるエラーパターンのより明確な特徴付けを行う。
全体として、SWE-BENCH PROは、実際のソフトウェア開発の複雑さと多様性をより忠実に捉え、真に自律的なソフトウェアエンジニアリングエージェントをプロフェッショナルレベルで追求する汚染耐性テストベッドを提供する。
関連論文リスト
- Trae Agent: An LLM-based Agent for Software Engineering with Test-time Scaling [18.390443362388623]
Trae Agentは、リポジトリレベルのイシュー解決のための、最初のエージェントベースのアンサンブル推論アプローチである。
広範に評価されたSWEベンチマークにおいて,3つの主要な大規模言語モデル(LLM)を用いて実験を行った。
Trae Agentは、Pass@1の観点で、すべてのベースラインに対して平均10.22%の改善で、一貫して優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-07-31T09:37:22Z) - SetupBench: Assessing Software Engineering Agents' Ability to Bootstrap Development Environments [2.184775414778289]
環境ブートストラップスキルを分離するベンチマークである setupbench を導入する。
私たちのタスクは7つの言語エコシステム、5つのデータベースエンジン、マルチサービスオーケストレーションシナリオにまたがっています。
特にリポジトリのセットアップ(38.9-57.4%)とローカルデータベースの設定(20.0-53.3%)に課題がある。
論文 参考訳(メタデータ) (2025-07-11T22:45:07Z) - Automated Benchmark Generation for Repository-Level Coding Tasks [7.305342793164905]
SetUpAgentは、歴史的に正確な依存性の設定、テスト実行、結果解析が可能な完全に自動化されたシステムである。
i)SWEE-Benchは数百のリポジトリを含むSWE-Benchの拡張バージョンで、ii)SWA-Benchはライブラリではなくアプリケーションに焦点を当てたベンチマークです。
論文 参考訳(メタデータ) (2025-03-10T17:42:49Z) - Towards Exception Safety Code Generation with Intermediate Representation Agents Framework [54.03528377384397]
大規模言語モデル(LLM)は、しばしば生成されたコードの堅牢な例外処理に苦しむ。
中間表現(IR)アプローチにより,LLM生成コードの例外安全性を実現する新しいマルチエージェントフレームワークであるSeekerを提案する。
Seekerは例外処理をScanner, Detector, Predator, Ranker, Handlerの5つの特殊エージェントに分解する。
論文 参考訳(メタデータ) (2024-10-09T14:45:45Z) - SUPER: Evaluating Agents on Setting Up and Executing Tasks from Research Repositories [55.161075901665946]
Superは、機械学習(ML)と自然言語処理(NLP)の研究リポジトリを扱う研究者が直面する現実的な課題を捉えることを目的としている。
本ベンチマークでは,注釈付きエキスパートソリューションを用いたエンドツーエンド問題45,特定の課題に焦点をあてたエキスパートソリューションから導いた152,大規模開発のための602の問題を自動生成する。
我々は、最先端のアプローチが、最良のモデル(GPT-4o)でこれらの問題を解決するのに苦労していることを示し、エンド・ツー・エンドの16.3%と46.1%のシナリオを解決した。
論文 参考訳(メタデータ) (2024-09-11T17:37:48Z) - Diversity Empowers Intelligence: Integrating Expertise of Software Engineering Agents [106.87436596397816]
大規模言語モデル(LLM)エージェントは、現実世界のソフトウェア工学(SWE)問題を解決する大きな可能性を示している。
専門知識を活かしたフレームワークであるDEI(Diversity Empowered Intelligence)を提案する。
実験により、DEAが指導するエージェント委員会が、最高のエージェントのパフォーマンスを大きなマージンで上回ることが可能であることが示されている。
論文 参考訳(メタデータ) (2024-08-13T17:50:28Z) - Agentless: Demystifying LLM-based Software Engineering Agents [12.19683999553113]
Agentless - ソフトウェア開発の問題を自動解決するためのエージェントレスアプローチです。
Agentlessはエージェントベースのアプローチの冗長で複雑な設定と比較すると、ローカライゼーション、修復、パッチ検証の3フェーズプロセスをシンプルに採用している。
人気の高いSWE-bench Liteベンチマークの結果から、Agentlessは驚くほど高いパフォーマンスと低コストを達成できることがわかった。
論文 参考訳(メタデータ) (2024-07-01T17:24:45Z) - Alibaba LingmaAgent: Improving Automated Issue Resolution via Comprehensive Repository Exploration [64.19431011897515]
本稿では,問題解決のためにソフトウェアリポジトリ全体を包括的に理解し,活用するために設計された,新しいソフトウェアエンジニアリング手法であるAlibaba LingmaAgentを提案する。
提案手法では,重要なリポジトリ情報を知識グラフに凝縮し,複雑さを低減し,モンテカルロ木探索に基づく戦略を採用する。
Alibaba Cloudの製品展開と評価において、LingmaAgentは、開発エンジニアが直面した社内問題の16.9%を自動で解決し、手作業による介入で43.3%の問題を解決した。
論文 参考訳(メタデータ) (2024-06-03T15:20:06Z) - Prompting Large Language Models to Tackle the Full Software Development Lifecycle: A Case Study [72.24266814625685]
DevEvalでソフトウェア開発ライフサイクル全体にわたって、大きな言語モデル(LLM)のパフォーマンスを調査します。
DevEvalは4つのプログラミング言語、複数のドメイン、高品質なデータ収集、各タスクに対して慎重に設計および検証されたメトリクスを備えている。
GPT-4を含む現在のLLMは、DevEvalで提示される課題を解決できないことが実証研究によって示されている。
論文 参考訳(メタデータ) (2024-03-13T15:13:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。