論文の概要: SWE-Bench++: A Framework for the Scalable Generation of Software Engineering Benchmarks from Open-Source Repositories
- arxiv url: http://arxiv.org/abs/2512.17419v1
- Date: Fri, 19 Dec 2025 10:16:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-22 19:25:54.340103
- Title: SWE-Bench++: A Framework for the Scalable Generation of Software Engineering Benchmarks from Open-Source Repositories
- Title(参考訳): SWE-Bench++: オープンソースリポジトリからソフトウェアエンジニアリングベンチマークをスケーラブルに生成するためのフレームワーク
- Authors: Lilin Wang, Lucas Ramalho, Alan Celestino, Phuc Anthony Pham, Yu Liu, Umang Kumar Sinha, Andres Portillo, Onassis Osunwa, Gabriel Maduekwe,
- Abstract要約: オープンソースGitHubプロジェクトからリポジトリレベルのコーディングタスクを生成する自動フレームワークであるSWE-Bench++を紹介します。
合成アプローチとは異なり、パイプラインは11言語にわたるバグ修正と機能要求の両方をカバーするために、ライブプルリクエストを収集します。
最初のベンチマークは11言語にわたる3,971リポジトリから11,133インスタンスで構成されています。
- 参考スコア(独自算出の注目度): 2.951332247539421
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Benchmarks like SWE-bench have standardized the evaluation of Large Language Models (LLMs) on repository-level software engineering tasks. However, these efforts remain limited by manual curation, static datasets, and a focus on Python-based bug fixes. We introduce SWE-Bench++, an automated framework that generates repository-level coding tasks from open-source GitHub projects. Unlike synthetic approaches, our pipeline harvests live pull requests to cover both bug fixes and feature requests across 11 languages. SWE-Bench++ turns GitHub pull requests (PRs) into reproducible, execution-based tasks via four stages: programmatic sourcing, environment synthesis, test oracle extraction, and quality assurance. A final hint-guided trajectory synthesis step converts instances that strong models fail on into training trajectories. Our initial benchmark consists of 11,133 instances from 3,971 repositories across 11 languages. On a subset of 1,782 instances of this benchmark, today's strongest models perform as follows: claude-sonnet-4.5 achieves 36.20% pass@10, gpt-5-2025-08-07 34.57%, gemini/gemini-2.5-pro 24.92%, and gpt-4o 16.89%. We further demonstrate the utility of our dataset by showing that fine-tuning on SWE-Bench++ instances yields measurable improvements on the SWE-bench Multilingual benchmark. SWE-Bench++ provides a scalable, multilingual benchmark for evaluating and improving repository-level code generation.
- Abstract(参考訳): SWE-benchのようなベンチマークは、リポジトリレベルのソフトウェアエンジニアリングタスクにおけるLarge Language Models (LLM)の評価を標準化した。
しかし、これらの取り組みは、手動のキュレーション、静的データセット、Pythonベースのバグ修正に焦点を当てることによって制限されている。
オープンソースGitHubプロジェクトからリポジトリレベルのコーディングタスクを生成する自動フレームワークであるSWE-Bench++を紹介します。
合成アプローチとは異なり、パイプラインは11言語にわたるバグ修正と機能要求の両方をカバーするために、ライブプルリクエストを収集します。
SWE-Bench++は、GitHubのプルリクエスト(PR)を、プログラム的ソーシング、環境合成、テストオラクル抽出、品質保証という4つのステージを通じて再現可能な実行ベースのタスクに変換する。
最後のヒント誘導軌道合成ステップは、強いモデルが失敗するインスタンスを訓練軌道に変換する。
最初のベンチマークは11言語にわたる3,971リポジトリから11,133インスタンスで構成されています。
Clude-sonnet-4.5は36.20% pass@10、gpt-5-2025-08-07 34.57%、gemini/gemini-2.5-pro 24.92%、gpt-4o 16.89%である。
SWE-Bench++インスタンスの微調整がSWE-bench Multilingualベンチマークで測定可能な改善をもたらすことを示すことで、データセットの有用性をさらに実証する。
SWE-Bench++は、リポジトリレベルのコード生成を評価し改善するためのスケーラブルで多言語的なベンチマークを提供する。
関連論文リスト
- SWE-Sharp-Bench: A Reproducible Benchmark for C# Software Engineering Tasks [7.04771396439844]
SWE-Sharp-Benchは、C#のソフトウェアエンジニアリングベンチマークで、17のリポジトリから150のインスタンスが提供されている。
SWE-Bench VerifiedのPythonタスクの70%は解決されているが、我々のC#タスクの40%だけが解決されている。
私たちはSWE-Sharp-Benchとキュレーションパイプライン全体をオープンソースにしています。
論文 参考訳(メタデータ) (2025-11-04T08:16:23Z) - Skywork-SWE: Unveiling Data Scaling Laws for Software Engineering in LLMs [19.766885088032932]
ソフトウェアエンジニアリング(SWE)は、次世代のLLMエージェントにとって重要なテストベッドとして登場した。
既存のデータセットのほとんどは、わずか数千のGitHubソースインスタンスに制限されている。
SWEデータセットのボリュームと多様性の両方を体系的にスケールするインクリメンタルな自動データキュレーションパイプラインを提案する。
論文 参考訳(メタデータ) (2025-06-24T03:53:36Z) - SwingArena: Competitive Programming Arena for Long-context GitHub Issue Solving [90.32201622392137]
We present SwingArena, a competitive evaluation framework for Large Language Models (LLMs)。
従来の静的ベンチマークとは異なり、SwingArenaはLLMをイテレーションとして組み合わせて、テストケースを作成し、継続的インテグレーション(CI)パイプラインを通じてパッチを検証するパッチとレビュアーを生成することで、ソフトウェアのコラボレーションプロセスをモデル化する。
論文 参考訳(メタデータ) (2025-05-29T18:28:02Z) - GitGoodBench: A Novel Benchmark For Evaluating Agentic Performance On Git [0.8397730500554048]
GitGoodBenchは、バージョン管理システム(VCS)タスク上でAIエージェントのパフォーマンスを評価するための新しいベンチマークである。
私たちのベンチマークでは、オープンソースのPython、Java、Kotlinリポジトリから抽出された3つのコアGitシナリオについて取り上げています。
我々は、カスタムツールを備えたGPT-4oを用いて、ベンチマークのプロトタイプバージョン上でベースライン性能を確立し、全体的な21.1%の解決率を達成する。
論文 参考訳(メタデータ) (2025-05-28T16:56:11Z) - SWE-smith: Scaling Data for Software Engineering Agents [100.30273957706237]
SWE-smithは、大規模なソフトウェアエンジニアリングトレーニングデータを生成するための新しいパイプラインである。
128のGitHubリポジトリからソースされた50kインスタンスのデータセットを作成します。
我々はSWE-agent-LM-32Bをトレーニングし、SWE-bench Verifiedベンチマークで40.2%のPass@1リゾルバ率を達成した。
論文 参考訳(メタデータ) (2025-04-30T16:56:06Z) - SWE-PolyBench: A multi-language benchmark for repository level evaluation of coding agents [49.73885480071402]
我々はSWE-PolyBenchを紹介した。SWE-PolyBenchは、コードエージェントのリポジトリレベル、実行ベース評価のための新しいベンチマークである。
SWE-PolyBenchには21のリポジトリから2110のインスタンスが含まれており、Java(165)、JavaScript(1017)、TypeScript(729)、Python(199)のタスクが含まれており、バグ修正、機能追加、コードを含んでいる。
実験の結果,現在のエージェントは言語間で不均一なパフォーマンスを示し,複雑な問題に対処しつつ,単純なタスクで高いパフォーマンスを示すことがわかった。
論文 参考訳(メタデータ) (2025-04-11T17:08:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。