Fugu-MT 論文翻訳(概要): SWE-Bench++: A Framework for the Scalable Generation of Software Engineering Benchmarks from Open-Source Repositories

論文の概要: SWE-Bench++: A Framework for the Scalable Generation of Software Engineering Benchmarks from Open-Source Repositories

arxiv url: http://arxiv.org/abs/2512.17419v1
Date: Fri, 19 Dec 2025 10:16:51 GMT
ステータス: 翻訳完了
システム内更新日: 2025-12-22 19:25:54.340103
Title: SWE-Bench++: A Framework for the Scalable Generation of Software Engineering Benchmarks from Open-Source Repositories
Title（参考訳）: SWE-Bench++: オープンソースリポジトリからソフトウェアエンジニアリングベンチマークをスケーラブルに生成するためのフレームワーク
Authors: Lilin Wang, Lucas Ramalho, Alan Celestino, Phuc Anthony Pham, Yu Liu, Umang Kumar Sinha, Andres Portillo, Onassis Osunwa, Gabriel Maduekwe,
Abstract要約: オープンソースGitHubプロジェクトからリポジトリレベルのコーディングタスクを生成する自動フレームワークであるSWE-Bench++を紹介します。合成アプローチとは異なり、パイプラインは11言語にわたるバグ修正と機能要求の両方をカバーするために、ライブプルリクエストを収集します。最初のベンチマークは11言語にわたる3,971リポジトリから11,133インスタンスで構成されています。
参考スコア（独自算出の注目度）: 2.951332247539421
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Benchmarks like SWE-bench have standardized the evaluation of Large Language Models (LLMs) on repository-level software engineering tasks. However, these efforts remain limited by manual curation, static datasets, and a focus on Python-based bug fixes. We introduce SWE-Bench++, an automated framework that generates repository-level coding tasks from open-source GitHub projects. Unlike synthetic approaches, our pipeline harvests live pull requests to cover both bug fixes and feature requests across 11 languages. SWE-Bench++ turns GitHub pull requests (PRs) into reproducible, execution-based tasks via four stages: programmatic sourcing, environment synthesis, test oracle extraction, and quality assurance. A final hint-guided trajectory synthesis step converts instances that strong models fail on into training trajectories. Our initial benchmark consists of 11,133 instances from 3,971 repositories across 11 languages. On a subset of 1,782 instances of this benchmark, today's strongest models perform as follows: claude-sonnet-4.5 achieves 36.20% pass@10, gpt-5-2025-08-07 34.57%, gemini/gemini-2.5-pro 24.92%, and gpt-4o 16.89%. We further demonstrate the utility of our dataset by showing that fine-tuning on SWE-Bench++ instances yields measurable improvements on the SWE-bench Multilingual benchmark. SWE-Bench++ provides a scalable, multilingual benchmark for evaluating and improving repository-level code generation.
Abstract（参考訳）: SWE-benchのようなベンチマークは、リポジトリレベルのソフトウェアエンジニアリングタスクにおけるLarge Language Models (LLM)の評価を標準化した。しかし、これらの取り組みは、手動のキュレーション、静的データセット、Pythonベースのバグ修正に焦点を当てることによって制限されている。オープンソースGitHubプロジェクトからリポジトリレベルのコーディングタスクを生成する自動フレームワークであるSWE-Bench++を紹介します。合成アプローチとは異なり、パイプラインは11言語にわたるバグ修正と機能要求の両方をカバーするために、ライブプルリクエストを収集します。 SWE-Bench++は、GitHubのプルリクエスト(PR)を、プログラム的ソーシング、環境合成、テストオラクル抽出、品質保証という4つのステージを通じて再現可能な実行ベースのタスクに変換する。最後のヒント誘導軌道合成ステップは、強いモデルが失敗するインスタンスを訓練軌道に変換する。最初のベンチマークは11言語にわたる3,971リポジトリから11,133インスタンスで構成されています。 Clude-sonnet-4.5は36.20% pass@10、gpt-5-2025-08-07 34.57%、gemini/gemini-2.5-pro 24.92%、gpt-4o 16.89%である。 SWE-Bench++インスタンスの微調整がSWE-bench Multilingualベンチマークで測定可能な改善をもたらすことを示すことで、データセットの有用性をさらに実証する。 SWE-Bench++は、リポジトリレベルのコード生成を評価し改善するためのスケーラブルで多言語的なベンチマークを提供する。

関連論文リスト

RepoGenesis: Benchmarking End-to-End Microservice Generation from Readme to Repository [52.98970048197381]
RepoGenesisは、リポジトリレベルのエンドツーエンドWebマイクロサービス生成のための、最初の多言語ベンチマークである。 18のドメインと11のフレームワークに106のリポジトリ(60のPython、46のJava)があり、1,258のAPIエンドポイントと2,335のテストケースが検証されている。その結果、高いAC(最大73.91%)とDSR(最大100%)にもかかわらず、最高のパフォーマンスのシステムはPythonで23.67%のPass@1、Javaで21.45%しか達成していないことが明らかになった。
論文参考訳（メタデータ） (2026-01-20T13:19:20Z)
SWE-Sharp-Bench: A Reproducible Benchmark for C# Software Engineering Tasks [7.04771396439844]
SWE-Sharp-Benchは、C#のソフトウェアエンジニアリングベンチマークで、17のリポジトリから150のインスタンスが提供されている。 SWE-Bench VerifiedのPythonタスクの70%は解決されているが、我々のC#タスクの40%だけが解決されている。私たちはSWE-Sharp-Benchとキュレーションパイプライン全体をオープンソースにしています。
論文参考訳（メタデータ） (2025-11-04T08:16:23Z)
A Multi-Language Object-Oriented Programming Benchmark for Large Language Models [61.267115598083315]
35の既存ベンチマークの調査では、3つの大きな不均衡が明らかになった。 85.7%は単一のプログラミング言語に重点を置いている。 94.3%は関数レベルまたはステートメントレベルのタスクのみを対象としている。 80%以上は平均10件未満のテストケースを含む。
論文参考訳（メタデータ） (2025-09-30T11:30:08Z)
Skywork-SWE: Unveiling Data Scaling Laws for Software Engineering in LLMs [19.766885088032932]
ソフトウェアエンジニアリング(SWE)は、次世代のLLMエージェントにとって重要なテストベッドとして登場した。既存のデータセットのほとんどは、わずか数千のGitHubソースインスタンスに制限されている。 SWEデータセットのボリュームと多様性の両方を体系的にスケールするインクリメンタルな自動データキュレーションパイプラインを提案する。
論文参考訳（メタデータ） (2025-06-24T03:53:36Z)
SwingArena: Competitive Programming Arena for Long-context GitHub Issue Solving [90.32201622392137]
We present SwingArena, a competitive evaluation framework for Large Language Models (LLMs)。従来の静的ベンチマークとは異なり、SwingArenaはLLMをイテレーションとして組み合わせて、テストケースを作成し、継続的インテグレーション(CI)パイプラインを通じてパッチを検証するパッチとレビュアーを生成することで、ソフトウェアのコラボレーションプロセスをモデル化する。
論文参考訳（メタデータ） (2025-05-29T18:28:02Z)
GitGoodBench: A Novel Benchmark For Evaluating Agentic Performance On Git [0.8397730500554048]
GitGoodBenchは、バージョン管理システム(VCS)タスク上でAIエージェントのパフォーマンスを評価するための新しいベンチマークである。私たちのベンチマークでは、オープンソースのPython、Java、Kotlinリポジトリから抽出された3つのコアGitシナリオについて取り上げています。我々は、カスタムツールを備えたGPT-4oを用いて、ベンチマークのプロトタイプバージョン上でベースライン性能を確立し、全体的な21.1%の解決率を達成する。
論文参考訳（メタデータ） (2025-05-28T16:56:11Z)
SWE-smith: Scaling Data for Software Engineering Agents [100.30273957706237]
SWE-smithは、大規模なソフトウェアエンジニアリングトレーニングデータを生成するための新しいパイプラインである。 128のGitHubリポジトリからソースされた50kインスタンスのデータセットを作成します。我々はSWE-agent-LM-32Bをトレーニングし、SWE-bench Verifiedベンチマークで40.2%のPass@1リゾルバ率を達成した。
論文参考訳（メタデータ） (2025-04-30T16:56:06Z)
SWE-PolyBench: A multi-language benchmark for repository level evaluation of coding agents [49.73885480071402]
我々はSWE-PolyBenchを紹介した。SWE-PolyBenchは、コードエージェントのリポジトリレベル、実行ベース評価のための新しいベンチマークである。 SWE-PolyBenchには21のリポジトリから2110のインスタンスが含まれており、Java(165)、JavaScript(1017)、TypeScript(729)、Python(199)のタスクが含まれており、バグ修正、機能追加、コードを含んでいる。実験の結果,現在のエージェントは言語間で不均一なパフォーマンスを示し,複雑な問題に対処しつつ,単純なタスクで高いパフォーマンスを示すことがわかった。
論文参考訳（メタデータ） (2025-04-11T17:08:02Z)
RustRepoTrans: Repository-level Code Translation Benchmark Targeting Rust [50.65321080814249]
RustRepoTransは、インクリメンタル翻訳をターゲットにした、最初のリポジトリレベルのコンテキストコード変換ベンチマークである。複雑な翻訳シナリオの制約を評価するために, 7つの代表的なLLMを評価し, それらの誤差を分析した。
論文参考訳（メタデータ） (2024-11-21T10:00:52Z)
SWE-bench-java: A GitHub Issue Resolving Benchmark for Java [27.226354754864783]
大規模言語モデル(LLM)の問題解決能力を評価するため、SWE-benchがリリースされた。マルチ言語サポートへの第一歩として、SWE-bench-javaと呼ばれるSWE-benchのJavaバージョンを開発しました。 SWE-bench-javaの信頼性を検証するために、従来のSWE-agentを実装し、その上で複数の強力なLCMをテストする。
論文参考訳（メタデータ） (2024-08-26T15:30:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。