論文の概要: SWE-Next: Scalable Real-World Software Engineering Tasks for Agents
- arxiv url: http://arxiv.org/abs/2603.20691v1
- Date: Sat, 21 Mar 2026 07:26:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.041978
- Title: SWE-Next: Scalable Real-World Software Engineering Tasks for Agents
- Title(参考訳): SWE-Next:エージェントのためのスケーラブルな実世界のソフトウェアエンジニアリングタスク
- Authors: Jiarong Liang, Zhiheng Lyu, Zijie Liu, Xiangchao Chen, Ping Nie, Kai Zou, Wenhu Chen,
- Abstract要約: 本稿では,スケーラブルなSWEタスクとトラジェクトリコレクションのための実行基盤フレームワークであるSWE-Nextを提案する。
SWE-Nextは、実際のマージされたプルリクエストをマイニングし、候補ベース/マージされたコミットペアを実行し、レグレッションなしで厳格なテスト改善を生成するもののみを保持する。
また、厳格な提出ゲーティングを適用して、収集された軌跡は推測よりも証拠駆動である。
- 参考スコア(独自算出の注目度): 46.235209026216246
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Executable software engineering data is valuable for training SWE agents, but scaling it remains difficult for two reasons: only a small fraction of real repository changes yield verifiable, high-signal task instances, and naively building repository-specific environments quickly becomes the dominant systems cost. We present SWE-Next, an execution-grounded framework for scalable SWE task and trajectory collection. On the data side, SWE-Next mines real merged pull requests, executes candidate base/merged commit pairs, and retains only those that produce strict test improvements without regressions, yielding self-verifying instances. It also applies strict submission gating so that collected trajectories remain evidence-driven rather than speculative. On the systems side, SWE-Next introduces reusable repo-quarter profiles, which reuse the same environment across nearby commits in time while keeping each task run separate and reproducible. Using only 30 hours and 639GB of environment storage, SWE-Next processes 3,971 seed repositories and 102,582 candidate commit pairs mined from real merged PRs to construct a dataset of 2,308 self-verifying instances. Experiments show that SWE-Next improves downstream pass@1 with fewer or comparable training trajectories, indicating that its gains come not from a stronger trajectory generator, but from higher-signal execution-grounded supervision and more efficient data collection.
- Abstract(参考訳): 実行可能なソフトウェアエンジニアリングデータは、SWEエージェントのトレーニングに有用だが、実際のリポジトリ変更のごく一部しか、検証可能で高信号のタスクインスタンスを生成せず、リポジトリ固有の環境を素直に構築することが、すぐに支配的なシステムコストになる、という2つの理由から、スケーリングは依然として困難である。
本稿では、スケーラブルなSWEタスクとトラジェクトリコレクションのための実行基盤フレームワークであるSWE-Nextを提案する。
データ側では、SWE-Nextは実際のマージされたプルリクエストをマイニングし、候補ベース/マージされたコミットペアを実行し、レグレッションなしで厳格なテスト改善を生成するもののみを保持し、自己検証インスタンスを生成する。
また、厳格な提出ゲーティングを適用して、収集された軌跡は推測よりも証拠駆動である。
システム側では、SWE-Nextは再利用可能なリポジトリクォータープロファイルを導入している。
30時間639GBの環境ストレージを使用すると、SWE-Nextは3,971のシードリポジトリと102,582のコミットペアを実際のマージされたPRからマイニングして2,308の自己検証インスタンスのデータセットを構築する。
実験によると、SWE-Nextは、より少ないまたは同等のトレーニングトラジェクトリで下流パス@1を改善しており、より強力なトラジェクトリジェネレータからではなく、より高い信号実行による監視とより効率的なデータ収集から利益を得ていることを示している。
関連論文リスト
- SWE-rebench V2: Language-Agnostic SWE Task Collection at Scale [39.33317467753191]
SWE-rebench V2は、実行可能な実世界のSWEタスクを回収し、大規模にRLトレーニング環境を構築するための自動パイプラインである。
20の言語と3,600以上のリポジトリにまたがる32,000以上のタスクのデータセットを構築し、再現可能な画像を生成する。
トレーニングデータをさらにスケールするために、インストール命令、フェール・ツー・パステスト、豊富なメタデータを備えた12000以上のタスクもリリースしています。
論文 参考訳(メタデータ) (2026-02-27T10:06:10Z) - Immersion in the GitHub Universe: Scaling Coding Agents to Mastery [60.359983359258955]
ScaleSWEは、高品質なSWEデータを大規模に構築するために設計された、自動化されたサンドボックス化されたマルチエージェントワークフローである。
このシステムは、環境設定、テスト生成、問題記述合成のための3つの特別なエージェントをコーディネートし、5200リポジトリにわたる600万のプルリクエストを処理する。
論文 参考訳(メタデータ) (2026-02-10T15:30:19Z) - SWE-World: Building Software Engineering Agents in Docker-Free Environments [91.17484806743641]
SWE-Worldは、物理的な実行環境を、ソフトウェアエンジニアリングエージェントのトレーニングと評価のための学習的なサロゲートに置き換える、Dockerフリーのフレームワークである。
我々は,SWE-WorldがQwen2.5-Coder-32Bを,DockerフリーのSFTで6.2%から52.0%,DockerフリーのRLで55.0%,さらにTSで68.2%に引き上げたことを示す。
論文 参考訳(メタデータ) (2026-02-03T11:44:39Z) - Skywork-SWE: Unveiling Data Scaling Laws for Software Engineering in LLMs [19.766885088032932]
ソフトウェアエンジニアリング(SWE)は、次世代のLLMエージェントにとって重要なテストベッドとして登場した。
既存のデータセットのほとんどは、わずか数千のGitHubソースインスタンスに制限されている。
SWEデータセットのボリュームと多様性の両方を体系的にスケールするインクリメンタルな自動データキュレーションパイプラインを提案する。
論文 参考訳(メタデータ) (2025-06-24T03:53:36Z) - SWE-rebench: An Automated Pipeline for Task Collection and Decontaminated Evaluation of Software Engineering Agents [31.921127664873882]
LLMベースのエージェントは、SWE(Software Engineering)タスクの増加に期待できる能力を示している。
高品質なトレーニングデータは、特に現実世界のSWEシナリオを反映したデータが少ない。
既存のデータセットはワンショットのコード生成に限られるか、小さな手作業による対話的なタスクのコレクションで構成されている。
論文 参考訳(メタデータ) (2025-05-26T18:01:00Z) - SWE-smith: Scaling Data for Software Engineering Agents [100.30273957706237]
SWE-smithは、大規模なソフトウェアエンジニアリングトレーニングデータを生成するための新しいパイプラインである。
128のGitHubリポジトリからソースされた50kインスタンスのデータセットを作成します。
我々はSWE-agent-LM-32Bをトレーニングし、SWE-bench Verifiedベンチマークで40.2%のPass@1リゾルバ率を達成した。
論文 参考訳(メタデータ) (2025-04-30T16:56:06Z) - Automated Benchmark Generation for Repository-Level Coding Tasks [7.305342793164905]
SetUpAgentは、歴史的に正確な依存性の設定、テスト実行、結果解析が可能な完全に自動化されたシステムである。
i)SWEE-Benchは数百のリポジトリを含むSWE-Benchの拡張バージョンで、ii)SWA-Benchはライブラリではなくアプリケーションに焦点を当てたベンチマークです。
論文 参考訳(メタデータ) (2025-03-10T17:42:49Z) - Training Software Engineering Agents and Verifiers with SWE-Gym [89.55822534364727]
SWE-Gymは、現実世界のソフトウェアエンジニアリング(SWE)エージェントをトレーニングするための最初の環境である。
SWE-Gymには2,438の現実世界のPythonタスクインスタンスが含まれている。
我々はSWE-Gymを用いて言語モデルに基づくSWEエージェントを訓練し、解答率において最大19%の絶対ゲインを達成する。
論文 参考訳(メタデータ) (2024-12-30T18:15:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。