論文の概要: SWE-rebench V2: Language-Agnostic SWE Task Collection at Scale
- arxiv url: http://arxiv.org/abs/2602.23866v1
- Date: Fri, 27 Feb 2026 10:06:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 19:48:24.35972
- Title: SWE-rebench V2: Language-Agnostic SWE Task Collection at Scale
- Title(参考訳): SWE-rebench V2:Language-Agnostic SWE Task Collection at Scale
- Authors: Ibragim Badertdinov, Maksim Nekrashevich, Anton Shevtsov, Alexander Golubev,
- Abstract要約: SWE-rebench V2は、実行可能な実世界のSWEタスクを回収し、大規模にRLトレーニング環境を構築するための自動パイプラインである。
20の言語と3,600以上のリポジトリにまたがる32,000以上のタスクのデータセットを構築し、再現可能な画像を生成する。
トレーニングデータをさらにスケールするために、インストール命令、フェール・ツー・パステスト、豊富なメタデータを備えた12000以上のタスクもリリースしています。
- 参考スコア(独自算出の注目度): 39.33317467753191
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Software engineering agents (SWE) are improving rapidly, with recent gains largely driven by reinforcement learning (RL). However, RL training is constrained by the scarcity of large-scale task collections with reproducible execution environments and reliable test suites. Although a growing number of benchmarks have emerged, datasets suitable for training remain limited in scale and diversity or often target a limited set of high-resource language ecosystems. We introduce SWE-rebench V2, a language-agnostic automated pipeline for harvesting executable real-world SWE tasks and constructing RL training environments at scale. The pipeline synthesizes repository-specific installation and test procedures via an interactive setup agent, and filters unsound instances using an ensemble of LLM judges, validated against human-verified SWE-bench annotations. Using this pipeline, we construct a dataset of 32,000+ tasks spanning 20 languages and 3,600+ repositories, with pre-built images for reproducible execution. To further scale training data, we additionally release 120,000+ tasks with installation instructions, fail-to-pass tests and rich metadata, where the problem statement is generated based on the original pull request description. We validate the collected instances through a diagnostic study that covers a subset of tasks in five programming languages across seven popular models, and provide instance-level metadata that flags common confounders such as overly restrictive tests and underspecified descriptions. We release the datasets, the collection and execution code, and associated artifacts to enable large-scale training of SWE agents across diverse languages and repositories.
- Abstract(参考訳): ソフトウェアエンジニアリングエージェント(SWE)は、強化学習(RL)を中心に、急速に改善している。
しかし、RLトレーニングは再現可能な実行環境と信頼性の高いテストスイートを備えた大規模タスクコレクションの不足によって制限されている。
ベンチマークが増えているが、トレーニングに適したデータセットは、スケールと多様性に制限があるか、あるいは高レベルの言語エコシステムの限られたセットをターゲットにしていることが多い。
SWE-rebench V2は、実行可能実世界のSWEタスクを抽出し、大規模にRLトレーニング環境を構築するための言語に依存しない自動パイプラインである。
このパイプラインは、対話的なセットアップエージェントを介してリポジトリ固有のインストールとテスト手順を合成し、人間の検証されたSWE-benchアノテーションに対して検証されたLLMジャッジのアンサンブルを使用して、不適切なインスタンスをフィルタリングする。
このパイプラインを用いて、20言語と3600以上のリポジトリにまたがる32,000以上のタスクのデータセットを構築し、再現可能な画像を生成する。
トレーニングデータをさらにスケールするために、インストール命令、フェール・ツー・パステスト、リッチメタデータを備えた12000以上のタスクもリリースします。
7つの一般的なモデルにわたる5つのプログラミング言語のタスクのサブセットをカバーする診断研究を通じて収集されたインスタンスを検証し、過剰に制限されたテストや説明不足といった一般的な共同創設者にフラグを付けるインスタンスレベルのメタデータを提供する。
データセット、コレクションおよび実行コード、および関連するアーティファクトをリリースし、多様な言語やリポジトリにわたるSWEエージェントの大規模なトレーニングを可能にします。
関連論文リスト
- Immersion in the GitHub Universe: Scaling Coding Agents to Mastery [60.359983359258955]
ScaleSWEは、高品質なSWEデータを大規模に構築するために設計された、自動化されたサンドボックス化されたマルチエージェントワークフローである。
このシステムは、環境設定、テスト生成、問題記述合成のための3つの特別なエージェントをコーディネートし、5200リポジトリにわたる600万のプルリクエストを処理する。
論文 参考訳(メタデータ) (2026-02-10T15:30:19Z) - SWE-World: Building Software Engineering Agents in Docker-Free Environments [91.17484806743641]
SWE-Worldは、物理的な実行環境を、ソフトウェアエンジニアリングエージェントのトレーニングと評価のための学習的なサロゲートに置き換える、Dockerフリーのフレームワークである。
我々は,SWE-WorldがQwen2.5-Coder-32Bを,DockerフリーのSFTで6.2%から52.0%,DockerフリーのRLで55.0%,さらにTSで68.2%に引き上げたことを示す。
論文 参考訳(メタデータ) (2026-02-03T11:44:39Z) - Webscale-RL: Automated Data Pipeline for Scaling RL Data to Pretraining Levels [96.35283762778137]
我々は、強化学習のためのスケーラブルなデータエンジンであるWebscale-RLパイプラインを紹介した。
9ドメイン以上にわたる120万のサンプルを含むWebscale-RLデータセットを構築した。
我々の研究は、RLを事前学習レベルに拡張するための実行可能なパスを示し、より有能で効率的な言語モデルを可能にします。
論文 参考訳(メタデータ) (2025-10-07T22:30:59Z) - Dynamic Benchmark Construction for Evaluating Large Language Models on Real-World Codes [33.80591142965565]
CODE2BENCHは、実世界のGitHubリポジトリから、堅牢で汚染に強いベンチマークを動的に構築するためのパイプラインである。
特に、CODE2BENCHは、(1) トレーニングデータの汚染を最小限に抑えるために、最近のコードの周期的取り込みによって達成される自動ダイナミズム、(2) 依存レベルの制御されたベンチマークインスタンスへの関数の構造化可能なスコープグラフベースの依存性分析、(3) 厳密なテストスイートの自動合成のためのプロパティベーステスト(PBT)の3つの重要なイノベーションを紹介している。
論文 参考訳(メタデータ) (2025-08-10T05:06:36Z) - FineWeb2: One Pipeline to Scale Them All -- Adapting Pre-Training Data Processing to Every Language [48.79534869177174]
我々は、FineWebをベースにした、新しいトレーニング済みデータセットキュレーションパイプラインを導入する。
我々のパイプラインは、以前のデータセットよりもパフォーマンスの高いモデルを生成する非英語コーパスを作成するために使用できることを示す。
パイプラインを約100のCommon Crawlスナップショットを使用して1000以上の言語に拡張し、新たに20テラバイト(50億ドキュメント)のマルチリンガルデータセットであるFinWeb2を生成しました。
論文 参考訳(メタデータ) (2025-06-26T01:01:47Z) - Skywork-SWE: Unveiling Data Scaling Laws for Software Engineering in LLMs [19.766885088032932]
ソフトウェアエンジニアリング(SWE)は、次世代のLLMエージェントにとって重要なテストベッドとして登場した。
既存のデータセットのほとんどは、わずか数千のGitHubソースインスタンスに制限されている。
SWEデータセットのボリュームと多様性の両方を体系的にスケールするインクリメンタルな自動データキュレーションパイプラインを提案する。
論文 参考訳(メタデータ) (2025-06-24T03:53:36Z) - SWE-rebench: An Automated Pipeline for Task Collection and Decontaminated Evaluation of Software Engineering Agents [31.921127664873882]
LLMベースのエージェントは、SWE(Software Engineering)タスクの増加に期待できる能力を示している。
高品質なトレーニングデータは、特に現実世界のSWEシナリオを反映したデータが少ない。
既存のデータセットはワンショットのコード生成に限られるか、小さな手作業による対話的なタスクのコレクションで構成されている。
論文 参考訳(メタデータ) (2025-05-26T18:01:00Z) - XtremeDistilTransformers: Task Transfer for Task-agnostic Distillation [80.18830380517753]
我々は新しいタスク非依存蒸留フレームワーク XtremeDistilTransformers を開発した。
本研究は, 蒸留における複数のソースタスク, 拡張資源, モデルアーキテクチャの伝達可能性について検討する。
論文 参考訳(メタデータ) (2021-06-08T17:49:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。