論文の概要: Immersion in the GitHub Universe: Scaling Coding Agents to Mastery
- arxiv url: http://arxiv.org/abs/2602.09892v1
- Date: Tue, 10 Feb 2026 15:30:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.641569
- Title: Immersion in the GitHub Universe: Scaling Coding Agents to Mastery
- Title(参考訳): GitHubユニバースにおけるImmersion: コーディングエージェントをマスタに拡張
- Authors: Jiale Zhao, Guoxin Chen, Fanzhe Meng, Minghao Li, Jie Chen, Hui Xu, Yongshuai Sun, Xin Zhao, Ruihua Song, Yuan Zhang, Peng Wang, Cheng Chen, Jirong Wen, Kai Jia,
- Abstract要約: ScaleSWEは、高品質なSWEデータを大規模に構築するために設計された、自動化されたサンドボックス化されたマルチエージェントワークフローである。
このシステムは、環境設定、テスト生成、問題記述合成のための3つの特別なエージェントをコーディネートし、5200リポジトリにわたる600万のプルリクエストを処理する。
- 参考スコア(独自算出の注目度): 60.359983359258955
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Achieving mastery in real world software engineering tasks is fundamentally bottlenecked by the scarcity of large scale, high quality training data. Scaling such data has been limited by the complexity of environment setup, unit test generation, and problem statement curation. In this paper, we propose ScaleSWE, an automated, sandboxed multi agent workflow designed to construct high quality SWE data at scale. The system coordinates three specialized agents for environment setup, test creation, and problem description synthesis to process 6 million pull requests across 5200 repositories, producing Scale SWE Data: 100k verified SWE instances, the largest such dataset to date. It substantially surpasses existing real world datasets in repository diversity and reflects realistic task complexity. We further demonstrate the dataset utility for training by distilling 71498 high quality trajectories and finetuning Qwen30BA3BInstruct to produce ScaleSWE Agent. Our agent achieves a 64 resolve rate on SWE Bench Verified a nearly three fold improvement over the base model. ScaleSWE provides a scalable, reproducible approach for data construction to advance LLM based software engineering. Scale SWE will be publicly available.
- Abstract(参考訳): 現実世界のソフトウェアエンジニアリングタスクにおける熟達の達成は、大規模で高品質なトレーニングデータの不足によって、基本的にボトルネックとなる。
このようなデータのスケーリングは、環境設定の複雑さ、ユニットテストの生成、問題ステートメントのキュレーションによって制限されている。
本論文では,高品質なSWEデータを大規模に構築するための自動サンドボックス型マルチエージェントワークフローであるScaleSWEを提案する。
このシステムは、環境設定、テスト生成、問題記述合成のための3つの特別なエージェントをコーディネートし、5200リポジトリにわたる600万のプルリクエストを処理し、スケールSWEデータを生成する。
リポジトリの多様性において、既存の現実世界のデータセットを大幅に上回り、現実的なタスクの複雑さを反映します。
さらに、71498の高品質な軌跡を蒸留し、Qwen30BA3Bインストラクトを微調整してScaleSWE Agentを製造することにより、トレーニングのためのデータセットの有用性を実証する。
我々のエージェントはSWE Bench Verified上で64倍の分解率を実現し,ベースモデルよりも3倍近く改善した。
ScaleSWEは、LLMベースのソフトウェアエンジニアリングを前進させるために、データ構築のためのスケーラブルで再現可能なアプローチを提供する。
Scale SWEが公開される。
関連論文リスト
- SWE-Master: Unleashing the Potential of Software Engineering Agents via Post-Training [78.37721886775215]
本稿では,効率的なソフトウェアエンジニアリングエージェントを構築するためのオープンソースフレームワークであるSWE-Masterを紹介する。
SWE-Masterは、教師-軌道合成やデータキュレーションを含む、完全なエージェント開発パイプラインを体系的に探索する。
SWE-bench Verified(SWE-bench Verified)は,現実的なソフトウェアエンジニアリングタスクの標準ベンチマークである。
論文 参考訳(メタデータ) (2026-02-03T11:38:48Z) - SWE-Universe: Scale Real-World Verifiable Environments to Millions [84.63665266236963]
SWE-Universeは、GitHubのプルリクエスト(PR)から検証可能な環境を自動的に構築するフレームワークである。
本稿では, 自動建築の課題を克服するために, 効率的なカスタムトレーニングモデルを用いた建築エージェントを提案する。
大規模エージェントによる中等教育と強化学習を通じて,環境の重要さを実証する。
論文 参考訳(メタデータ) (2026-02-02T17:20:30Z) - EnvScaler: Scaling Tool-Interactive Environments for LLM Agent via Programmatic Synthesis [101.67583081810136]
大規模言語モデル(LLM)は、様々な現実世界環境においてエージェントとして機能するよう訓練されることが期待されている。
このプロセスはリッチで多様なツール・インタラクション・サンドボックスに依存している。
スケーラブルなツールインタラクション環境のための自動化フレームワークであるEnvScalerを提案する。
論文 参考訳(メタデータ) (2026-01-09T14:32:06Z) - SWE-Mirror: Scaling Issue-Resolving Datasets by Mirroring Issues Across Repositories [15.458389392000706]
SWE-Mirrorは、現実世界のイシューのセマンティックセマンティクスを蒸留し、設定されたGym環境で他のレポジトリにミラーし、検証可能なイシュー解決タスクとして再認識するパイプラインである。
4つの言語にわたる40のリポジトリにSWE-Mirrorを適用することで、60,671の問題解決タスクを備えたデータセットをキュレートしました。
トレーニング後の実験は、データセットでトレーニングされたモデルが問題解決能力を改善することを示している。
論文 参考訳(メタデータ) (2025-09-10T16:15:23Z) - Skywork-SWE: Unveiling Data Scaling Laws for Software Engineering in LLMs [19.766885088032932]
ソフトウェアエンジニアリング(SWE)は、次世代のLLMエージェントにとって重要なテストベッドとして登場した。
既存のデータセットのほとんどは、わずか数千のGitHubソースインスタンスに制限されている。
SWEデータセットのボリュームと多様性の両方を体系的にスケールするインクリメンタルな自動データキュレーションパイプラインを提案する。
論文 参考訳(メタデータ) (2025-06-24T03:53:36Z) - SWE-Dev: Building Software Engineering Agents with Training and Inference Scaling [39.53265893083118]
大規模言語モデル(LLM)は、会話による問題解決から、ツール使用に関わる現実的なタスクへの対処まで、急速に進歩している。
この問題に対処するために、オープンソースのLLM上に構築されたSWEエージェントであるSWE-Devを提案する。
SWE-bench-Verifiedベンチマークの実験は、SWE-Devモデルが全てのオープンなSWEエージェントの中で最高のパフォーマンスを達成できることを示している。
論文 参考訳(メタデータ) (2025-06-09T11:03:16Z) - SWE-smith: Scaling Data for Software Engineering Agents [100.30273957706237]
SWE-smithは、大規模なソフトウェアエンジニアリングトレーニングデータを生成するための新しいパイプラインである。
128のGitHubリポジトリからソースされた50kインスタンスのデータセットを作成します。
我々はSWE-agent-LM-32Bをトレーニングし、SWE-bench Verifiedベンチマークで40.2%のPass@1リゾルバ率を達成した。
論文 参考訳(メタデータ) (2025-04-30T16:56:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。