論文の概要: daVinci-Env: Open SWE Environment Synthesis at Scale
- arxiv url: http://arxiv.org/abs/2603.13023v1
- Date: Fri, 13 Mar 2026 14:32:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-16 17:38:12.118748
- Title: daVinci-Env: Open SWE Environment Synthesis at Scale
- Title(参考訳): daVinci-Env: スケールでのオープンSWE環境合成
- Authors: Dayuan Fu, Shenyu Wu, Yunze Wu, Zerui Peng, Yaxing Huang, Jie Sun, Ji Zeng, Mohan Jiang, Lin Zhang, Yukun Li, Jiarui Hu, Liming Liu, Jinlong Hou, Pengfei Liu,
- Abstract要約: 有能なソフトウェアエンジニアリング(SWE)エージェントの訓練には、大規模で実行可能で検証可能な環境が必要である。
我々は、PythonにおけるSWEエージェントトレーニングのための最大の完全透明なフレームワークであるOpenSWEを紹介する。
OpenSWEは64ノードの分散クラスタにデプロイされたマルチエージェント合成パイプラインを通じて構築される。
- 参考スコア(独自算出の注目度): 21.291944594753385
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training capable software engineering (SWE) agents demands large-scale, executable, and verifiable environments that provide dynamic feedback loops for iterative code editing, test execution, and solution refinement. However, existing open-source datasets remain limited in scale and repository diversity, while industrial solutions are opaque with unreleased infrastructure, creating a prohibitive barrier for most academic research groups. We present OpenSWE, the largest fully transparent framework for SWE agent training in Python, comprising 45,320 executable Docker environments spanning over 12.8k repositories, with all Dockerfiles, evaluation scripts, and infrastructure fully open-sourced for reproducibility. OpenSWE is built through a multi-agent synthesis pipeline deployed across a 64-node distributed cluster, automating repository exploration, Dockerfile construction, evaluation script generation, and iterative test analysis. Beyond scale, we propose a quality-centric filtering pipeline that characterizes the inherent difficulty of each environment, filtering out instances that are either unsolvable or insufficiently challenging and retaining only those that maximize learning efficiency. With $891K spent on environment construction and an additional $576K on trajectory sampling and difficulty-aware curation, the entire project represents a total investment of approximately $1.47 million, yielding about 13,000 curated trajectories from roughly 9,000 quality guaranteed environments. Extensive experiments validate OpenSWE's effectiveness: OpenSWE-32B and OpenSWE-72B achieve 62.4% and 66.0% on SWE-bench Verified, establishing SOTA among Qwen2.5 series. Moreover, SWE-focused training yields substantial out-of-domain improvements, including up to 12 points on mathematical reasoning and 5 points on science benchmarks, without degrading factual recall.
- Abstract(参考訳): 有能なソフトウェアエンジニアリング(SWE)エージェントの訓練には、反復的なコード編集、テスト実行、ソリューション改善のための動的なフィードバックループを提供する大規模で実行可能で検証可能な環境が必要である。
しかし、既存のオープンソースデータセットはスケールとリポジトリの多様性に制限が残っており、産業ソリューションは未リリースのインフラストラクチャでは不透明であり、ほとんどの学術研究グループにとって禁止的な障壁となっている。
このフレームワークは、12.8kリポジトリにまたがる45,320の実行可能なDocker環境と、すべてのDockerfile、評価スクリプト、再現性のために完全にオープンソース化されたインフラストラクチャで構成されています。
OpenSWEは64ノードの分散クラスタにデプロイされたマルチエージェント合成パイプラインを通じて構築され、リポジトリ探索の自動化、Dockerfileの構築、評価スクリプト生成、反復的なテスト分析を行う。
スケールを超えて、各環境固有の難しさを特徴付ける品質中心のフィルタリングパイプラインを提案し、解決不可能または不十分なインスタンスをフィルタリングし、学習効率を最大化するインスタンスのみを保持する。
891万ドルが環境建設に費やされ、さらに576万ドルが軌道サンプリングと難易度の高いキュレーションに費やされ、プロジェクト全体の総投資額は約1.47億ドルであり、約9000の品質保証環境から約13,000のキュレートされた軌跡が得られる。
OpenSWE-32BとOpenSWE-72BはSWE-bench Verifiedで62.4%と66.0%を獲得し、Qwen2.5シリーズの中でSOTAを確立した。
さらに、SWEにフォーカスしたトレーニングは、数学的推論の最大12ポイント、科学ベンチマークの5ポイントを含む、ドメイン外の大幅な改善をもたらす。
関連論文リスト
- Agent World Model: Infinity Synthetic Environments for Agentic Reinforcement Learning [62.499592503950026]
大規模言語モデル(LLM)は、ツールや環境とのマルチターンインタラクションを必要とする複雑なタスクを実行するために、自律エージェントに権限を与えている。
完全合成環境生成パイプラインであるエージェント・ワールド・モデル(AWM)を提案する。
私たちは、エージェントがリッチなツールセットと対話できる、毎日のシナリオをカバーする1,000の環境にスケールします。
論文 参考訳(メタデータ) (2026-02-10T18:55:41Z) - Immersion in the GitHub Universe: Scaling Coding Agents to Mastery [60.359983359258955]
ScaleSWEは、高品質なSWEデータを大規模に構築するために設計された、自動化されたサンドボックス化されたマルチエージェントワークフローである。
このシステムは、環境設定、テスト生成、問題記述合成のための3つの特別なエージェントをコーディネートし、5200リポジトリにわたる600万のプルリクエストを処理する。
論文 参考訳(メタデータ) (2026-02-10T15:30:19Z) - SWE-World: Building Software Engineering Agents in Docker-Free Environments [91.17484806743641]
SWE-Worldは、物理的な実行環境を、ソフトウェアエンジニアリングエージェントのトレーニングと評価のための学習的なサロゲートに置き換える、Dockerフリーのフレームワークである。
我々は,SWE-WorldがQwen2.5-Coder-32Bを,DockerフリーのSFTで6.2%から52.0%,DockerフリーのRLで55.0%,さらにTSで68.2%に引き上げたことを示す。
論文 参考訳(メタデータ) (2026-02-03T11:44:39Z) - SWE-Universe: Scale Real-World Verifiable Environments to Millions [84.63665266236963]
SWE-Universeは、GitHubのプルリクエスト(PR)から検証可能な環境を自動的に構築するフレームワークである。
本稿では, 自動建築の課題を克服するために, 効率的なカスタムトレーニングモデルを用いた建築エージェントを提案する。
大規模エージェントによる中等教育と強化学習を通じて,環境の重要さを実証する。
論文 参考訳(メタデータ) (2026-02-02T17:20:30Z) - ABC-Bench: Benchmarking Agentic Backend Coding in Real-World Development [72.4729759618632]
本稿では,現実的かつ実行可能なワークフロー内でエージェントバックエンドコーディングを評価するベンチマークであるABC-Benchを紹介する。
オープンソースリポジトリから8つの言語と19のフレームワークにまたがる224の実践的なタスクをキュレートしました。
我々の評価は、最先端モデルでさえ、これらの総合的なタスクに対して信頼性の高いパフォーマンスを提供するのに苦労していることを示している。
論文 参考訳(メタデータ) (2026-01-16T08:23:52Z) - Let It Flow: Agentic Crafting on Rock and Roll, Building the ROME Model within an Open Agentic Learning Ecosystem [90.17610617854247]
本稿では,エージェントモデルの生産パイプラインを最適化する基盤インフラであるエージェント学習エコシステム(ALE)を紹介する。
ALEは、重量最適化のためのトレーニング後のフレームワークであるROLL、軌道生成のためのサンドボックス環境マネージャであるROCK、効率的なコンテキストエンジニアリングのためのエージェントフレームワークであるiFlow CLIの3つのコンポーネントで構成されている。
ROMEはALEが基盤として100万件以上のトラジェクトリをトレーニングしたオープンソースエージェントです。
論文 参考訳(メタデータ) (2025-12-31T14:03:39Z) - SWE-Mirror: Scaling Issue-Resolving Datasets by Mirroring Issues Across Repositories [15.458389392000706]
SWE-Mirrorは、現実世界のイシューのセマンティックセマンティクスを蒸留し、設定されたGym環境で他のレポジトリにミラーし、検証可能なイシュー解決タスクとして再認識するパイプラインである。
4つの言語にわたる40のリポジトリにSWE-Mirrorを適用することで、60,671の問題解決タスクを備えたデータセットをキュレートしました。
トレーニング後の実験は、データセットでトレーニングされたモデルが問題解決能力を改善することを示している。
論文 参考訳(メタデータ) (2025-09-10T16:15:23Z) - SetupBench: Assessing Software Engineering Agents' Ability to Bootstrap Development Environments [2.184775414778289]
環境ブートストラップスキルを分離するベンチマークである setupbench を導入する。
私たちのタスクは7つの言語エコシステム、5つのデータベースエンジン、マルチサービスオーケストレーションシナリオにまたがっています。
特にリポジトリのセットアップ(38.9-57.4%)とローカルデータベースの設定(20.0-53.3%)に課題がある。
論文 参考訳(メタデータ) (2025-07-11T22:45:07Z) - SWE-bench Goes Live! [39.295587503671015]
大規模言語モデル(LLM)のためのライブ更新可能なベンチマークであるSWE-bench-Liveを提案する。
最初のリリースは、2024年以降に作成された実際のGitHubイシューから派生した1,319のタスクで構成されています。
私たちのベンチマークの中心は、インスタンス生成から環境設定までのプロセス全体を合理化する自動キュレーションパイプラインであるメソッドです。
論文 参考訳(メタデータ) (2025-05-29T13:09:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。