論文の概要: SWE-World: Building Software Engineering Agents in Docker-Free Environments
- arxiv url: http://arxiv.org/abs/2602.03419v1
- Date: Tue, 03 Feb 2026 11:44:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.424992
- Title: SWE-World: Building Software Engineering Agents in Docker-Free Environments
- Title(参考訳): SWE-World:Dockerフリー環境でソフトウェアエンジニアリングエージェントを構築する
- Authors: Shuang Sun, Huatong Song, Lisheng Huang, Jinhao Jiang, Ran Le, Zhihao Lv, Zongchao Chen, Yiwen Hu, Wenyang Luo, Wayne Xin Zhao, Yang Song, Hongteng Xu, Tao Zhang, Ji-Rong Wen,
- Abstract要約: SWE-Worldは、物理的な実行環境を、ソフトウェアエンジニアリングエージェントのトレーニングと評価のための学習的なサロゲートに置き換える、Dockerフリーのフレームワークである。
我々は,SWE-WorldがQwen2.5-Coder-32Bを,DockerフリーのSFTで6.2%から52.0%,DockerフリーのRLで55.0%,さらにTSで68.2%に引き上げたことを示す。
- 参考スコア(独自算出の注目度): 91.17484806743641
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in large language models (LLMs) have enabled software engineering agents to tackle complex code modification tasks. Most existing approaches rely on execution feedback from containerized environments, which require dependency-complete setup and physical execution of programs and tests. While effective, this paradigm is resource-intensive and difficult to maintain, substantially complicating agent training and limiting scalability. We propose SWE-World, a Docker-free framework that replaces physical execution environments with a learned surrogate for training and evaluating software engineering agents. SWE-World leverages LLM-based models trained on real agent-environment interaction data to predict intermediate execution outcomes and final test feedback, enabling agents to learn without interacting with physical containerized environments. This design preserves the standard agent-environment interaction loop while eliminating the need for costly environment construction and maintenance during agent optimization and evaluation. Furthermore, because SWE-World can simulate the final evaluation outcomes of candidate trajectories without real submission, it enables selecting the best solution among multiple test-time attempts, thereby facilitating effective test-time scaling (TTS) in software engineering tasks. Experiments on SWE-bench Verified demonstrate that SWE-World raises Qwen2.5-Coder-32B from 6.2\% to 52.0\% via Docker-free SFT, 55.0\% with Docker-free RL, and 68.2\% with further TTS. The code is available at https://github.com/RUCAIBox/SWE-World
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩により、ソフトウェアエンジニアリングエージェントは複雑なコード修正タスクに対処できるようになった。
既存のアプローチのほとんどは、依存性完全セットアップとプログラムとテストの物理的実行を必要とするコンテナ化された環境からの実行フィードバックに依存している。
効果的ではあるが、このパラダイムはリソース集約的でメンテナンスが難しく、エージェントのトレーニングをかなり複雑にし、スケーラビリティを制限します。
SWE-Worldは、物理的な実行環境を、ソフトウェアエンジニアリングエージェントのトレーニングと評価のための学習サロゲートに置き換える、Dockerフリーのフレームワークである。
SWE-Worldは、実際のエージェント環境相互作用データに基づいてトレーニングされたLLMベースのモデルを活用して、中間的な実行結果と最終的なテストフィードバックを予測する。
本設計では,エージェント最適化と評価において,コストのかかる環境構築とメンテナンスの必要性を解消しつつ,標準エージェント環境相互作用ループを保存している。
さらに、SWE-Worldは、実際の提案なしに候補軌跡の最終的な評価結果をシミュレートできるため、ソフトウェアエンジニアリングタスクにおける効率的なテスト時間スケーリング(TTS)を容易にし、複数のテスト時間試行の中で最良のソリューションを選択することができる。
SWE-bench Verifiedの実験では、SWE-WorldがQwen2.5-Coder-32Bを、DockerフリーのSFTで6.2\%から52.0\%、DockerフリーのRLで55.0\%、さらにTSで68.2\%に引き上げた。
コードはhttps://github.com/RUCAIBox/SWE-Worldで公開されている。
関連論文リスト
- SWE-Master: Unleashing the Potential of Software Engineering Agents via Post-Training [78.37721886775215]
本稿では,効率的なソフトウェアエンジニアリングエージェントを構築するためのオープンソースフレームワークであるSWE-Masterを紹介する。
SWE-Masterは、教師-軌道合成やデータキュレーションを含む、完全なエージェント開発パイプラインを体系的に探索する。
SWE-bench Verified(SWE-bench Verified)は,現実的なソフトウェアエンジニアリングタスクの標準ベンチマークである。
論文 参考訳(メタデータ) (2026-02-03T11:38:48Z) - SWE-Universe: Scale Real-World Verifiable Environments to Millions [84.63665266236963]
SWE-Universeは、GitHubのプルリクエスト(PR)から検証可能な環境を自動的に構築するフレームワークである。
本稿では, 自動建築の課題を克服するために, 効率的なカスタムトレーニングモデルを用いた建築エージェントを提案する。
大規模エージェントによる中等教育と強化学習を通じて,環境の重要さを実証する。
論文 参考訳(メタデータ) (2026-02-02T17:20:30Z) - MEnvAgent: Scalable Polyglot Environment Construction for Verifiable Software Engineering [54.236614097082395]
本稿では,自動環境構築のためのフレームワークであるMEnvAgentを紹介する。
MEnvAgentは、建設失敗を自律的に解決するマルチエージェント計画実行検証アーキテクチャを採用している。
MEnvData-SWEは,これまでで最大の,現実的な検証可能なDocker環境のポリグロットデータセットである。
論文 参考訳(メタデータ) (2026-01-30T11:36:10Z) - ASTRA: Automated Synthesis of agentic Trajectories and Reinforcement Arenas [13.919124676472022]
ASTRAは、ツール拡張言語モデルエージェントをトレーニングするためのエンドツーエンドフレームワークである。
ASTRAはスケーラブルなデータ合成と検証可能な強化学習を統合している。
複数のエージェントツール使用ベンチマークの実験は、ASTRA訓練されたモデルが最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2026-01-29T11:22:23Z) - Toward Training Superintelligent Software Agents through Self-Play SWE-RL [66.11447353341926]
セルフプレイSWE-RLは、超知能ソフトウェアエージェントのトレーニングパラダイムに向けた第一歩である。
当社のアプローチでは,ソースコードとインストール済みの依存関係を備えたサンドボックスリポジトリへのアクセスのみを必要としています。
我々の成果は、早い段階で、エージェントが現実世界のソフトウェアリポジトリから広範囲にわたる学習経験を自律的に収集する道のりを示唆している。
論文 参考訳(メタデータ) (2025-12-21T00:49:40Z) - PIPer: On-Device Environment Setup via Online Reinforcement Learning [74.52354321028493]
自動化された環境設定メソッドは、任意のリポジトリに対して、手作業なしで完全に構成された環境を提供することで、開発者を支援することができる。
近年の研究では、最先端のLarge Language Models (LLMs) でさえ、このタスクの自動化に限られた成功をおさめていることが明らかになっている。
我々は、正しいスクリプトを生成するための教師付き微調整と、環境設定のタスクに適応するために、Reinforcement Learning with Verifiable Rewards(RLVR)を組み合わせる。
EnvBench-Python では,より大型の Qwen3-32B や GPT-4 と同等に動作可能な Qwen3-8B (コンシューマハードウェア上で動作可能なモデル) を実現する。
論文 参考訳(メタデータ) (2025-09-29T20:03:05Z) - SWE-rebench: An Automated Pipeline for Task Collection and Decontaminated Evaluation of Software Engineering Agents [31.921127664873882]
LLMベースのエージェントは、SWE(Software Engineering)タスクの増加に期待できる能力を示している。
高品質なトレーニングデータは、特に現実世界のSWEシナリオを反映したデータが少ない。
既存のデータセットはワンショットのコード生成に限られるか、小さな手作業による対話的なタスクのコレクションで構成されている。
論文 参考訳(メタデータ) (2025-05-26T18:01:00Z) - R2E-Gym: Procedural Environments and Hybrid Verifiers for Scaling Open-Weights SWE Agents [32.06393076572057]
AgentGymは、現実世界のSWEエージェントを訓練するための、手続き的に計算された最大のジム環境である。
Syngen、合成データキュレーションのレシピ、ハイブリッドテストタイムスケーリングの2つの主要なコントリビューションによって実現されている。
提案手法は,SWE-Bench Verifiedベンチマークで51%を達成し,オープンウェイトSWEエージェントの新たな最先端性を反映した。
論文 参考訳(メタデータ) (2025-04-09T17:55:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。