論文の概要: SWE-Master: Unleashing the Potential of Software Engineering Agents via Post-Training
- arxiv url: http://arxiv.org/abs/2602.03411v1
- Date: Tue, 03 Feb 2026 11:38:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.418992
- Title: SWE-Master: Unleashing the Potential of Software Engineering Agents via Post-Training
- Title(参考訳): SWE-Master: ポストトライニングによるソフトウェアエンジニアリングエージェントの可能性
- Authors: Huatong Song, Lisheng Huang, Shuang Sun, Jinhao Jiang, Ran Le, Daixuan Cheng, Guoxin Chen, Yiwen Hu, Zongchao Chen, Wayne Xin Zhao, Yang Song, Tao Zhang, Ji-Rong Wen,
- Abstract要約: 本稿では,効率的なソフトウェアエンジニアリングエージェントを構築するためのオープンソースフレームワークであるSWE-Masterを紹介する。
SWE-Masterは、教師-軌道合成やデータキュレーションを含む、完全なエージェント開発パイプラインを体系的に探索する。
SWE-bench Verified(SWE-bench Verified)は,現実的なソフトウェアエンジニアリングタスクの標準ベンチマークである。
- 参考スコア(独自算出の注目度): 78.37721886775215
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this technical report, we present SWE-Master, an open-source and fully reproducible post-training framework for building effective software engineering agents. SWE-Master systematically explores the complete agent development pipeline, including teacher-trajectory synthesis and data curation, long-horizon SFT, RL with real execution feedback, and inference framework design. Starting from an open-source base model with limited initial SWE capability, SWE-Master demonstrates how systematical optimization method can elicit strong long-horizon SWE task solving abilities. We evaluate SWE-Master on SWE-bench Verified, a standard benchmark for realistic software engineering tasks. Under identical experimental settings, our approach achieves a resolve rate of 61.4\% with Qwen2.5-Coder-32B, substantially outperforming existing open-source baselines. By further incorporating test-time scaling~(TTS) with LLM-based environment feedback, SWE-Master reaches 70.8\% at TTS@8, demonstrating a strong performance potential. SWE-Master provides a practical and transparent foundation for advancing reproducible research on software engineering agents. The code is available at https://github.com/RUCAIBox/SWE-Master.
- Abstract(参考訳): 本稿では,効率的なソフトウェアエンジニアリングエージェントを構築するための,オープンソースかつ再現可能なポストトレーニングフレームワークであるSWE-Masterを紹介する。
SWE-Masterは、教師軌道合成とデータキュレーション、長距離SFT、実実行フィードバック付きRL、推論フレームワーク設計を含む、完全なエージェント開発パイプラインを体系的に探索する。
SWE-Masterは、初期SWE能力に制限のあるオープンソースベースモデルから始め、SWE-Masterは、強力な長期SWEタスク解決能力を引き出す方法の体系的な最適化方法を示す。
SWE-bench Verified(SWE-bench Verified)は,現実的なソフトウェアエンジニアリングタスクの標準ベンチマークである。
同一実験条件下では,Qwen2.5-Coder-32Bで61.4\%の解答率を実現し,既存のオープンソースベースラインを大幅に上回った。
さらに、テスト時間スケーリング~(TTS)をLLMベースの環境フィードバックに組み込むことで、SWE-MasterはTS@8で70.8\%に達した。
SWE-Masterは、ソフトウェアエンジニアリングエージェントの再現可能な研究を進めるための実用的で透明な基盤を提供する。
コードはhttps://github.com/RUCAIBox/SWE-Masterで入手できる。
関連論文リスト
- SWE-World: Building Software Engineering Agents in Docker-Free Environments [91.17484806743641]
SWE-Worldは、物理的な実行環境を、ソフトウェアエンジニアリングエージェントのトレーニングと評価のための学習的なサロゲートに置き換える、Dockerフリーのフレームワークである。
我々は,SWE-WorldがQwen2.5-Coder-32Bを,DockerフリーのSFTで6.2%から52.0%,DockerフリーのRLで55.0%,さらにTSで68.2%に引き上げたことを示す。
論文 参考訳(メタデータ) (2026-02-03T11:44:39Z) - SWE-RM: Execution-free Feedback For Software Engineering Agents [61.86380395896069]
実行ベースフィードバックは、テストタイムスケーリング(TTS)と強化学習(RL)を通じて、コーディングエージェントの開発に広く利用されている。
対照的に、報酬モデルによる実行不要なフィードバックは、単体テストケースに依存することなく、よりきめ細かい信号を提供することができる。
SWE-RMは,30Bの合計パラメータと3Bのアクティベートされた3Bの混合実験アーキテクチャを採用した,正確で堅牢な報酬モデルである。
論文 参考訳(メタデータ) (2025-12-26T08:26:18Z) - Toward Training Superintelligent Software Agents through Self-Play SWE-RL [66.11447353341926]
セルフプレイSWE-RLは、超知能ソフトウェアエージェントのトレーニングパラダイムに向けた第一歩である。
当社のアプローチでは,ソースコードとインストール済みの依存関係を備えたサンドボックスリポジトリへのアクセスのみを必要としています。
我々の成果は、早い段階で、エージェントが現実世界のソフトウェアリポジトリから広範囲にわたる学習経験を自律的に収集する道のりを示唆している。
論文 参考訳(メタデータ) (2025-12-21T00:49:40Z) - Trae Agent: An LLM-based Agent for Software Engineering with Test-time Scaling [18.390443362388623]
Trae Agentは、リポジトリレベルのイシュー解決のための、最初のエージェントベースのアンサンブル推論アプローチである。
広範に評価されたSWEベンチマークにおいて,3つの主要な大規模言語モデル(LLM)を用いて実験を行った。
Trae Agentは、Pass@1の観点で、すべてのベースラインに対して平均10.22%の改善で、一貫して優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-07-31T09:37:22Z) - SWE-Dev: Building Software Engineering Agents with Training and Inference Scaling [39.53265893083118]
大規模言語モデル(LLM)は、会話による問題解決から、ツール使用に関わる現実的なタスクへの対処まで、急速に進歩している。
この問題に対処するために、オープンソースのLLM上に構築されたSWEエージェントであるSWE-Devを提案する。
SWE-bench-Verifiedベンチマークの実験は、SWE-Devモデルが全てのオープンなSWEエージェントの中で最高のパフォーマンスを達成できることを示している。
論文 参考訳(メタデータ) (2025-06-09T11:03:16Z) - First SFT, Second RL, Third UPT: Continual Improving Multi-Modal LLM Reasoning via Unsupervised Post-Training [37.80193099472551]
MLLMの教師なし後学習のための簡易かつ効果的なフレームワークであるMM-UPTを提案する。
本実験は,Qwen2.5-VL-7Bの推論能力を効果的に向上することを示した。
我々は、MLLMに新しいトレーニングサンプルを合成させる2つの戦略を設計し、我々のフレームワークをデータ・セルフジェネレーション・セッティングに拡張する。
論文 参考訳(メタデータ) (2025-05-28T15:11:16Z) - Training Software Engineering Agents and Verifiers with SWE-Gym [89.55822534364727]
SWE-Gymは、現実世界のソフトウェアエンジニアリング(SWE)エージェントをトレーニングするための最初の環境である。
SWE-Gymには2,438の現実世界のPythonタスクインスタンスが含まれている。
我々はSWE-Gymを用いて言語モデルに基づくSWEエージェントを訓練し、解答率において最大19%の絶対ゲインを達成する。
論文 参考訳(メタデータ) (2024-12-30T18:15:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。