論文の概要: From SWE-ZERO to SWE-HERO: Execution-free to Execution-based Fine-tuning for Software Engineering Agents
- arxiv url: http://arxiv.org/abs/2604.01496v1
- Date: Thu, 02 Apr 2026 00:11:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.170542
- Title: From SWE-ZERO to SWE-HERO: Execution-free to Execution-based Fine-tuning for Software Engineering Agents
- Title(参考訳): SWE-ZEROからSWE-HERO:ソフトウェアエージェントのための実行不要から実行ベースファインチューニング
- Authors: Nikolai Ludwig, Wasi Uddin Ahmad, Somshubra Majumdar, Boris Ginsburg,
- Abstract要約: SWE-ZEROは2段階のSFTレシピで、SWE-benchで最先端の結果を得る。
我々はQwen3-Coder-480Bから抽出した300k SWE-ZEROと13k SWE-HERO軌道のデータセットをリリースする。
SWE-bench では,Python に特化して訓練されているにもかかわらず,強いゼロショット転送性を示す。
- 参考スコア(独自算出の注目度): 42.7127695634038
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce SWE-ZERO to SWE-HERO, a two-stage SFT recipe that achieves state-of-the-art results on SWE-bench by distilling open-weight frontier LLMs. Our pipeline replaces resource-heavy dependencies with an evolutionary refinement strategy: (1) SWE-ZERO utilizes large-scale, execution-free trajectories to master code semantics and repository-level reasoning, and (2) SWE-HERO applies targeted, execution-backed refinement to transition these semantic intuitions into rigorous engineering workflows. Our empirical results set a new benchmark for open-source models of comparable size. We release a dataset of 300k SWE-ZERO and 13k SWE-HERO trajectories distilled from Qwen3-Coder-480B, alongside a suite of agents based on the Qwen2.5-Coder series. Notably, SWE-HERO-32B achieves a 62.2% resolution rate on SWE-bench Verified. Furthermore, despite being trained exclusively on Python, our agents demonstrate robust zero-shot transferability on SWE-bench Multilingual, reaching 44.1% and confirming the paradigm's generalizability across diverse languages.
- Abstract(参考訳): SWE-ZEROをSWE-HERO(SWE-HERO)に導入し,オープンウェイトフロンティアLLMを蒸留することにより,SWE-benchの最先端化を実現する。
1) SWE-ZEROは、大規模で実行不要なトラジェクトリを使用して、コードセマンティクスとリポジトリレベルの推論をマスタし、(2) SWE-HEROは、これらのセマンティクスの直感を厳格なエンジニアリングワークフローに移行するために、ターゲットで実行支援の洗練を適用します。
私たちの経験的結果は、同等の大きさのオープンソースモデルのための新しいベンチマークを設定しました。
我々は,Qwen3-Coder-480Bから抽出した300k SWE-ZEROおよび13k SWE-HEROトラジェクトリのデータセットを,Qwen2.5-Coderシリーズに基づくエージェント群とともにリリースする。
特に、SWE-HERO-32BはSWE-bench Verified上で62.2%の解像度を達成する。
さらに,SWE-bench Multilingualでは,Python専用にトレーニングされているにも関わらず,SWE-bench Multilingualでは堅牢なゼロショット転送可能性を示し,44.1%に達した。
関連論文リスト
- SWE-Master: Unleashing the Potential of Software Engineering Agents via Post-Training [78.37721886775215]
本稿では,効率的なソフトウェアエンジニアリングエージェントを構築するためのオープンソースフレームワークであるSWE-Masterを紹介する。
SWE-Masterは、教師-軌道合成やデータキュレーションを含む、完全なエージェント開発パイプラインを体系的に探索する。
SWE-bench Verified(SWE-bench Verified)は,現実的なソフトウェアエンジニアリングタスクの標準ベンチマークである。
論文 参考訳(メタデータ) (2026-02-03T11:38:48Z) - SWE-Lego: Pushing the Limits of Supervised Fine-tuning for Software Issue Resolving [44.2496723329337]
SWE-Lego(SWE-Lego)は、ソフトウェアエンジニアリング(SWE)問題解決における最先端のパフォーマンスを達成するために設計された教師付き微調整(SFT)レシピである。
SWE-Legoは3つのコアビルディングブロックから構成される。
論文 参考訳(メタデータ) (2026-01-04T08:07:27Z) - SWE-RM: Execution-free Feedback For Software Engineering Agents [61.86380395896069]
実行ベースフィードバックは、テストタイムスケーリング(TTS)と強化学習(RL)を通じて、コーディングエージェントの開発に広く利用されている。
対照的に、報酬モデルによる実行不要なフィードバックは、単体テストケースに依存することなく、よりきめ細かい信号を提供することができる。
SWE-RMは,30Bの合計パラメータと3Bのアクティベートされた3Bの混合実験アーキテクチャを採用した,正確で堅牢な報酬モデルである。
論文 参考訳(メタデータ) (2025-12-26T08:26:18Z) - R2E-Gym: Procedural Environments and Hybrid Verifiers for Scaling Open-Weights SWE Agents [32.06393076572057]
AgentGymは、現実世界のSWEエージェントを訓練するための、手続き的に計算された最大のジム環境である。
Syngen、合成データキュレーションのレシピ、ハイブリッドテストタイムスケーリングの2つの主要なコントリビューションによって実現されている。
提案手法は,SWE-Bench Verifiedベンチマークで51%を達成し,オープンウェイトSWEエージェントの新たな最先端性を反映した。
論文 参考訳(メタデータ) (2025-04-09T17:55:19Z) - Training Software Engineering Agents and Verifiers with SWE-Gym [89.55822534364727]
SWE-Gymは、現実世界のソフトウェアエンジニアリング(SWE)エージェントをトレーニングするための最初の環境である。
SWE-Gymには2,438の現実世界のPythonタスクインスタンスが含まれている。
我々はSWE-Gymを用いて言語モデルに基づくSWEエージェントを訓練し、解答率において最大19%の絶対ゲインを達成する。
論文 参考訳(メタデータ) (2024-12-30T18:15:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。