論文の概要: SWE-Dev: Building Software Engineering Agents with Training and Inference Scaling
- arxiv url: http://arxiv.org/abs/2506.07636v1
- Date: Mon, 09 Jun 2025 11:03:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 21:10:47.133745
- Title: SWE-Dev: Building Software Engineering Agents with Training and Inference Scaling
- Title(参考訳): SWE-Dev: トレーニングと推論スケーリングを備えたソフトウェアエンジニアリングエージェントの構築
- Authors: Haoran Wang, Zhenyu Hou, Yao Wei, Jie Tang, Yuxiao Dong,
- Abstract要約: 大規模言語モデル(LLM)は、会話による問題解決から、ツール使用に関わる現実的なタスクへの対処まで、急速に進歩している。
この問題に対処するために、オープンソースのLLM上に構築されたSWEエージェントであるSWE-Devを提案する。
SWE-bench-Verifiedベンチマークの実験は、SWE-Devモデルが全てのオープンなSWEエージェントの中で最高のパフォーマンスを達成できることを示している。
- 参考スコア(独自算出の注目度): 39.53265893083118
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have advanced rapidly from conversational problem solving to addressing real-world tasks involving tool use, such as software engineering (SWE). Recent LLM-powered toolkits, such as OpenAI Codex and Cursor, have offered end-to-end automation of the software development process. However, building effective SWE agents remains challenging due to the lack of high-quality training data and effective test cases. To address this issue, we present SWE-Dev, an SWE agent built upon open-source LLMs. First, we develop a robust pipeline to synthesize test cases for patch evaluation. Second, we scale up agent trajectories to construct the training data for building SWE-Dev. Experiments on the SWE-bench-Verified benchmark show that the SWE-Dev models can achieve top performance among all open SWE agents. Specifically, the success rates of the SWE-Dev 7B and 32B parameter models reach 23.4% and 36.6%, respectively, outperforming state-of-the-art open-source models. All code, models, and datasets are publicly available at https://github.com/THUDM/SWE-Dev.
- Abstract(参考訳): 大規模言語モデル(LLM)は,対話型問題解決から,ソフトウェア工学(SWE)などのツール利用に関わる現実的なタスクへの対処に至るまで,急速に進歩している。
OpenAI CodexやCursorといった最近のLLMベースのツールキットは、ソフトウェア開発プロセスのエンドツーエンドの自動化を提供している。
しかし、高品質なトレーニングデータや効果的なテストケースが欠如しているため、効果的なSWEエージェントの構築は依然として困難である。
この問題に対処するために、オープンソースのLLM上に構築されたSWEエージェントであるSWE-Devを提案する。
まず、我々は、パッチ評価のためのテストケースを合成する堅牢なパイプラインを開発する。
次にエージェントトラジェクトリをスケールアップして,SWE-Dev構築のためのトレーニングデータを構築する。
SWE-bench-Verifiedベンチマークの実験は、SWE-Devモデルが全てのオープンなSWEエージェントの中で最高のパフォーマンスを達成できることを示している。
具体的には、SWE-Dev 7B と 32B のパラメータモデルの成功率は、それぞれ 23.4% と 36.6% に達し、最先端のオープンソースモデルを上回っている。
すべてのコード、モデル、データセットはhttps://github.com/THUDM/SWE-Devで公開されている。
関連論文リスト
- SWE-rebench: An Automated Pipeline for Task Collection and Decontaminated Evaluation of Software Engineering Agents [34.16732444158405]
LLMベースのエージェントは、SWE(Software Engineering)タスクの増加に期待できる能力を示している。
高品質なトレーニングデータは、特に現実世界のSWEシナリオを反映したデータが少ない。
既存のデータセットはワンショットのコード生成に限られるか、小さな手作業による対話的なタスクのコレクションで構成されている。
論文 参考訳(メタデータ) (2025-05-26T18:01:00Z) - SWE-Dev: Evaluating and Training Autonomous Feature-Driven Software Development [40.48114055515786]
SWE-Devは,自律的なコーディングシステムの評価とトレーニングを目的とした,最初の大規模データセット(トレーニング14,000,テストサンプル500)である。
Supervised Fine-Tuning (SFT) のための高品質なデータを提供するが、実行可能な単体テストから正確な報酬信号を提供することで強化学習(RL)を可能にする。
論文 参考訳(メタデータ) (2025-05-22T17:51:49Z) - SWE-Synth: Synthesizing Verifiable Bug-Fix Data to Enable Large Language Models in Resolving Real-World Bugs [10.70881967278009]
本稿では,現実的な検証可能な,プロセス対応のバグフィックスデータセットをリポジトリレベルで合成するフレームワークであるSWE- Synthを紹介する。
手作業で収集したデータセットと比較して、文脈的豊かさと正確さを保ちながら、最小限の人的労力でスケールする。
この結果から,APRとソフトウェア工学の自動化の最先端を推し進めるために,人工エージェント生成データの可能性を強調した。
論文 参考訳(メタデータ) (2025-04-20T22:37:43Z) - Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。
当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。
当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文 参考訳(メタデータ) (2025-03-31T07:31:32Z) - DS-Agent: Automated Data Science by Empowering Large Language Models with Case-Based Reasoning [56.887047551101574]
大規模言語モデル(LLM)エージェントとケースベース推論(CBR)を利用した新しいフレームワークであるDS-Agentを提案する。
開発段階では、DS-AgentはCBRフレームワークに従い、自動イテレーションパイプラインを構築する。
デプロイメントの段階では、DS-Agentは、シンプルなCBRパラダイムで低リソースのデプロイメントステージを実装し、LCMの基本能力に対する需要を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-27T12:26:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。