論文の概要: SWE-Dev: Evaluating and Training Autonomous Feature-Driven Software Development
- arxiv url: http://arxiv.org/abs/2505.16975v1
- Date: Thu, 22 May 2025 17:51:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.52138
- Title: SWE-Dev: Evaluating and Training Autonomous Feature-Driven Software Development
- Title(参考訳): SWE-Dev: 自律的な機能駆動ソフトウェア開発の評価とトレーニング
- Authors: Yaxin Du, Yuzhu Cai, Yifan Zhou, Cheng Wang, Yu Qian, Xianghe Pang, Qian Liu, Yue Hu, Siheng Chen,
- Abstract要約: SWE-Devは,自律的なコーディングシステムの評価とトレーニングを目的とした,最初の大規模データセット(トレーニング14,000,テストサンプル500)である。
Supervised Fine-Tuning (SFT) のための高品質なデータを提供するが、実行可能な単体テストから正確な報酬信号を提供することで強化学習(RL)を可能にする。
- 参考スコア(独自算出の注目度): 40.48114055515786
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have shown strong capability in diverse software engineering tasks, e.g. code completion, bug fixing, and document generation. However, feature-driven development (FDD), a highly prevalent real-world task that involves developing new functionalities for large, existing codebases, remains underexplored. We therefore introduce SWE-Dev, the first large-scale dataset (with 14,000 training and 500 test samples) designed to evaluate and train autonomous coding systems on real-world feature development tasks. To ensure verifiable and diverse training, SWE-Dev uniquely provides all instances with a runnable environment and its developer-authored executable unit tests. This collection not only provides high-quality data for Supervised Fine-Tuning (SFT), but also enables Reinforcement Learning (RL) by delivering accurate reward signals from executable unit tests. Our extensive evaluations on SWE-Dev, covering 17 chatbot LLMs, 10 reasoning models, and 10 Multi-Agent Systems (MAS), reveal that FDD is a profoundly challenging frontier for current AI (e.g., Claude-3.7-Sonnet achieves only 22.45\% Pass@3 on the hard test split). Crucially, we demonstrate that SWE-Dev serves as an effective platform for model improvement: fine-tuning on training set enabled a 7B model comparable to GPT-4o on \textit{hard} split, underscoring the value of its high-quality training data. Code is available here \href{https://github.com/justLittleWhite/SWE-Dev}{https://github.com/justLittleWhite/SWE-Dev}.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々なソフトウェアエンジニアリングタスク、例えば、コード補完、バグ修正、ドキュメント生成において、強力な能力を示している。
しかし、機能駆動開発(FDD、Feature-Driven Development)は、大規模で既存のコードベースのための新しい機能を開発することを含む、非常に一般的な現実世界のタスクである。
そこで、SWE-Devは、14,000のトレーニングと500のテストサンプルを持つ最初の大規模データセットであり、実世界の機能開発タスク上で自律的なコーディングシステムを評価し、訓練するように設計されている。
検証可能で多様なトレーニングを保証するため、SWE-Devはすべてのインスタンスに実行可能な環境と開発者が認可した実行可能な単体テストを提供する。
このコレクションは、監視ファインチューニング(SFT)のための高品質なデータを提供するだけでなく、実行可能な単体テストから正確な報酬信号を提供することで強化学習(RL)を可能にする。
SWE-Devに関する我々の広範な評価では、17のチャットボットLSM、10の推論モデル、10のマルチエージェントシステム(MAS)が、FDDが現在のAIにとって非常に困難なフロンティアであることを明らかにしています(例えば、Claude-3.7-Sonnetはハードテストスプリットで22.45\%のPass@3しか達成していません)。
SWE-Devは、モデル改善のための効果的なプラットフォームとして機能することを示す。 トレーニングセットの微調整により、 \textit{hard} 分割時に GPT-4o に匹敵する 7B モデルが可能となり、高品質なトレーニングデータの価値が強調される。
コードは href{https://github.com/justLittleWhite/SWE-Dev}{https://github.com/justLittleWhite/SWE-Dev} で入手できる。
関連論文リスト
- APIGen-MT: Agentic Pipeline for Multi-Turn Data Generation via Simulated Agent-Human Interplay [86.01901238059261]
APIGen-MTは検証可能で多様なマルチターンエージェントデータを生成するフレームワークである。
xLAM-2-fc-r 級数で 1B から 70B のパラメータを持つモデル群を訓練する。
我々のモデルは、$tau$-benchとBFCLベンチマークでGPT-4oやClaude 3.5のようなフロンティアモデルより優れている。
論文 参考訳(メタデータ) (2025-04-04T17:13:57Z) - Boosting Virtual Agent Learning and Reasoning: A Step-wise, Multi-dimensional, and Generalist Reward Model with Benchmark [72.46357004059661]
ステップワイドな多次元ジェネリスト・リワードモデルであるSimisalを提案する。
エージェントトレーニング用のきめ細かい信号を提供し、推論時間スケーリングのためのより良いアクションを選択することができる。
仮想エージェント領域の最初のベンチマークをステップワイドで多次元の報酬モデルトレーニングと評価のために導入する。
論文 参考訳(メタデータ) (2025-03-24T13:30:47Z) - Learning to Solve and Verify: A Self-Play Framework for Code and Test Generation [69.62857948698436]
大規模言語モデル(LLM)の最近の進歩は、コーディングベンチマークのパフォーマンスを改善している。
しかし、手軽に利用できる高品質なデータの枯渇により、改善は停滞している。
本稿では,単一モデルのコードとテスト生成能力を共同で改善するセルフプレイ・ソルバ検証フレームワークであるSol-Verを提案する。
論文 参考訳(メタデータ) (2025-02-20T18:32:19Z) - UnitCoder: Scalable Iterative Code Synthesis with Unit Test Guidance [65.01483640267885]
大きな言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示してきたが、コード生成は依然として大きな課題である。
私たちは、モデル生成ユニットテストを活用してコード生成プロセスのガイドと検証を行う、システマティックパイプラインであるUnitCoderを紹介します。
我々の研究は、モデル生成単体テストを利用して、事前学習コーパスから高品質なコードデータの合成を誘導するスケーラブルなアプローチを提案する。
論文 参考訳(メタデータ) (2025-02-17T05:37:02Z) - Training Dynamics of a 1.7B LLaMa Model: A Data-Efficient Approach [10.39475177812483]
約200億個のデータに対するDMaS-LLaMa-Liteのトレーニングから得られた洞察を共有します。
我々は、検証損失レベルとダウンストリームベンチマークの進化が、不整合テキストから、流動的で文脈に根ざしたアウトプットへの移行を反映しているかを記述した、完全なトレーニングの軌跡を詳述する。
これらの経験を詳述し、トレーニングログ、チェックポイント、サンプルアウトプットを提供することで、将来の研究者や実践者が事前学習戦略を洗練することを目指している。
論文 参考訳(メタデータ) (2024-12-17T21:15:52Z) - Evolving Subnetwork Training for Large Language Models [19.54861230097017]
我々は、新しいトレーニングパラダイム、Evolving Subnetwork Training (EST)を提案する。
ESTサンプルは、大きな言語モデルのレイヤから、そして各レイヤで一般的に使用されるモジュールから作成される。
GPT2モデルのトレーニングとTinyLlamaモデルのトレーニングにESTを適用した結果,GPT2の26.7%のFLOPとTinyLlamaの25.0%の削減を実現した。
論文 参考訳(メタデータ) (2024-06-11T05:44:56Z) - Prompting Large Language Models to Tackle the Full Software Development Lifecycle: A Case Study [72.24266814625685]
DevEvalでソフトウェア開発ライフサイクル全体にわたって、大きな言語モデル(LLM)のパフォーマンスを調査します。
DevEvalは4つのプログラミング言語、複数のドメイン、高品質なデータ収集、各タスクに対して慎重に設計および検証されたメトリクスを備えている。
GPT-4を含む現在のLLMは、DevEvalで提示される課題を解決できないことが実証研究によって示されている。
論文 参考訳(メタデータ) (2024-03-13T15:13:44Z) - Building One-Shot Semi-supervised (BOSS) Learning up to Fully Supervised
Performance [0.0]
本研究では,Cifar-10とSVHNを用いた一発半教師付き学習(BOSS)の可能性を示す。
本手法は, クラスプロトタイプの精錬, クラスバランシング, 自己学習を組み合わせた手法である。
厳密な経験的評価は、ディープニューラルネットワークのトレーニングには大規模なデータセットのラベル付けは必要ないという証拠を提供する。
論文 参考訳(メタデータ) (2020-06-16T17:56:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。