Fugu-MT 論文翻訳(概要): SWE-Dev: Evaluating and Training Autonomous Feature-Driven Software Development

論文の概要: SWE-Dev: Evaluating and Training Autonomous Feature-Driven Software Development

arxiv url: http://arxiv.org/abs/2505.16975v1
Date: Thu, 22 May 2025 17:51:49 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-23 17:12:48.52138
Title: SWE-Dev: Evaluating and Training Autonomous Feature-Driven Software Development
Title（参考訳）: SWE-Dev: 自律的な機能駆動ソフトウェア開発の評価とトレーニング
Authors: Yaxin Du, Yuzhu Cai, Yifan Zhou, Cheng Wang, Yu Qian, Xianghe Pang, Qian Liu, Yue Hu, Siheng Chen,
Abstract要約: SWE-Devは,自律的なコーディングシステムの評価とトレーニングを目的とした,最初の大規模データセット(トレーニング14,000,テストサンプル500)である。 Supervised Fine-Tuning (SFT) のための高品質なデータを提供するが、実行可能な単体テストから正確な報酬信号を提供することで強化学習(RL)を可能にする。
参考スコア（独自算出の注目度）: 40.48114055515786
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) have shown strong capability in diverse software engineering tasks, e.g. code completion, bug fixing, and document generation. However, feature-driven development (FDD), a highly prevalent real-world task that involves developing new functionalities for large, existing codebases, remains underexplored. We therefore introduce SWE-Dev, the first large-scale dataset (with 14,000 training and 500 test samples) designed to evaluate and train autonomous coding systems on real-world feature development tasks. To ensure verifiable and diverse training, SWE-Dev uniquely provides all instances with a runnable environment and its developer-authored executable unit tests. This collection not only provides high-quality data for Supervised Fine-Tuning (SFT), but also enables Reinforcement Learning (RL) by delivering accurate reward signals from executable unit tests. Our extensive evaluations on SWE-Dev, covering 17 chatbot LLMs, 10 reasoning models, and 10 Multi-Agent Systems (MAS), reveal that FDD is a profoundly challenging frontier for current AI (e.g., Claude-3.7-Sonnet achieves only 22.45\% Pass@3 on the hard test split). Crucially, we demonstrate that SWE-Dev serves as an effective platform for model improvement: fine-tuning on training set enabled a 7B model comparable to GPT-4o on \textit{hard} split, underscoring the value of its high-quality training data. Code is available here \href{https://github.com/justLittleWhite/SWE-Dev}{https://github.com/justLittleWhite/SWE-Dev}.
Abstract（参考訳）: 大規模言語モデル(LLM)は、様々なソフトウェアエンジニアリングタスク、例えば、コード補完、バグ修正、ドキュメント生成において、強力な能力を示している。しかし、機能駆動開発(FDD、Feature-Driven Development)は、大規模で既存のコードベースのための新しい機能を開発することを含む、非常に一般的な現実世界のタスクである。そこで、SWE-Devは、14,000のトレーニングと500のテストサンプルを持つ最初の大規模データセットであり、実世界の機能開発タスク上で自律的なコーディングシステムを評価し、訓練するように設計されている。検証可能で多様なトレーニングを保証するため、SWE-Devはすべてのインスタンスに実行可能な環境と開発者が認可した実行可能な単体テストを提供する。このコレクションは、監視ファインチューニング(SFT)のための高品質なデータを提供するだけでなく、実行可能な単体テストから正確な報酬信号を提供することで強化学習(RL)を可能にする。 SWE-Devに関する我々の広範な評価では、17のチャットボットLSM、10の推論モデル、10のマルチエージェントシステム(MAS)が、FDDが現在のAIにとって非常に困難なフロンティアであることを明らかにしています(例えば、Claude-3.7-Sonnetはハードテストスプリットで22.45\%のPass@3しか達成していません)。 SWE-Devは、モデル改善のための効果的なプラットフォームとして機能することを示す。トレーニングセットの微調整により、 \textit{hard} 分割時に GPT-4o に匹敵する 7B モデルが可能となり、高品質なトレーニングデータの価値が強調される。コードは href{https://github.com/justLittleWhite/SWE-Dev}{https://github.com/justLittleWhite/SWE-Dev} で入手できる。

関連論文リスト

Skywork-SWE: Unveiling Data Scaling Laws for Software Engineering in LLMs [19.766885088032932]
ソフトウェアエンジニアリング(SWE)は、次世代のLLMエージェントにとって重要なテストベッドとして登場した。既存のデータセットのほとんどは、わずか数千のGitHubソースインスタンスに制限されている。 SWEデータセットのボリュームと多様性の両方を体系的にスケールするインクリメンタルな自動データキュレーションパイプラインを提案する。
論文参考訳（メタデータ） (2025-06-24T03:53:36Z)
SWE-Flow: Synthesizing Software Engineering Data in a Test-Driven Manner [53.54568352375669]
テスト駆動開発(TDD)に基づく新しいデータ合成フレームワーク**SWE-Flow*を紹介します。人為的な問題に依存する既存のソフトウェアエンジニアリングデータとは異なり、**SWE-Flow*は、単体テストから直接インクリメンタルな開発ステップを推論する。私たちは現実のGitHubプロジェクトから16,061のトレーニングインスタンスと2,020のテストインスタンスを生成し、**SWE-Flow-Eval**ベンチマークを作成しました。
論文参考訳（メタデータ） (2025-06-10T17:23:33Z)
SWE-Dev: Building Software Engineering Agents with Training and Inference Scaling [39.53265893083118]
大規模言語モデル(LLM)は、会話による問題解決から、ツール使用に関わる現実的なタスクへの対処まで、急速に進歩している。この問題に対処するために、オープンソースのLLM上に構築されたSWEエージェントであるSWE-Devを提案する。 SWE-bench-Verifiedベンチマークの実験は、SWE-Devモデルが全てのオープンなSWEエージェントの中で最高のパフォーマンスを達成できることを示している。
論文参考訳（メタデータ） (2025-06-09T11:03:16Z)
Co-Evolving LLM Coder and Unit Tester via Reinforcement Learning [33.676158965697184]
本稿では,専用の報酬設計を備えた新しい強化学習フレームワークCUREを提案する。 CUREは、その相互作用の結果に基づいて、コーディングと単体テスト生成機能を共進化させる。我々のモデルは,ベースモデルに基づく強化学習に有効な報奨モデルとして機能することを発見した。
論文参考訳（メタデータ） (2025-06-03T17:58:42Z)
APIGen-MT: Agentic Pipeline for Multi-Turn Data Generation via Simulated Agent-Human Interplay [86.01901238059261]
APIGen-MTは検証可能で多様なマルチターンエージェントデータを生成するフレームワークである。 xLAM-2-fc-r 級数で 1B から 70B のパラメータを持つモデル群を訓練する。我々のモデルは、$tau$-benchとBFCLベンチマークでGPT-4oやClaude 3.5のようなフロンティアモデルより優れている。
論文参考訳（メタデータ） (2025-04-04T17:13:57Z)
Boosting Virtual Agent Learning and Reasoning: A Step-wise, Multi-dimensional, and Generalist Reward Model with Benchmark [72.46357004059661]
ステップワイドな多次元ジェネリスト・リワードモデルであるSimisalを提案する。エージェントトレーニング用のきめ細かい信号を提供し、推論時間スケーリングのためのより良いアクションを選択することができる。仮想エージェント領域の最初のベンチマークをステップワイドで多次元の報酬モデルトレーニングと評価のために導入する。
論文参考訳（メタデータ） (2025-03-24T13:30:47Z)
Learning to Solve and Verify: A Self-Play Framework for Code and Test Generation [69.62857948698436]
大規模言語モデル(LLM)の最近の進歩は、コーディングベンチマークのパフォーマンスを改善している。しかし、手軽に利用できる高品質なデータの枯渇により、改善は停滞している。本稿では,単一モデルのコードとテスト生成能力を共同で改善するセルフプレイ・ソルバ検証フレームワークであるSol-Verを提案する。
論文参考訳（メタデータ） (2025-02-20T18:32:19Z)
UnitCoder: Scalable Iterative Code Synthesis with Unit Test Guidance [65.01483640267885]
大きな言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示してきたが、コード生成は依然として大きな課題である。私たちは、モデル生成ユニットテストを活用してコード生成プロセスのガイドと検証を行う、システマティックパイプラインであるUnitCoderを紹介します。我々の研究は、モデル生成単体テストを利用して、事前学習コーパスから高品質なコードデータの合成を誘導するスケーラブルなアプローチを提案する。
論文参考訳（メタデータ） (2025-02-17T05:37:02Z)
Training Dynamics of a 1.7B LLaMa Model: A Data-Efficient Approach [10.39475177812483]
約200億個のデータに対するDMaS-LLaMa-Liteのトレーニングから得られた洞察を共有します。我々は、検証損失レベルとダウンストリームベンチマークの進化が、不整合テキストから、流動的で文脈に根ざしたアウトプットへの移行を反映しているかを記述した、完全なトレーニングの軌跡を詳述する。これらの経験を詳述し、トレーニングログ、チェックポイント、サンプルアウトプットを提供することで、将来の研究者や実践者が事前学習戦略を洗練することを目指している。
論文参考訳（メタデータ） (2024-12-17T21:15:52Z)
Evolving Subnetwork Training for Large Language Models [19.54861230097017]
我々は、新しいトレーニングパラダイム、Evolving Subnetwork Training (EST)を提案する。 ESTサンプルは、大きな言語モデルのレイヤから、そして各レイヤで一般的に使用されるモジュールから作成される。 GPT2モデルのトレーニングとTinyLlamaモデルのトレーニングにESTを適用した結果,GPT2の26.7%のFLOPとTinyLlamaの25.0%の削減を実現した。
論文参考訳（メタデータ） (2024-06-11T05:44:56Z)
Prompting Large Language Models to Tackle the Full Software Development Lifecycle: A Case Study [72.24266814625685]
DevEvalでソフトウェア開発ライフサイクル全体にわたって、大きな言語モデル(LLM)のパフォーマンスを調査します。 DevEvalは4つのプログラミング言語、複数のドメイン、高品質なデータ収集、各タスクに対して慎重に設計および検証されたメトリクスを備えている。 GPT-4を含む現在のLLMは、DevEvalで提示される課題を解決できないことが実証研究によって示されている。
論文参考訳（メタデータ） (2024-03-13T15:13:44Z)
DPOT: Auto-Regressive Denoising Operator Transformer for Large-Scale PDE Pre-Training [87.90342423839876]
我々は,PDEデータに対するより安定的で効率的な事前学習を可能にする,自己回帰型事前学習戦略を提案する。我々は,100k以上の軌道を持つ10以上のPDEデータセットに対して,最大0.5BパラメータでPDEファンデーションモデルをトレーニングする。
論文参考訳（メタデータ） (2024-03-06T08:38:34Z)
Building One-Shot Semi-supervised (BOSS) Learning up to Fully Supervised Performance [0.0]
本研究では,Cifar-10とSVHNを用いた一発半教師付き学習(BOSS)の可能性を示す。本手法は, クラスプロトタイプの精錬, クラスバランシング, 自己学習を組み合わせた手法である。厳密な経験的評価は、ディープニューラルネットワークのトレーニングには大規模なデータセットのラベル付けは必要ないという証拠を提供する。
論文参考訳（メタデータ） (2020-06-16T17:56:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。