Fugu-MT 論文翻訳(概要): SWE-Flow: Synthesizing Software Engineering Data in a Test-Driven Manner

論文の概要: SWE-Flow: Synthesizing Software Engineering Data in a Test-Driven Manner

arxiv url: http://arxiv.org/abs/2506.09003v2
Date: Wed, 11 Jun 2025 03:30:10 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-12 16:13:48.090906
Title: SWE-Flow: Synthesizing Software Engineering Data in a Test-Driven Manner
Title（参考訳）: SWE-Flow: テスト駆動マンナでソフトウェアエンジニアリングデータを合成する
Authors: Lei Zhang, Jiaxi Yang, Min Yang, Jian Yang, Mouxiang Chen, Jiajun Zhang, Zeyu Cui, Binyuan Hui, Junyang Lin,
Abstract要約: テスト駆動開発(TDD)に基づく新しいデータ合成フレームワーク**SWE-Flow*を紹介します。人為的な問題に依存する既存のソフトウェアエンジニアリングデータとは異なり、**SWE-Flow*は、単体テストから直接インクリメンタルな開発ステップを推論する。私たちは現実のGitHubプロジェクトから16,061のトレーニングインスタンスと2,020のテストインスタンスを生成し、**SWE-Flow-Eval**ベンチマークを作成しました。
参考スコア（独自算出の注目度）: 53.54568352375669
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: We introduce **SWE-Flow**, a novel data synthesis framework grounded in Test-Driven Development (TDD). Unlike existing software engineering data that rely on human-submitted issues, **SWE-Flow** automatically infers incremental development steps directly from unit tests, which inherently encapsulate high-level requirements. The core of **SWE-Flow** is the construction of a Runtime Dependency Graph (RDG), which precisely captures function interactions, enabling the generation of a structured, step-by-step *development schedule*. At each step, **SWE-Flow** produces a partial codebase, the corresponding unit tests, and the necessary code modifications, resulting in fully verifiable TDD tasks. With this approach, we generated 16,061 training instances and 2,020 test instances from real-world GitHub projects, creating the **SWE-Flow-Eval** benchmark. Our experiments show that fine-tuning open model on this dataset significantly improves performance in TDD-based coding. To facilitate further research, we release all code, datasets, models, and Docker images at [Github](https://github.com/Hambaobao/SWE-Flow).
Abstract（参考訳）: テスト駆動開発(TDD)に基づく新しいデータ合成フレームワーク**SWE-Flow*を紹介します。人為的な問題に依存する既存のソフトウェアエンジニアリングデータとは異なり、**SWE-Flow*は、単体テストから直接インクリメンタルな開発ステップを推論します。 SWE-Flow**のコアは、関数間の相互作用を正確にキャプチャするRuntime Dependency Graph(RDG)の構築であり、構造化された、ステップバイステップの*開発スケジュール*の生成を可能にする。各ステップにおいて**SWE-Flow**は部分的なコードベース、対応するユニットテスト、必要なコード修正を生成します。このアプローチでは、現実のGitHubプロジェクトから16,061のトレーニングインスタンスと2,020のテストインスタンスを生成し、**SWE-Flow-Eval*ベンチマークを作成しました。私たちの実験では、このデータセットで微調整されたオープンモデルによって、TDDベースのコーディングのパフォーマンスが大幅に向上することが示されています。さらなる調査を容易にするため、Github[https://github.com/Hambaobao/SWE-Flow]で、すべてのコード、データセット、モデル、Dockerイメージをリリースしています。

関連論文リスト

Skywork-SWE: Unveiling Data Scaling Laws for Software Engineering in LLMs [19.766885088032932]
ソフトウェアエンジニアリング(SWE)は、次世代のLLMエージェントにとって重要なテストベッドとして登場した。既存のデータセットのほとんどは、わずか数千のGitHubソースインスタンスに制限されている。 SWEデータセットのボリュームと多様性の両方を体系的にスケールするインクリメンタルな自動データキュレーションパイプラインを提案する。
論文参考訳（メタデータ） (2025-06-24T03:53:36Z)
SWE-Dev: Building Software Engineering Agents with Training and Inference Scaling [39.53265893083118]
大規模言語モデル(LLM)は、会話による問題解決から、ツール使用に関わる現実的なタスクへの対処まで、急速に進歩している。この問題に対処するために、オープンソースのLLM上に構築されたSWEエージェントであるSWE-Devを提案する。 SWE-bench-Verifiedベンチマークの実験は、SWE-Devモデルが全てのオープンなSWEエージェントの中で最高のパフォーマンスを達成できることを示している。
論文参考訳（メタデータ） (2025-06-09T11:03:16Z)
SwingArena: Competitive Programming Arena for Long-context GitHub Issue Solving [90.32201622392137]
We present SwingArena, a competitive evaluation framework for Large Language Models (LLMs)。従来の静的ベンチマークとは異なり、SwingArenaはLLMをイテレーションとして組み合わせて、テストケースを作成し、継続的インテグレーション(CI)パイプラインを通じてパッチを検証するパッチとレビュアーを生成することで、ソフトウェアのコラボレーションプロセスをモデル化する。
論文参考訳（メタデータ） (2025-05-29T18:28:02Z)
SWE-Dev: Evaluating and Training Autonomous Feature-Driven Software Development [40.48114055515786]
SWE-Devは,自律的なコーディングシステムの評価とトレーニングを目的とした,最初の大規模データセット(トレーニング14,000,テストサンプル500)である。 Supervised Fine-Tuning (SFT) のための高品質なデータを提供するが、実行可能な単体テストから正確な報酬信号を提供することで強化学習(RL)を可能にする。
論文参考訳（メタデータ） (2025-05-22T17:51:49Z)
UnitCoder: Scalable Iterative Code Synthesis with Unit Test Guidance [65.01483640267885]
大きな言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示してきたが、コード生成は依然として大きな課題である。私たちは、モデル生成ユニットテストを活用してコード生成プロセスのガイドと検証を行う、システマティックパイプラインであるUnitCoderを紹介します。我々の研究は、モデル生成単体テストを利用して、事前学習コーパスから高品質なコードデータの合成を誘導するスケーラブルなアプローチを提案する。
論文参考訳（メタデータ） (2025-02-17T05:37:02Z)
FlowTS: Time Series Generation via Rectified Flow [67.41208519939626]
FlowTSは、確率空間における直線輸送を伴う整流フローを利用するODEベースのモデルである。非条件設定では、FlowTSは最先端のパフォーマンスを達成し、コンテキストFIDスコアはStockとETThデータセットで0.019と0.011である。条件設定では、太陽予測において優れた性能を達成している。
論文参考訳（メタデータ） (2024-11-12T03:03:23Z)
WorkflowLLM: Enhancing Workflow Orchestration Capability of Large Language Models [105.46456444315693]
ワークフローオーケストレーションにおける大規模言語モデルの能力を高めるための,データ中心のフレームワークであるLLMを提案する。最初は106,763のサンプルで大規模な微調整Benchを構築し、28のカテゴリにわたる83のアプリケーションから1,503のAPIをカバーしている。 LlamaLlamaは複雑なAPIをオーケストレーションする能力を示しながら、優れた一般化性能を実現している。
論文参考訳（メタデータ） (2024-11-08T09:58:02Z)
OneFlow: Redesign the Distributed Deep Learning Framework from Scratch [17.798586916628174]
OneFlowは、SBP(スプリット、ブロードキャスト、部分値)の抽象化とアクターモデルに基づく、新しい分散トレーニングフレームワークである。 SBPは既存のフレームワークよりも、データ並列処理やモデル並列処理のプログラミングがずっと簡単になります。 OneFlowは、最先端のフレームワーク上に構築された多くの有名なカスタマイズライブラリよりも優れています。
論文参考訳（メタデータ） (2021-10-28T11:32:14Z)
AutoFlow: Learning a Better Training Set for Optical Flow [62.40293188964933]
AutoFlowは、光学フローのトレーニングデータをレンダリングする手法である。 AutoFlowはPWC-NetとRAFTの両方の事前トレーニングにおいて最先端の精度を実現する。
論文参考訳（メタデータ） (2021-04-29T17:55:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。