論文の概要: SWE-Factory: Your Automated Factory for Issue Resolution Training Data and Evaluation Benchmarks
- arxiv url: http://arxiv.org/abs/2506.10954v1
- Date: Thu, 12 Jun 2025 17:54:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.891623
- Title: SWE-Factory: Your Automated Factory for Issue Resolution Training Data and Evaluation Benchmarks
- Title(参考訳): SWE-Factory: 課題解決トレーニングデータと評価ベンチマークのための自動化ファクトリ
- Authors: Lianghong Guo, Yanlin Wang, Caihua Li, Pengyu Yang, Jiachi Chen, Wei Tao, Yingtian Zou, Duyu Tang, Zibin Zheng,
- Abstract要約: SWE-Factoryは、大規模なGitHubイシュー解決データセットを作成するために設計された、自動パイプラインである。
SWE-Builderは評価環境構築を自動化するマルチエージェントシステムである。
出口符号に基づくグルーピングは手動検査に比べて100%精度が向上する。
- 参考スコア(独自算出の注目度): 34.8513098099929
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Constructing large-scale datasets for the GitHub issue resolution task is crucial for both training and evaluating the software engineering capabilities of Large Language Models (LLMs). However, the traditional process for creating such benchmarks is notoriously challenging and labor-intensive, particularly in the stages of setting up evaluation environments, grading test outcomes, and validating task instances. In this paper, we propose SWE-Factory, an automated pipeline designed to address these challenges. To tackle these issues, our pipeline integrates three core automated components. First, we introduce SWE-Builder, a multi-agent system that automates evaluation environment construction, which employs four specialized agents that work in a collaborative, iterative loop and leverages an environment memory pool to enhance efficiency. Second, we introduce a standardized, exit-code-based grading method that eliminates the need for manually writing custom parsers. Finally, we automate the fail2pass validation process using these reliable exit code signals. Experiments on 671 issues across four programming languages show that our pipeline can effectively construct valid task instances; for example, with GPT-4.1-mini, our SWE-Builder constructs 269 valid instances at $0.045 per instance, while with Gemini-2.5-flash, it achieves comparable performance at the lowest cost of $0.024 per instance. We also demonstrate that our exit-code-based grading achieves 100% accuracy compared to manual inspection, and our automated fail2pass validation reaches a precision of 0.92 and a recall of 1.00. We hope our automated pipeline will accelerate the collection of large-scale, high-quality GitHub issue resolution datasets for both training and evaluation. Our code and datasets are released at https://github.com/DeepSoftwareAnalytics/swe-factory.
- Abstract(参考訳): GitHubイシュー解決タスクのために大規模なデータセットを構築することは、大規模言語モデル(LLM)のソフトウェアエンジニアリング能力のトレーニングと評価に不可欠である。
しかしながら、このようなベンチマークを作成する従来のプロセスは、特に評価環境のセットアップ、テスト結果のグレード、タスクインスタンスの検証といった段階で、非常に困難で労力がかかることで知られています。
本稿では,これらの課題に対処するための自動パイプラインであるSWE-Factoryを提案する。
これらの問題に対処するため、パイプラインは3つのコア自動化コンポーネントを統合しています。
まず,評価環境構築を自動化するマルチエージェントシステムであるSWE-Builderを紹介する。
第2に、手動でパーサを記述する必要をなくし、標準化された終了コードに基づくグレーディング手法を導入する。
最後に、これらの信頼できる終了符号信号を用いて、フェール2パス検証プロセスを自動化する。
例えば、GPT-4.1-miniでは、1インスタンスあたり0.045ドル、Gemini-2.5-flashでは1インスタンスあたり0.024ドルという最低コストで同等のパフォーマンスを実現しています。
自動フェール2パス検証は0.92の精度と1.00のリコールに到達した。
当社の自動パイプラインは、トレーニングと評価の両方のために、大規模で高品質なGitHubイシュー解決データセットの収集を加速することを期待しています。
コードとデータセットはhttps://github.com/DeepSoftwareAnalytics/swe-factory.comで公開されています。
関連論文リスト
- SWE-Flow: Synthesizing Software Engineering Data in a Test-Driven Manner [53.54568352375669]
テスト駆動開発(TDD)に基づく新しいデータ合成フレームワーク**SWE-Flow*を紹介します。
人為的な問題に依存する既存のソフトウェアエンジニアリングデータとは異なり、**SWE-Flow*は、単体テストから直接インクリメンタルな開発ステップを推論する。
私たちは現実のGitHubプロジェクトから16,061のトレーニングインスタンスと2,020のテストインスタンスを生成し、**SWE-Flow-Eval**ベンチマークを作成しました。
論文 参考訳(メタデータ) (2025-06-10T17:23:33Z) - SWE-rebench: An Automated Pipeline for Task Collection and Decontaminated Evaluation of Software Engineering Agents [34.16732444158405]
LLMベースのエージェントは、SWE(Software Engineering)タスクの増加に期待できる能力を示している。
高品質なトレーニングデータは、特に現実世界のSWEシナリオを反映したデータが少ない。
既存のデータセットはワンショットのコード生成に限られるか、小さな手作業による対話的なタスクのコレクションで構成されている。
論文 参考訳(メタデータ) (2025-05-26T18:01:00Z) - EnvBench: A Benchmark for Automated Environment Setup [76.02998475135824]
大規模言語モデルにより、研究者はソフトウェア工学領域における実用的なリポジトリレベルのタスクに集中できるようになった。
環境設定に関する既存の研究は革新的なエージェント戦略を導入しているが、その評価は小さなデータセットに基づいていることが多い。
このギャップに対処するため、包括的環境設定ベンチマークEnvBenchを紹介します。
論文 参考訳(メタデータ) (2025-03-18T17:19:12Z) - UnitCoder: Scalable Iterative Code Synthesis with Unit Test Guidance [65.01483640267885]
大きな言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示してきたが、コード生成は依然として大きな課題である。
私たちは、モデル生成ユニットテストを活用してコード生成プロセスのガイドと検証を行う、システマティックパイプラインであるUnitCoderを紹介します。
我々の研究は、モデル生成単体テストを利用して、事前学習コーパスから高品質なコードデータの合成を誘導するスケーラブルなアプローチを提案する。
論文 参考訳(メタデータ) (2025-02-17T05:37:02Z) - Adaptable and Precise: Enterprise-Scenario LLM Function-Calling Capability Training Pipeline [7.487352346469893]
実世界のビジネスシナリオに適した関数呼び出し機能のためのトレーニングパイプラインを提案する。
このパイプラインは、シナリオ固有の関数呼び出しデータの合成と拡張、モデル微調整、性能評価と分析を含む。
本モデルでは, GPT-4, GPT-4oを精度良く上回り, 評価, 実用化に優れた性能を示した。
論文 参考訳(メタデータ) (2024-12-20T08:20:21Z) - Spider2-V: How Far Are Multimodal Agents From Automating Data Science and Engineering Workflows? [73.81908518992161]
我々は、プロのデータサイエンスとエンジニアリングに焦点を当てた最初のマルチモーダルエージェントベンチマークであるSpider2-Vを紹介する。
Spider2-Vは、本物のコンピュータ環境における現実世界のタスクを特徴とし、20のエンタープライズレベルのプロフェッショナルアプリケーションを組み込んでいる。
これらのタスクは、エンタープライズデータソフトウェアシステムにおいて、コードを書き、GUIを管理することで、マルチモーダルエージェントがデータ関連のタスクを実行する能力を評価する。
論文 参考訳(メタデータ) (2024-07-15T17:54:37Z) - eTOP: Early Termination of Pipelines for Faster Training of AutoML
Systems [12.933957727351666]
適切なAI/MLモデルを見つけるのは、複雑でコストのかかるプロセスです。
我々は,任意のAutoMLシステム上で動作するeTOPフレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-17T20:22:30Z) - Sound Event Classification in an Industrial Environment: Pipe Leakage
Detection Use Case [3.9414768019101682]
産業環境におけるパイプ漏れ検出のための多段階機械学習パイプラインを提案する。
提案されたパイプラインは複数のステップを適用し、それぞれが環境の課題に対処する。
その結果, 精度99%, F1スコア0.93, 0.9の優れた結果が得られた。
論文 参考訳(メタデータ) (2022-05-05T15:26:22Z) - SapientML: Synthesizing Machine Learning Pipelines by Learning from
Human-Written Solutions [28.718446733713183]
既存のデータセットとその人手によるパイプラインのコーパスから学習できるAutoML SapientMLを提案する。
我々は、170のデータセットにまたがる1094のパイプラインのトレーニングコーパスを作成し、41のベンチマークデータセットでSapientMLを評価した。
我々の評価によると、SapientMLは27のベンチマークでベストまたは同等の精度で、第2のツールでは9のインスタンスでパイプラインを生成できない。
論文 参考訳(メタデータ) (2022-02-18T20:45:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。