論文の概要: SWE-Hub: A Unified Production System for Scalable, Executable Software Engineering Tasks
- arxiv url: http://arxiv.org/abs/2603.00575v1
- Date: Sat, 28 Feb 2026 09:53:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.27082
- Title: SWE-Hub: A Unified Production System for Scalable, Executable Software Engineering Tasks
- Title(参考訳): SWE-Hub: スケーラブルで実行可能なソフトウェアエンジニアリングタスクのための統一生産システム
- Authors: Yucheng Zeng, Shupeng Li, Daxiang Dong, Ruijie Xu, Zimo Chen, Liwei Zheng, Yuxuan Li, Zhe Zhou, Haotian Zhao, Lun Tian, Heng Xiao, Tianshu Zhu, Longkun Hao, Jianmin Wu,
- Abstract要約: SWE-Hubは、データファクトリの抽象化を運用するエンドツーエンドシステムである。
環境の自動化、スケーラブルな合成、多様なタスク生成をコヒーレントなプロダクションスタックに統合する。
- 参考スコア(独自算出の注目度): 10.106518618464888
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Progress in software-engineering agents is increasingly constrained by the scarcity of executable, scalable, and realistic data for training and evaluation. This scarcity stems from three fundamental challenges in existing pipelines: environments are brittle and difficult to reproduce across languages; synthesizing realistic, system-level bugs at scale is computationally expensive; and existing data predominantly consists of short-horizon repairs, failing to capture long-horizon competencies like architectural consistency. We introduce \textbf{SWE-Hub}, an end-to-end system that operationalizes the data factory abstraction by unifying environment automation, scalable synthesis, and diverse task generation into a coherent production stack. At its foundation, the \textbf{Env Agent} establishes a shared execution substrate by automatically converting raw repository snapshots into reproducible, multi-language container environments with standardized interfaces. Built upon this substrate, \textbf{SWE-Scale} engine addresses the need for high-throughput generation, combining cross-language code analysis with cluster-scale validation to synthesize massive volumes of localized bug-fix instances. \textbf{Bug Agent} generates high-fidelity repair tasks by synthesizing system-level regressions involving cross-module dependencies, paired with user-like issue reports that describe observable symptoms rather than root causes. Finally, \textbf{SWE-Architect} expands the task scope from repair to creation by translating natural-language requirements into repository-scale build-a-repo tasks. By integrating these components, SWE-Hub establishes a unified production pipeline capable of continuously delivering executable tasks across the entire software engineering lifecycle.
- Abstract(参考訳): ソフトウェアエンジニアリングエージェントの進歩は、トレーニングと評価のために実行可能な、スケーラブルで、現実的なデータの不足によって、ますます制限されている。
この不足は、既存のパイプラインにおける3つの基本的な課題に起因している: 環境は言語間での脆弱で再現が難しい; 現実的でシステムレベルのバグを大規模に合成するのは計算コストがかかる; 既存のデータは、主に短距離修理で構成され、アーキテクチャの一貫性のような長期的能力の獲得に失敗する。
我々は、環境自動化、スケーラブルな合成、多様なタスク生成をコヒーレントなプロダクションスタックに統合することで、データファクトリの抽象化を運用するエンドツーエンドシステムである「textbf{SWE-Hub}」を紹介した。
その基盤として、 \textbf{Env Agent}は、生のリポジトリスナップショットを、標準化されたインターフェースで再現可能な多言語コンテナ環境に自動的に変換することで、共有実行基盤を確立する。
この基板上に構築された \textbf{SWE-Scale} エンジンは,言語間のコード解析とクラスタスケールの検証を組み合わせることで,大量のローカルなバグフィックスインスタンスを合成する,ハイスループットな生成の必要性に対処する。
\textbf{Bug Agent}は、モジュール間の依存関係を含むシステムレベルのレグレッションを合成し、根本原因ではなく観測可能な症状を記述したユーザライクなイシューレポートと組み合わせることで、高忠実な修復タスクを生成する。
最後に、 \textbf{SWE-Architect} は、自然言語要求をリポジトリスケールの build-a-repo タスクに変換することによって、修正から生成までタスク範囲を拡大する。
これらのコンポーネントを統合することで、SWE-Hubは、ソフトウェアエンジニアリングライフサイクル全体にわたって実行可能なタスクを継続的にデリバリ可能な、統一されたプロダクションパイプラインを確立します。
関連論文リスト
- SWE-rebench V2: Language-Agnostic SWE Task Collection at Scale [39.33317467753191]
SWE-rebench V2は、実行可能な実世界のSWEタスクを回収し、大規模にRLトレーニング環境を構築するための自動パイプラインである。
20の言語と3,600以上のリポジトリにまたがる32,000以上のタスクのデータセットを構築し、再現可能な画像を生成する。
トレーニングデータをさらにスケールするために、インストール命令、フェール・ツー・パステスト、豊富なメタデータを備えた12000以上のタスクもリリースしています。
論文 参考訳(メタデータ) (2026-02-27T10:06:10Z) - Immersion in the GitHub Universe: Scaling Coding Agents to Mastery [60.359983359258955]
ScaleSWEは、高品質なSWEデータを大規模に構築するために設計された、自動化されたサンドボックス化されたマルチエージェントワークフローである。
このシステムは、環境設定、テスト生成、問題記述合成のための3つの特別なエージェントをコーディネートし、5200リポジトリにわたる600万のプルリクエストを処理する。
論文 参考訳(メタデータ) (2026-02-10T15:30:19Z) - AgentSkiller: Scaling Generalist Agent Intelligence through Semantically Integrated Cross-Domain Data Synthesis [30.512393568258105]
大規模言語モデルエージェントは、ツールを介して現実世界の問題を解決する可能性を実証するが、汎用的な知性は、質の低い長期データによってボトルネックとなる。
本稿では,現実的なセマンティックなドメイン間でのマルチターンインタラクションデータを合成する,完全に自動化されたフレームワークであるAgentSkillerを提案する。
論文 参考訳(メタデータ) (2026-02-10T03:21:42Z) - ANCHOR: Branch-Point Data Generation for GUI Agents [52.22377425487]
デスクトップ環境向けのエンドツーエンドGUIエージェントは、大量の高品質なインタラクションデータを必要とする。
本稿では,拡張フレームワークであるAnchorについて紹介する。このフレームワークは,小規模で検証済みのシードデモから,スケーラブルなデスクトップ監視をブートストラップする。
OSWorldとWindowsAgentArenaの標準デスクトップベンチマークの実験では、拡張されたコーパスに微調整されたモデルが一貫した改善を実現している。
論文 参考訳(メタデータ) (2026-02-06T19:55:26Z) - MEnvAgent: Scalable Polyglot Environment Construction for Verifiable Software Engineering [54.236614097082395]
本稿では,自動環境構築のためのフレームワークであるMEnvAgentを紹介する。
MEnvAgentは、建設失敗を自律的に解決するマルチエージェント計画実行検証アーキテクチャを採用している。
MEnvData-SWEは,これまでで最大の,現実的な検証可能なDocker環境のポリグロットデータセットである。
論文 参考訳(メタデータ) (2026-01-30T11:36:10Z) - ABC-Bench: Benchmarking Agentic Backend Coding in Real-World Development [72.4729759618632]
本稿では,現実的かつ実行可能なワークフロー内でエージェントバックエンドコーディングを評価するベンチマークであるABC-Benchを紹介する。
オープンソースリポジトリから8つの言語と19のフレームワークにまたがる224の実践的なタスクをキュレートしました。
我々の評価は、最先端モデルでさえ、これらの総合的なタスクに対して信頼性の高いパフォーマンスを提供するのに苦労していることを示している。
論文 参考訳(メタデータ) (2026-01-16T08:23:52Z) - EnvScaler: Scaling Tool-Interactive Environments for LLM Agent via Programmatic Synthesis [101.67583081810136]
大規模言語モデル(LLM)は、様々な現実世界環境においてエージェントとして機能するよう訓練されることが期待されている。
このプロセスはリッチで多様なツール・インタラクション・サンドボックスに依存している。
スケーラブルなツールインタラクション環境のための自動化フレームワークであるEnvScalerを提案する。
論文 参考訳(メタデータ) (2026-01-09T14:32:06Z) - Process-Level Trajectory Evaluation for Environment Configuration in Software Engineering Agents [71.85020581835042]
大規模言語モデルベースのエージェントは、ソフトウェアエンジニアリングの約束を示すが、環境構成はボトルネックのままである。
既存のベンチマークでは、エンドツーエンドのビルド/テストの成功のみを評価し、エージェントが成功または失敗する場所と理由を見極めている。
本研究では,環境設定計画中の細粒度エージェントのプロセスレベルの軌道評価を行うEnconda-benchを紹介する。
論文 参考訳(メタデータ) (2025-10-29T16:59:07Z) - FABRIC: Framework for Agent-Based Realistic Intelligence Creation [3.940391073007047]
大規模言語モデル(LLM)はエージェントとしてますます多くデプロイされ、目標を分解し、ツールを実行し、動的環境で結果を検証することが期待されている。
本稿では,LLMのみを用いたエージェントデータの統一化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-20T18:20:22Z) - SWE-rebench: An Automated Pipeline for Task Collection and Decontaminated Evaluation of Software Engineering Agents [31.921127664873882]
LLMベースのエージェントは、SWE(Software Engineering)タスクの増加に期待できる能力を示している。
高品質なトレーニングデータは、特に現実世界のSWEシナリオを反映したデータが少ない。
既存のデータセットはワンショットのコード生成に限られるか、小さな手作業による対話的なタスクのコレクションで構成されている。
論文 参考訳(メタデータ) (2025-05-26T18:01:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。