論文の概要: RepoForge: Training a SOTA Fast-thinking SWE Agent with an End-to-End Data Curation Pipeline Synergizing SFT and RL at Scale
- arxiv url: http://arxiv.org/abs/2508.01550v1
- Date: Sun, 03 Aug 2025 02:34:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 14:04:12.023202
- Title: RepoForge: Training a SOTA Fast-thinking SWE Agent with an End-to-End Data Curation Pipeline Synergizing SFT and RL at Scale
- Title(参考訳): RepoForge: SFTとRLを大規模に同期するエンドツーエンドのデータキュレーションパイプラインによるSOTA高速思考SWEエージェントのトレーニング
- Authors: Zhilong Chen, Chengzong Zhao, Boyuan Chen, Dayi Lin, Yihao Chen, Arthur Leung, Gopi Krishnan Rajbahadur, Gustavo A. Oliva, Ahmed E. Hassan,
- Abstract要約: トレーニングソフトウェアエンジニアリング(SWE) LLMは、高価なインフラストラクチャ、非効率な評価パイプライン、少ないトレーニングデータ、高価な品質管理によってボトルネックになっている。
本稿では,SWEエージェントを大規模に生成し,評価し,訓練する,自律的なエンドツーエンドパイプラインであるRepoForgeを紹介する。
- 参考スコア(独自算出の注目度): 15.222840183878322
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Training software engineering (SWE) LLMs is bottlenecked by expensive infrastructure, inefficient evaluation pipelines, scarce training data, and costly quality control. We present RepoForge, an autonomous, end-to-end pipeline that generates, evaluates, and trains SWE agents at scale. Our key contributions include: (1) RepoForge-8B-Agent, achieving 17.4\% on SWE-Bench-Verified~\citep{swebench_verified2024}, establishing new state-of-the-art for $\leq$8B non-thinking LLMs; (2) 7,304 executable environments auto-generated from real GitHub commits with zero manual intervention; (3) 14$\times$ storage reduction (1.4GB $\rightarrow$ 102MB per instance) via intelligent dependency management and image pruning; (4) $>$70\% faster evaluation using a Ray-powered~\citep{ray2018} distributed RepoForge harness; (5) 19,000$\times$ cheaper labeling through our automated SPICE~\citep{spice2024} difficulty assessment technique. By unifying storage-efficient sandboxing, Ray-powered evaluation harness, automated data generation, SPICE-based labeling, and bubble-free RL scaffold, we demonstrate that even $\leq$8B models can reach new state-of-the-art performance on demanding benchmarks like SWE-Bench-Verified. Our approach addresses critical bottlenecks in SWE agent training: high storage costs of container-based evaluation, inefficient sequential reward pipelines, limited availability of high-quality training data, expensive manual labeling, and multi-turn RL pipeline bottlenecks.
- Abstract(参考訳): トレーニングソフトウェアエンジニアリング(SWE) LLMは、高価なインフラストラクチャ、非効率な評価パイプライン、少ないトレーニングデータ、コストの高い品質管理によってボトルネックになっている。
本稿では,SWEエージェントを大規模に生成し,評価し,訓練する,自律的なエンドツーエンドパイプラインであるRepoForgeを紹介する。
主なコントリビューションとしては、(1) RepoForge-8B-Agentは、SWE-Bench-Verified~\citep{swebench_verified2024}で17.4\%を達成し、$\leq$8Bの非概念LDMのための新しい最先端を確立すること、(2)7,304の実行可能な環境は、手作業の介入なしに実際のGitHubコミットから自動生成すること、(3)14$\times$ストレージ削減(1.4GB$\rightarrow$102MB/インスタンスあたり102MB/インスタンスあたり14$\times$ストレージ削減)をインテリジェントな依存性管理とイメージプルーニングを通じて行うこと、(4) (4) > $> 70\% 高速な評価を、Ray-powered~\citep{ray2018}分散RepoForgeのハーネスを使って行うこと、(5) 1$1$000\times$$は、当社のSPICE〜spiceを通じて、より安くラベル付けられること、などがあります。
ストレージ効率の高いサンドボックス,レイ駆動評価,自動データ生成,SPICEベースのラベリング,バブルフリーのRL足場を統一することにより,SWE-Bench-Verifiedのような要求の高いベンチマークにおいて,$$\leq$8Bのモデルでも新たな最先端のパフォーマンスを達成できることを実証した。
当社のアプローチは,コンテナベースの評価の高ストレージコスト,非効率なシーケンシャルな報酬パイプライン,高品質なトレーニングデータの可用性の制限,高価な手動ラベリング,マルチターンRLパイプラインボトルネックといった,SWEエージェントトレーニングにおける重要なボトルネックに対処する。
関連論文リスト
- Skywork-SWE: Unveiling Data Scaling Laws for Software Engineering in LLMs [19.766885088032932]
ソフトウェアエンジニアリング(SWE)は、次世代のLLMエージェントにとって重要なテストベッドとして登場した。
既存のデータセットのほとんどは、わずか数千のGitHubソースインスタンスに制限されている。
SWEデータセットのボリュームと多様性の両方を体系的にスケールするインクリメンタルな自動データキュレーションパイプラインを提案する。
論文 参考訳(メタデータ) (2025-06-24T03:53:36Z) - SWE-Factory: Your Automated Factory for Issue Resolution Training Data and Evaluation Benchmarks [34.8513098099929]
SWE-Factoryは、大規模なGitHubイシュー解決データセットを作成するために設計された、自動パイプラインである。
SWE-Builderは評価環境構築を自動化するマルチエージェントシステムである。
出口符号に基づくグルーピングは手動検査に比べて100%精度が向上する。
論文 参考訳(メタデータ) (2025-06-12T17:54:17Z) - Training Long-Context LLMs Efficiently via Chunk-wise Optimization [60.05884946552877]
textitSequential Chunk-wise Optimization (SeCO) は、長い入力を管理可能なチャンクに分割するメモリ効率の訓練パラダイムである。
textitSparse Chunk-wise Optimization (SpaCO)を導入し、特定のチャンクへの勾配を選択的に伝播することで計算オーバーヘッドを削減する。
SpaCOは、コンテキスト長からバックプロパゲーションの計算コストを分離し、シーケンスが長くなるにつれて、トレーニング時間が徐々に推論時間に収束することを可能にする。
論文 参考訳(メタデータ) (2025-05-22T14:11:34Z) - Putting the Value Back in RL: Better Test-Time Scaling by Unifying LLM Reasoners With Verifiers [57.95157497749428]
RL$V$は、LLMを推論器と生成検証器の両方として共同で訓練することにより、任意の値自由なRL法を増強する。
RL$V$は、並列サンプリングでMATHの精度を20%以上向上し、効率的なテスト時間計算のスケーリングを可能にする。
論文 参考訳(メタデータ) (2025-05-07T22:41:26Z) - Towards Efficient Automatic Self-Pruning of Large Language Models [55.90119819642064]
トレーニング後の構造化プルーニングは、トレーニングを必要とせずに大規模言語モデルを熟成する有望なソリューションである。
この問題を緩和する鍵は、各レイヤのプルーニング率を正確に決定することにある、と我々は主張する。
我々は、レイヤワイドプルーニングレートを効率的に検索するLLMのためのエンドツーエンドの自動自動プルーニングフレームワークである$textbfSelf-Prunerを紹介した。
論文 参考訳(メタデータ) (2025-02-20T09:59:50Z) - Simple ReFlow: Improved Techniques for Fast Flow Models [68.32300636049008]
拡散および流れマッチングモデルは、優れた生成性能を実現するが、多くのサンプリングステップを犠牲にしている。
我々は、力学、学習、推論のトレーニングに7つの改善点を提案する。
我々は、ニューラルネットワークによる高速な生成のために、最先端のFIDスコア(ガイダンスなし/参照なし)を達成している。
論文 参考訳(メタデータ) (2024-10-10T11:00:55Z) - MobiLlama: Towards Accurate and Lightweight Fully Transparent GPT [87.4910758026772]
近年のLarge Language Models (LLM) 開発において,"Bigger the Better" が主流となっている。
本稿では、リソース制約のあるデバイスに対して、正確かつ効率的なSLM(Small Language Models)を設計する上での課題に対処し、"less is more"パラダイムについて考察する。
論文 参考訳(メタデータ) (2024-02-26T18:59:03Z) - A Specialized Semismooth Newton Method for Kernel-Based Optimal
Transport [92.96250725599958]
カーネルベース最適輸送(OT)推定器は、サンプルからOT問題に対処するための代替的機能的推定手順を提供する。
SSN法は, 標準正規性条件下でのグローバル収束率$O (1/sqrtk)$, 局所二次収束率を達成できることを示す。
論文 参考訳(メタデータ) (2023-10-21T18:48:45Z) - InTune: Reinforcement Learning-based Data Pipeline Optimization for Deep
Recommendation Models [3.7414278978078204]
深層学習に基づくレコメンデータモデル(DLRM)は多くの現代のレコメンデータシステムにおいて重要なコンポーネントとなっている。
典型的なディープラーニングトレーニングジョブはモデル実行に支配されているが、DLRMトレーニングパフォーマンスの最も重要な要素は、しばしばオンラインデータの取り込みである。
論文 参考訳(メタデータ) (2023-08-13T18:28:56Z) - Efficient Deep Learning Pipelines for Accurate Cost Estimations Over
Large Scale Query Workload [25.52190205651031]
クエリトレースのリソース消費パターンを正確に予測するツリー畳み込みベースのデータサイエンスパイプラインを開発しています。
20PB以上のデータレイク上のGrabから19K Presto OLAPクエリ上のパイプラインを評価します。
我々は、microsoft azure上の大規模バッチモデルトレーニングで最大13.2倍の直接コスト削減を実証する。
論文 参考訳(メタデータ) (2021-03-23T11:36:10Z) - PipeTransformer: Automated Elastic Pipelining for Distributed Training
of Transformers [47.194426122333205]
PipeTransformerはTransformerモデルの分散トレーニングアルゴリズムである。
トレーニング中にいくつかのレイヤを特定し凍結することで、パイプラインとデータの並列性を自動的に調整する。
GLUE と SQuAD データセット上で ImageNet と BERT 上での Vision Transformer (ViT) を用いた Pipe Transformer の評価を行った。
論文 参考訳(メタデータ) (2021-02-05T13:39:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。