Fugu-MT 論文翻訳(概要): Skywork-SWE: Unveiling Data Scaling Laws for Software Engineering in LLMs

論文の概要: Skywork-SWE: Unveiling Data Scaling Laws for Software Engineering in LLMs

arxiv url: http://arxiv.org/abs/2506.19290v1
Date: Tue, 24 Jun 2025 03:53:36 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-25 19:48:23.47723
Title: Skywork-SWE: Unveiling Data Scaling Laws for Software Engineering in LLMs
Title（参考訳）: Skywork-SWE: LLMにおけるソフトウェアエンジニアリングのためのデータスケーリングの法則
Authors: Liang Zeng, Yongcong Li, Yuzhen Xiao, Changshi Li, Chris Yuhao Liu, Rui Yan, Tianwen Wei, Jujie He, Xuchen Song, Yang Liu, Yahui Zhou,
Abstract要約: ソフトウェアエンジニアリング(SWE)は、次世代のLLMエージェントにとって重要なテストベッドとして登場した。既存のデータセットのほとんどは、わずか数千のGitHubソースインスタンスに制限されている。 SWEデータセットのボリュームと多様性の両方を体系的にスケールするインクリメンタルな自動データキュレーションパイプラインを提案する。
参考スコア（独自算出の注目度）: 19.766885088032932
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Software engineering (SWE) has recently emerged as a crucial testbed for next-generation LLM agents, demanding inherent capabilities in two critical dimensions: sustained iterative problem-solving (e.g., >50 interaction rounds) and long-context dependency resolution (e.g., >32k tokens). However, the data curation process in SWE remains notoriously time-consuming, as it heavily relies on manual annotation for code file filtering and the setup of dedicated runtime environments to execute and validate unit tests. Consequently, most existing datasets are limited to only a few thousand GitHub-sourced instances. To this end, we propose an incremental, automated data-curation pipeline that systematically scales both the volume and diversity of SWE datasets. Our dataset comprises 10,169 real-world Python task instances from 2,531 distinct GitHub repositories, each accompanied by a task specified in natural language and a dedicated runtime-environment image for automated unit-test validation. We have carefully curated over 8,000 successfully runtime-validated training trajectories from our proposed SWE dataset. When fine-tuning the Skywork-SWE model on these trajectories, we uncover a striking data scaling phenomenon: the trained model's performance for software engineering capabilities in LLMs continues to improve as the data size increases, showing no signs of saturation. Notably, our Skywork-SWE model achieves 38.0% pass@1 accuracy on the SWE-bench Verified benchmark without using verifiers or multiple rollouts, establishing a new state-of-the-art (SOTA) among the Qwen2.5-Coder-32B-based LLMs built on the OpenHands agent framework. Furthermore, with the incorporation of test-time scaling techniques, the performance further improves to 47.0% accuracy, surpassing the previous SOTA results for sub-32B parameter models. We release the Skywork-SWE-32B model checkpoint to accelerate future research.
Abstract（参考訳）: ソフトウェアエンジニアリング(SWE)は、最近、次世代のLLMエージェントにとって重要なテストベッドとして現れ、持続的反復的問題解決(例:50のインタラクションラウンド)と長期コンテキスト依存解決(例:32kトークン)という、2つの重要な次元で固有の機能を要求する。しかしながら、SWEのデータキュレーションプロセスは、コードファイルフィルタリングのマニュアルアノテーションや、単体テストの実行と検証のための専用のランタイム環境の設定に大きく依存しているため、依然として時間を要することが知られている。その結果、既存のデータセットのほとんどは、わずか数千のGitHubソースインスタンスに制限されている。この目的のために、SWEデータセットのボリュームと多様性の両方を体系的にスケールするインクリメンタルな自動データキュレーションパイプラインを提案する。当社のデータセットは,2,531の異なるGitHubリポジトリから10,169のPythonタスクインスタンスで構成されており,それぞれに自然言語で指定されたタスクと,自動ユニットテスト検証のための専用のランタイム環境イメージが付属している。我々は、提案したSWEデータセットから、8000以上の実行時検証されたトレーニングトラジェクトリを慎重にキュレートした。これらの軌道上でSkywork-SWEモデルを微調整すると、顕著なデータスケーリング現象が明らかになる: LLMにおけるソフトウェアエンジニアリング能力のためのトレーニングされたモデルのパフォーマンスは、データサイズが大きくなるにつれて改善され続け、飽和の兆候は示されていない。特に、Skywork-SWEモデルは、検証や複数ロールアウトを使わずに、SWE-bench Verifiedベンチマークで38.0%のパス@1精度を実現し、OpenHandsエージェントフレームワーク上に構築されたQwen2.5-Coder-32BベースのLLMの中で、新しい最先端(SOTA)を確立しました。さらに、テスト時間スケーリング技術の導入により、パフォーマンスはさらに47.0%の精度に向上し、32B以下のパラメータモデルに対する以前のSOTA結果を上回った。今後の研究を加速するために,Skywork-SWE-32Bモデルチェックポイントをリリースする。

関連論文リスト

SWE-MERA: A Dynamic Benchmark for Agenticly Evaluating Large Language Models on Software Engineering Tasks [3.3037205426689433]
ソフトウェア工学における大規模言語モデル(LLM)は、既存のベンチマークにおいて重要な制限を明らかにしている。例えば、SWE-benchのレポートでは、パッチの32.67%は直接の溶液漏れを含んでいる。 SWE-MERA(SWE-MERA)は、これらの基本的な課題に対処するために設計された、動的で継続的に更新されたベンチマークである。
論文参考訳（メタデータ） (2025-07-15T07:52:33Z)
SWE-Flow: Synthesizing Software Engineering Data in a Test-Driven Manner [53.54568352375669]
テスト駆動開発(TDD)に基づく新しいデータ合成フレームワーク**SWE-Flow*を紹介します。人為的な問題に依存する既存のソフトウェアエンジニアリングデータとは異なり、**SWE-Flow*は、単体テストから直接インクリメンタルな開発ステップを推論する。私たちは現実のGitHubプロジェクトから16,061のトレーニングインスタンスと2,020のテストインスタンスを生成し、**SWE-Flow-Eval**ベンチマークを作成しました。
論文参考訳（メタデータ） (2025-06-10T17:23:33Z)
SWE-Dev: Building Software Engineering Agents with Training and Inference Scaling [39.53265893083118]
大規模言語モデル(LLM)は、会話による問題解決から、ツール使用に関わる現実的なタスクへの対処まで、急速に進歩している。この問題に対処するために、オープンソースのLLM上に構築されたSWEエージェントであるSWE-Devを提案する。 SWE-bench-Verifiedベンチマークの実験は、SWE-Devモデルが全てのオープンなSWEエージェントの中で最高のパフォーマンスを達成できることを示している。
論文参考訳（メタデータ） (2025-06-09T11:03:16Z)
Satori-SWE: Evolutionary Test-Time Scaling for Sample-Efficient Software Engineering [51.7496756448709]
言語モデル(LM)は、コーディングベンチマークではうまく機能するが、現実のソフトウェア工学のタスクでは苦労する。既存のアプローチは、高品質なデータによる教師付き微調整に依存している。本研究では, 生成を進化過程として扱うサンプル効率の高い手法であるテスト時間スケーリング(EvoScale)を提案する。
論文参考訳（メタデータ） (2025-05-29T16:15:36Z)
SWE-rebench: An Automated Pipeline for Task Collection and Decontaminated Evaluation of Software Engineering Agents [34.16732444158405]
LLMベースのエージェントは、SWE(Software Engineering)タスクの増加に期待できる能力を示している。高品質なトレーニングデータは、特に現実世界のSWEシナリオを反映したデータが少ない。既存のデータセットはワンショットのコード生成に限られるか、小さな手作業による対話的なタスクのコレクションで構成されている。
論文参考訳（メタデータ） (2025-05-26T18:01:00Z)
SWE-Synth: Synthesizing Verifiable Bug-Fix Data to Enable Large Language Models in Resolving Real-World Bugs [10.70881967278009]
本稿では,現実的な検証可能な,プロセス対応のバグフィックスデータセットをリポジトリレベルで合成するフレームワークであるSWE- Synthを紹介する。手作業で収集したデータセットと比較して、文脈的豊かさと正確さを保ちながら、最小限の人的労力でスケールする。この結果から,APRとソフトウェア工学の自動化の最先端を推し進めるために,人工エージェント生成データの可能性を強調した。
論文参考訳（メタデータ） (2025-04-20T22:37:43Z)
Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文参考訳（メタデータ） (2025-03-31T07:31:32Z)
UnitCoder: Scalable Iterative Code Synthesis with Unit Test Guidance [65.01483640267885]
大きな言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示してきたが、コード生成は依然として大きな課題である。私たちは、モデル生成ユニットテストを活用してコード生成プロセスのガイドと検証を行う、システマティックパイプラインであるUnitCoderを紹介します。我々の研究は、モデル生成単体テストを利用して、事前学習コーパスから高品質なコードデータの合成を誘導するスケーラブルなアプローチを提案する。
論文参考訳（メタデータ） (2025-02-17T05:37:02Z)
SWE-Fixer: Training Open-Source LLMs for Effective and Efficient GitHub Issue Resolution [56.9361004704428]
大規模言語モデル(LLM)は、様々な複雑なタスクにまたがる顕著な習熟度を示している。 SWE-Fixerは、GitHubの問題を効果的かつ効率的に解決するために設計された、新しいオープンソースフレームワークである。我々は,SWE-Bench LiteとVerifiedベンチマークに対するアプローチを評価し,オープンソースモデル間の競合性能を実現する。
論文参考訳（メタデータ） (2025-01-09T07:54:24Z)
ToolACE: Winning the Points of LLM Function Calling [139.07157814653638]
ToolACEは、正確で複雑で多様なツール学習データを生成するように設計された自動エージェントパイプラインである。我々は、合成データに基づいてトレーニングされたモデルが、8Bパラメータだけで、バークレー・ファンクション・カリング・リーダーボード上で最先端のパフォーマンスを達成することを実証した。
論文参考訳（メタデータ） (2024-09-02T03:19:56Z)
Accelerated Cloud for Artificial Intelligence (ACAI) [24.40451195277244]
我々は、エンドツーエンドのクラウドベースの機械学習プラットフォームであるAccelerated Cloud for AI (ACAI)を提案する。 ACAIは、インデックス付き、ラベル付き、検索可能なデータのクラウドストレージと、自動リソースプロビジョニング、ジョブスケジューリング、実験追跡を可能にする。自動プロビジョン装置は1.7倍のスピードアップと39%のコスト削減を実現し,典型的なMLのユースケースにおいて,ML科学者の実験時間を20%短縮することを示した。
論文参考訳（メタデータ） (2024-01-30T07:09:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。