論文の概要: SWE-Lego: Pushing the Limits of Supervised Fine-tuning for Software Issue Resolving
- arxiv url: http://arxiv.org/abs/2601.01426v1
- Date: Sun, 04 Jan 2026 08:07:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.341597
- Title: SWE-Lego: Pushing the Limits of Supervised Fine-tuning for Software Issue Resolving
- Title(参考訳): SWE-Lego: ソフトウェア問題解決のための監督された微調整の限界を推し進める
- Authors: Chaofan Tao, Jierun Chen, Yuxin Jiang, Kaiqi Kou, Shaowei Wang, Ruoyu Wang, Xiaohui Li, Sidi Yang, Yiming Du, Jianbo Dai, Zhiming Mao, Xinyu Wang, Lifeng Shang, Haoli Bai,
- Abstract要約: SWE-Lego(SWE-Lego)は、ソフトウェアエンジニアリング(SWE)問題解決における最先端のパフォーマンスを達成するために設計された教師付き微調整(SFT)レシピである。
SWE-Legoは3つのコアビルディングブロックから構成される。
- 参考スコア(独自算出の注目度): 44.2496723329337
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present SWE-Lego, a supervised fine-tuning (SFT) recipe designed to achieve state-ofthe-art performance in software engineering (SWE) issue resolving. In contrast to prevalent methods that rely on complex training paradigms (e.g., mid-training, SFT, reinforcement learning, and their combinations), we explore how to push the limits of a lightweight SFT-only approach for SWE tasks. SWE-Lego comprises three core building blocks, with key findings summarized as follows: 1) the SWE-Lego dataset, a collection of 32k highquality task instances and 18k validated trajectories, combining real and synthetic data to complement each other in both quality and quantity; 2) a refined SFT procedure with error masking and a difficulty-based curriculum, which demonstrably improves action quality and overall performance. Empirical results show that with these two building bricks alone,the SFT can push SWE-Lego models to state-of-the-art performance among open-source models of comparable size on SWE-bench Verified: SWE-Lego-Qwen3-8B reaches 42.2%, and SWE-Lego-Qwen3-32B attains 52.6%. 3) We further evaluate and improve test-time scaling (TTS) built upon the SFT foundation. Based on a well-trained verifier, SWE-Lego models can be significantly boosted--for example, 42.2% to 49.6% and 52.6% to 58.8% under TTS@16 for the 8B and 32B models, respectively.
- Abstract(参考訳): SWE-Legoは,ソフトウェア工学(SWE)問題解決における最先端のパフォーマンスを実現するために設計された,教師付き微調整(SFT)レシピである。
複雑な訓練パラダイム(例えば、中級訓練、SFT、強化学習、それらの組み合わせ)に依存する一般的な手法とは対照的に、SWEタスクに対する軽量なSFTのみのアプローチの限界を押し上げる方法について検討する。
SWE-Legoは,3つのコアビルディングブロックから構成される。
1)SWE-Legoデータセットは、32kの高品質タスクインスタンスと18kの検証されたトラジェクトリから構成され、実データと合成データを組み合わせて、品質と量の両方で補完する。
2) 誤りマスキングと難易度に基づくカリキュラムを備えた改良されたSFTプロシージャは, 動作品質と全体的な性能を実証的に向上させる。
SWE-Lego-Qwen3-8Bは42.2%、SWE-Lego-Qwen3-32Bは52.6%である。
3) SFT基盤上に構築されたテスト時間スケーリング(TTS)のさらなる評価と改善を行う。
SWE-Legoモデルは、よく訓練された検証結果に基づいて、42.2%から49.6%、52.6%から58.8%のSWE-Legoモデルを8Bモデルと32Bモデルでそれぞれ強化することができる。
関連論文リスト
- SWE-RM: Execution-free Feedback For Software Engineering Agents [61.86380395896069]
実行ベースフィードバックは、テストタイムスケーリング(TTS)と強化学習(RL)を通じて、コーディングエージェントの開発に広く利用されている。
対照的に、報酬モデルによる実行不要なフィードバックは、単体テストケースに依存することなく、よりきめ細かい信号を提供することができる。
SWE-RMは,30Bの合計パラメータと3Bのアクティベートされた3Bの混合実験アーキテクチャを採用した,正確で堅牢な報酬モデルである。
論文 参考訳(メタデータ) (2025-12-26T08:26:18Z) - CoT-Saliency: Unified Chain-of-Thought Reasoning for Heterogeneous Saliency Tasks [96.64597365827046]
本稿では,3つの運用上不均一なサリエンシタスクを共同で処理する,最初の統合フレームワークを提案する。
タスクの不均一性を橋渡しする視覚言語モデル(VLM)において、チェーン・オブ・ソート(CoT)推論プロセスを導入する。
我々は,全タスクにまたがる特別なSOTA手法と強力なクローズドソースVLMの整合性を示す。
論文 参考訳(メタデータ) (2025-11-01T04:37:01Z) - Massive Supervised Fine-tuning Experiments Reveal How Data, Layer, and Training Factors Shape LLM Alignment Quality [22.105116314320696]
Supervised Fine-tuning (SFT) は、大きな言語モデルを人間の指示や値に合わせるための重要なステップである。
コード生成、数学的推論、汎用ドメインタスクなど、さまざまなデータセットに基づいて、幅広いベースモデルをトレーニングしました。
次に、最も重要となるデータセット特性を特定し、SFTが導入した階層的な修正について検討した。
論文 参考訳(メタデータ) (2025-06-17T16:13:15Z) - SWE-Dev: Building Software Engineering Agents with Training and Inference Scaling [39.53265893083118]
大規模言語モデル(LLM)は、会話による問題解決から、ツール使用に関わる現実的なタスクへの対処まで、急速に進歩している。
この問題に対処するために、オープンソースのLLM上に構築されたSWEエージェントであるSWE-Devを提案する。
SWE-bench-Verifiedベンチマークの実験は、SWE-Devモデルが全てのオープンなSWEエージェントの中で最高のパフォーマンスを達成できることを示している。
論文 参考訳(メタデータ) (2025-06-09T11:03:16Z) - R2E-Gym: Procedural Environments and Hybrid Verifiers for Scaling Open-Weights SWE Agents [32.06393076572057]
AgentGymは、現実世界のSWEエージェントを訓練するための、手続き的に計算された最大のジム環境である。
Syngen、合成データキュレーションのレシピ、ハイブリッドテストタイムスケーリングの2つの主要なコントリビューションによって実現されている。
提案手法は,SWE-Bench Verifiedベンチマークで51%を達成し,オープンウェイトSWEエージェントの新たな最先端性を反映した。
論文 参考訳(メタデータ) (2025-04-09T17:55:19Z) - Training Software Engineering Agents and Verifiers with SWE-Gym [89.55822534364727]
SWE-Gymは、現実世界のソフトウェアエンジニアリング(SWE)エージェントをトレーニングするための最初の環境である。
SWE-Gymには2,438の現実世界のPythonタスクインスタンスが含まれている。
我々はSWE-Gymを用いて言語モデルに基づくSWEエージェントを訓練し、解答率において最大19%の絶対ゲインを達成する。
論文 参考訳(メタデータ) (2024-12-30T18:15:39Z) - Deep Facial Synthesis: A New Challenge [75.99659340231078]
まず,FS2Kという,2,104のイメージスケッチペアからなる高品質なFSSデータセットを提案する。
第2に, 古典的手法139点を調査し, 最大規模のFSSについて検討した。
第3に、FSGANという単純なFSSのベースラインを提示する。
論文 参考訳(メタデータ) (2021-12-31T13:19:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。