論文の概要: SWE-Protégé: Learning to Selectively Collaborate With an Expert Unlocks Small Language Models as Software Engineering Agents
- arxiv url: http://arxiv.org/abs/2602.22124v1
- Date: Wed, 25 Feb 2026 17:11:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-26 18:19:16.925984
- Title: SWE-Protégé: Learning to Selectively Collaborate With an Expert Unlocks Small Language Models as Software Engineering Agents
- Title(参考訳): SWE-Protégé: ソフトウェアエンジニアリングエージェントとして小さな言語モデルをアンロックする専門家との選択的コラボレーションを学ぶ
- Authors: Patrick Tser Jern Kon, Archana Pradeep, Ang Chen, Alexander P. Ellis, Warren Hunt, Zijian Wang, John Yang, Samuel Thompson,
- Abstract要約: 小型言語モデル(SLM)は、コスト、レイテンシ、適応性において魅力的なアドバンテージを提供するが、これまでは長期のソフトウェアエンジニアリングタスクにおいて、より大きなモデルに遅れを取ってきた。
SWE-Protéは、ソフトウェア修復を専門家と専門家のコラボレーション問題として再設計するポストトレーニングフレームワークです。
- 参考スコア(独自算出の注目度): 39.39340892861667
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Small language models (SLMs) offer compelling advantages in cost, latency, and adaptability, but have so far lagged behind larger models on long-horizon software engineering tasks such as SWE-bench, where they suffer from pervasive action looping and low resolution rates. We introduce SWE-Protégé, a post-training framework that reframes software repair as an expert-protégé collaboration problem. In SWE-Protégé, an SLM remains the sole decision-maker while learning to selectively seek guidance from a strong expert model, recognize stalled states, and follow through on expert feedback. Our approach combines supervised fine-tuning on expert-augmented trajectories with agentic reinforcement learning that explicitly discourages degenerative looping and unproductive expert collaboration. We lightly post-train Qwen2.5-Coder-7B-Instruct to achieve 42.4% Pass@1 on SWE-bench Verified, a +25.4% improvement over the prior SLM state of the art, while using expert assistance sparsely (~4 calls per task and 11% of total tokens).
- Abstract(参考訳): 小型言語モデル(SLM)は、コスト、レイテンシ、適応性において魅力的なアドバンテージを提供するが、これまでSWE-benchのような長距離ソフトウェアエンジニアリングタスクでは大きなモデルに遅れを取ってきた。
SWE-Protéは、ソフトウェア修復を専門家と専門家のコラボレーション問題として再設計するポストトレーニングフレームワークです。
SWE-Protégéでは、SLMが唯一の意思決定者でありながら、強い専門家モデルからのガイダンスを選択的に求め、停滞している状態を認識し、専門家のフィードバックに従うことを学んでいます。
提案手法は, 専門的軌跡の教師付き微調整とエージェント強化学習を組み合わせることで, 退行ループや非生産的専門家の協調を阻害する。
トレーニング後のQwen2.5-Coder-7B-Instruct to achieve 42.4% Pass@1 on SWE-bench Verified, a +25.4% improve than the previous SLM state-of-the-art, while using expert aid sparsely (1タスクあたり4コール、合計トークンの11%)。
関連論文リスト
- SMES: Towards Scalable Multi-Task Recommendation via Expert Sparsity [47.79376327982703]
産業推薦システムはマルチタスク学習に頼り、多様なユーザフィードバック信号を推定し、それらをランキングに集約する。
モデルスケーリングの最近の進歩は、推薦において有望な利益を示している。
この一様パラメータスケーリングと異種タスクキャパシティ要求のミスマッチは、スケーラブルなマルチタスクレコメンデーションに根本的な課題をもたらす。
論文 参考訳(メタデータ) (2026-02-10T03:56:12Z) - SWE-Spot: Building Small Repo-Experts with Repository-Centric Learning [26.404563042035395]
小さな言語モデルには、複雑な、馴染みの無い一般化を扱うための推論時間がない。
本稿では,水平タスク幅よりも垂直リポジトリ深度を優先するパラダイムシフトであるRepository-Centric Learning(RCL)を提案する。
RCLは、より高いトレーニングサンプル効率と低い推論コストをもたらす。
論文 参考訳(メタデータ) (2026-01-29T12:49:25Z) - Dual-Phase LLM Reasoning: Self-Evolved Mathematical Frameworks [48.105258051884384]
本稿では,モデルの自己補正能力を高めるための2段階トレーニングフレームワークを提案する。
最初の段階では、マルチターン対話戦略がモデルをガイドし、長いチェーン・オブ・シント(CoT)データを生成する。
第2段階では、データの分散を動的に最適化する難易度の高い拒絶サンプリング機構を採用している。
論文 参考訳(メタデータ) (2026-01-09T08:19:11Z) - Beyond Redundancy: Diverse and Specialized Multi-Expert Sparse Autoencoder [59.89996751196727]
スパースオートエンコーダ(SAE)は、大規模な言語モデルを解釈するための強力なツールとして登場した。
SAEの隠蔽層は、空間的制約を満たすために高い次元性を持ち、結果として禁止的なトレーニングと推論コストをもたらす。
近年のMixture of Experts (MoE) アプローチは、SAEsによってゲートアクティベーションを持つより狭い専門家ネットワークにこの問題に対処しようとしている。
本稿では,(1)専門化を促進するために意味的に重み付けされた専門家サブセットを同時に関与する複数の専門家活性化,(2)適応的な高周波スケーリングによって多様性を高める特徴スケーリングという2つの重要なイノベーションを提案する。
論文 参考訳(メタデータ) (2025-11-07T22:19:34Z) - SWE-Bench Pro: Can AI Agents Solve Long-Horizon Software Engineering Tasks? [13.645265361867565]
SWE-Bench ProはSWE-BENCH [25]のベストプラクティスに基づいていますが、現実的で複雑でエンタープライズレベルの問題を捉えるように設計されています。
ベンチマークはパブリックセットに分割され、11のリポジトリ、12のリポジトリのホールドアウトセット、18のプロプライエタリリポジトリの商用セットからソースされた問題にオープンアクセスされる。
広範に使用されている符号化モデルの評価では,SWE-Bench PROの性能は25%以下(Pass@1)であり,GPT-5は23.3%と最高スコアである。
論文 参考訳(メタデータ) (2025-09-21T06:28:17Z) - Teaching Large Language Models to Maintain Contextual Faithfulness via Synthetic Tasks and Reinforcement Learning [80.27561080938747]
CANOEは、人間のアノテーションを使わずに、下流のさまざまなタスクにまたがる大きな言語モデルの忠実性の幻覚を減らすためのフレームワークである。
Dual-GRPOはルールベースの強化学習手法であり、合成された短値QAデータから得られる3つのルールベースの報酬を含む。
実験の結果、CANOEは11のタスクにまたがるLLMの忠実さを大幅に改善し、最も進歩したLLMよりも優れていた。
論文 参考訳(メタデータ) (2025-05-22T10:10:07Z) - Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。
当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。
当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文 参考訳(メタデータ) (2025-03-31T07:31:32Z) - Learning to Optimize Permutation Flow Shop Scheduling via Graph-based
Imitation Learning [70.65666982566655]
置換フローショップスケジューリング(PFSS)は製造業で広く使われている。
我々は,より安定かつ正確に収束を加速する専門家主導の模倣学習を通じてモデルを訓練することを提案する。
我々のモデルのネットワークパラメータはわずか37%に減少し、エキスパートソリューションに対する我々のモデルの解のギャップは平均6.8%から1.3%に減少する。
論文 参考訳(メタデータ) (2022-10-31T09:46:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。