論文の概要: SWE-Manager: Selecting and Synthesizing Golden Proposals Before Coding
- arxiv url: http://arxiv.org/abs/2601.22956v1
- Date: Fri, 30 Jan 2026 13:17:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.465228
- Title: SWE-Manager: Selecting and Synthesizing Golden Proposals Before Coding
- Title(参考訳): SWE-Manager:コーディングの前に黄金の提案を選択し、合成する
- Authors: Boyin Tan, Haoning Deng, Junyuan Zhang, Junjielong Xu, Pinjia He, Youcheng Sun,
- Abstract要約: ソフトウェアエンジニアリングでは、チームは問題を修正するための複数の候補提案をドラフトし、次に、実装のための黄金の提案を慎重に行う。
この選択は、問題のスコープ、影響、緊急性を評価するだけでなく、各提案の長所と短所を明確に理解する必要がある。
SWE-Managerは,最高の提案を選択し,黄金の提案を合成する共同選択合成手法である。
- 参考スコア(独自算出の注目度): 17.083968760174507
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language model (LLM) research in software engineering has largely focused on tasks such as code generation and bug repair. In practice, teams often draft multiple candidate proposals for fixing an issue and then deliberate on one golden proposal for implementation. This selection requires not only assessing the issue's scope, impact, and urgency, but also a clear understanding of each proposal's strengths and weaknesses. A good selection could make issue resolution more reliable while reducing regression and operational risk, whereas a poor choice can increase risk and even cause unpredictable failures. We first conduct a manual study of real-world issues to characterize the rationales maintainers use when selecting among competing proposals. Motivated by these findings, we introduce SWE-Manager, a joint selection and synthesis approach that selects the best proposal and synthesizes a golden proposal. SWE-Manager is an 8B model trained via reinforcement learning (RL) to compare proposals, justify its choice, and synthesize a golden proposal for implementation. We view proposal selection as a reasoning task, mirroring how technical managers review competing proposals by weighing issue context and each proposal's solution without executing code or running tests. On the SWE-Lancer Manager benchmark, SWE-Manager achieves 53.21 selection accuracy and 57.75 earn rate, earning 152,750 dollars and outperforming strong baselines including GPT-5. To further evaluate the effectiveness of SWE-Manager in real-world issue resolution, we design the P2A framework, which simulates a real-world workflow where multiple proposals are drafted, reviewed, and a golden proposal is selected for implementation ...
- Abstract(参考訳): ソフトウェア工学における大規模言語モデル(LLM)の研究は、コード生成やバグ修正といったタスクに重点を置いている。
実際には、チームは問題を修正するために複数の候補の提案をドラフトし、それから実装のための黄金の提案を慎重に行うことが多い。
この選択は、問題のスコープ、影響、緊急性を評価するだけでなく、各提案の長所と短所を明確に理解する必要がある。
優れた選択によって、リグレッションや運用上のリスクを低減しつつ、イシュー解決をより信頼性の高いものにすることが可能になります。
まず実世界の課題を手動で調査し、保守担当者が競合する提案の中から選択する際に使用する合理性を特徴付ける。
これらの知見に触発されたSWE-Managerは,最高の提案を選定し,黄金の提案を合成する共同選択合成手法である。
SWE-Managerは、強化学習(RL)を通じてトレーニングされた8Bモデルで、提案を比較し、その選択を正当化し、実装のための黄金の提案を合成する。
我々は、提案の選択を推論タスクとみなし、コードを実行したりテストを実行したりすることなく、課題コンテキストと各提案のソリューションを評価することによって、技術マネージャが競合する提案をどのようにレビューするかを反映しています。
SWE-Lancer Managerのベンチマークでは、SWE-Managerは53.21の選択精度と57.75の獲得率を獲得し、152,750ドルを獲得し、GPT-5を含む強力なベースラインを上回っている。
実世界の課題解決におけるSWE-Managerの有効性をさらに評価するために、複数の提案をドラフトし、レビューし、黄金のプロポーザルを選択した実世界のワークフローをシミュレートするP2Aフレームワークを設計した。
関連論文リスト
- Learning to Refine: Self-Refinement of Parallel Reasoning in LLMs [102.48588475875749]
本稿では,新しい並列テスト時間スケーリングフレームワークであるGenerative Self-Refinement (GSR)を紹介する。
GSRは一連の候補応答を並列に生成し、その後自己精製を行い、新しい優れた解を合成する。
提案手法は,5つの数学ベンチマークにおいて,最先端性能を実現する。
論文 参考訳(メタデータ) (2025-08-27T06:51:48Z) - LLMs Can Generate a Better Answer by Aggregating Their Own Responses [83.69632759174405]
大きな言語モデル(LLM)はタスク間で顕著な機能を示しているが、複雑な問題に直面している場合、追加のプロンプト技術を必要とすることが多い。
この制限は、共通LLMポストトレーニング手順が差別的判断タスクの明示的な監督を欠いているという事実に起因している、と我々は主張する。
本稿では,モデルの識別機能を必要とせず,解答品質を向上させる手法である生成自己集合(GSA)を提案する。
論文 参考訳(メタデータ) (2025-03-06T05:25:43Z) - Reason4Rec: Large Language Models for Recommendation with Deliberative User Preference Alignment [69.11529841118671]
本稿では,ユーザの嗜好に関する明確な推論を新たなアライメント目標として組み込んだ,新たなDeliberative Recommendationタスクを提案する。
次にReasoningを利用したRecommenderフレームワークを導入する。
論文 参考訳(メタデータ) (2025-02-04T07:17:54Z) - Efficient Budget Allocation for Large-Scale LLM-Enabled Virtual Screening [0.9558392439655016]
そこで我々は,LLM-as- human-evaluatorアプローチによるスクリーニングを事実上実施し,コスト負担を低減した。
我々は,トップ$m$greedy評価機構を用いて,探索ファーストの上位$m$greedy (EFG-$m$) アルゴリズムを設計する。
驚いたことに、我々はボーナスランキング効果を発見し、アルゴリズムは選択されたサブセット内で、自然に無関心なランキングを誘導する。
論文 参考訳(メタデータ) (2024-08-18T16:44:41Z) - Leveraging LLM Reasoning Enhances Personalized Recommender Systems [25.765908301183188]
本稿では,レコメンデーションシステム (RecSys) におけるLarge Language Models (LLMs) の推論の適用が,大きな課題であることを示す。
本研究では、RecSysの推論をよりよく理解し、タスク品質がどのように改善されるかを示すために、いくつかの側面について検討する。
論文 参考訳(メタデータ) (2024-07-22T20:18:50Z) - Benchmarking PtO and PnO Methods in the Predictive Combinatorial Optimization Regime [59.27851754647913]
予測最適化(英: Predictive optimization)は、エネルギーコストを意識したスケジューリングや広告予算配分など、多くの現実世界のアプリケーションの正確なモデリングである。
我々は,広告のための新しい産業データセットを含む8つの問題に対して,既存のPtO/PnOメソッド11をベンチマークするモジュラーフレームワークを開発した。
本研究は,8ベンチマーク中7ベンチマークにおいて,PnOアプローチがPtOよりも優れていることを示すが,PnOの設計選択に銀の弾丸は見つからない。
論文 参考訳(メタデータ) (2023-11-13T13:19:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。