論文の概要: SWE-Fuse: Empowering Software Agents via Issue-free Trajectory Learning and Entropy-aware RLVR Training
- arxiv url: http://arxiv.org/abs/2603.07927v1
- Date: Mon, 09 Mar 2026 03:47:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:15.409735
- Title: SWE-Fuse: Empowering Software Agents via Issue-free Trajectory Learning and Entropy-aware RLVR Training
- Title(参考訳): SWE-Fuse: 問題のない軌道学習とエントロピー対応RLVRトレーニングによるソフトウェアエージェントの強化
- Authors: Xin-Cheng Wen, Binbin Chen, Haoxuan Lan, Hang Yu, Peng Di, Cuiyun Gao,
- Abstract要約: 我々は,SWEエージェントのトレーニングのために,課題記述誘導と問題なしサンプルを融合した課題記述対応学習フレームワークであるtextbftextitSWE-Fuseを提案する。
SWE-Fuseは、それぞれ最高の8Bと32Bのベースラインを43.0%、60.2%で上回っている。
- 参考スコア(独自算出の注目度): 20.30270129690516
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large language models (LLMs) have transformed the software engineering landscape. Recently, numerous LLM-based agents have been developed to address real-world software issue fixing tasks. Despite their state-of-the-art performance, Despite achieving state-of-the-art performance, these agents face a significant challenge: \textbf{Insufficient high-quality issue descriptions.} Real-world datasets often exhibit misalignments between issue descriptions and their corresponding solutions, introducing noise and ambiguity that mislead automated agents and limit their problem-solving effectiveness. We propose \textbf{\textit{SWE-Fuse}}, an issue-description-aware training framework that fuses issue-description-guided and issue-free samples for training SWE agents. It consists of two key modules: (1) An issue-free-driven trajectory learning module for mitigating potentially misleading issue descriptions while enabling the model to learn step-by-step debugging processes; and (2) An entropy-aware RLVR training module, which adaptively adjusts training dynamics through entropy-driven clipping. It applies relaxed clipping under high entropy to encourage exploration, and stricter clipping under low entropy to ensure training stability. We evaluate SWE-Fuse on the widely studied SWE-bench Verified benchmark shows to demonstrate its effectiveness in solving real-world software problems. Specifically, SWE-Fuse outperforms the best 8B and 32B baselines by 43.0\% and 60.2\% in solve rate, respectively. Furthermore, integrating SWE-Fuse with test-time scaling (TTS) enables further performance improvements, achieving solve rates of 49.8\% and 65.2\% under TTS@8 for the 8B and 32B models, respectively.
- Abstract(参考訳): 大規模言語モデル(LLM)は、ソフトウェア工学の展望を変えました。
近年,現実のソフトウェア問題修正タスクに対処するLLMベースのエージェントが数多く開発されている。
最先端のパフォーマンスにもかかわらず、最先端のパフォーマンスを達成したにもかかわらず、これらのエージェントは重大な課題に直面している。
実世界のデータセットは、しばしば問題記述とそれに対応するソリューションのミスアライメントを示し、ノイズや曖昧さを導入し、自動化されたエージェントを誤解させ、問題解決の有効性を制限します。
本稿では,SWEエージェントのトレーニングのために,課題記述誘導と課題記述不要のサンプルを融合した課題記述対応トレーニングフレームワークである,‘textbf{\textit{SWE-Fuse}} を提案する。
2) エントロピーを意識したRLVRトレーニングモジュールは,エントロピー駆動型クリッピングによるトレーニングダイナミクスの適応的な調整を行う。
高いエントロピー下での緩やかなクリッピングは探索を奨励し、低いエントロピー下でのクリッピングはトレーニングの安定性を確保するためにより厳密である。
我々は,SWE-Fuseを広く研究されているSWE-bench Verifiedベンチマークで評価し,実世界のソフトウェア問題を解決する上での有効性を実証した。
具体的には、SWE-Fuseは最高の8Bと32Bのベースラインをそれぞれ43.0\%、60.2\%で上回っている。
さらに、テスト時間スケーリング(TTS)とSWE-Fuseを統合することで、さらなるパフォーマンス向上が可能となり、8Bモデルと32Bモデルでは、それぞれTTS@8で49.8\%と65.2\%の解決率が達成された。
関連論文リスト
- SWE-RM: Execution-free Feedback For Software Engineering Agents [61.86380395896069]
実行ベースフィードバックは、テストタイムスケーリング(TTS)と強化学習(RL)を通じて、コーディングエージェントの開発に広く利用されている。
対照的に、報酬モデルによる実行不要なフィードバックは、単体テストケースに依存することなく、よりきめ細かい信号を提供することができる。
SWE-RMは,30Bの合計パラメータと3Bのアクティベートされた3Bの混合実験アーキテクチャを採用した,正確で堅牢な報酬モデルである。
論文 参考訳(メタデータ) (2025-12-26T08:26:18Z) - Don't Just Fine-tune the Agent, Tune the Environment [25.7349297100143]
合成データの微調整の監督は、過度な適合につながる。
標準的な強化学習は、重要なコールドスタート問題とトレーニング不安定性に苦慮している。
本研究は,静的軌道の教師付き微調整から動的環境探索へのパラダイムシフトを示す。
論文 参考訳(メタデータ) (2025-10-11T12:35:15Z) - Beyond Pass@1: Self-Play with Variational Problem Synthesis Sustains RLVR [110.90317717368264]
RLVRトレーニングのためのオンライン変分問題合成(SvS)戦略を提案する。
この戦略は、トレーニング中のポリシーのエントロピーを効果的に維持し、標準のRLVRと比較してPass@kを大幅に改善する。
論文 参考訳(メタデータ) (2025-08-19T17:42:45Z) - SwS: Self-aware Weakness-driven Problem Synthesis in Reinforcement Learning for LLM Reasoning [95.28059121743831]
RLVR(Reinforcement Learning with Verifiable Rewards)は、複雑な推論タスクにおいて、大規模言語モデル(LLM)のトレーニングに有効であることが証明されている。
本稿では、モデル欠陥を体系的に識別し、それらを問題解決に活用する自己認識弱さ駆動型問題合成フレームワーク(SwS)を提案する。
SwSはモデルを自己識別し、RLの弱点に対処することで堅牢な一般化を可能にし、7Bモデルと32Bモデルで平均パフォーマンスが10.0%と7.7%向上した。
論文 参考訳(メタデータ) (2025-06-10T17:02:00Z) - SHA256 at SemEval-2025 Task 4: Selective Amnesia -- Constrained Unlearning for Large Language Models via Knowledge Isolation [12.838593066237452]
大規模言語モデル(LLM)は、トレーニング中に頻繁にセンシティブな情報を記憶し、公開可能なモデルをデプロイする際にリスクを生じさせる。
本稿では, 因果媒介分析と層固有の最適化を組み合わせた, 対象未学習におけるSemEval-2025タスク4の解を提案する。
論文 参考訳(メタデータ) (2025-04-17T15:05:40Z) - Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。
当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。
当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文 参考訳(メタデータ) (2025-03-31T07:31:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。