論文の概要: Toward Training Superintelligent Software Agents through Self-Play SWE-RL
- arxiv url: http://arxiv.org/abs/2512.18552v1
- Date: Sun, 21 Dec 2025 00:49:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.392368
- Title: Toward Training Superintelligent Software Agents through Self-Play SWE-RL
- Title(参考訳): セルフプレイSWE-RLによる超知能ソフトウェアエージェントの育成に向けて
- Authors: Yuxiang Wei, Zhiqing Sun, Emily McMilin, Jonas Gehring, David Zhang, Gabriel Synnaeve, Daniel Fried, Lingming Zhang, Sida Wang,
- Abstract要約: セルフプレイSWE-RLは、超知能ソフトウェアエージェントのトレーニングパラダイムに向けた第一歩である。
当社のアプローチでは,ソースコードとインストール済みの依存関係を備えたサンドボックスリポジトリへのアクセスのみを必要としています。
我々の成果は、早い段階で、エージェントが現実世界のソフトウェアリポジトリから広範囲にわたる学習経験を自律的に収集する道のりを示唆している。
- 参考スコア(独自算出の注目度): 66.11447353341926
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While current software agents powered by large language models (LLMs) and agentic reinforcement learning (RL) can boost programmer productivity, their training data (e.g., GitHub issues and pull requests) and environments (e.g., pass-to-pass and fail-to-pass tests) heavily depend on human knowledge or curation, posing a fundamental barrier to superintelligence. In this paper, we present Self-play SWE-RL (SSR), a first step toward training paradigms for superintelligent software agents. Our approach takes minimal data assumptions, only requiring access to sandboxed repositories with source code and installed dependencies, with no need for human-labeled issues or tests. Grounded in these real-world codebases, a single LLM agent is trained via reinforcement learning in a self-play setting to iteratively inject and repair software bugs of increasing complexity, with each bug formally specified by a test patch rather than a natural language issue description. On the SWE-bench Verified and SWE-Bench Pro benchmarks, SSR achieves notable self-improvement (+10.4 and +7.8 points, respectively) and consistently outperforms the human-data baseline over the entire training trajectory, despite being evaluated on natural language issues absent from self-play. Our results, albeit early, suggest a path where agents autonomously gather extensive learning experiences from real-world software repositories, ultimately enabling superintelligent systems that exceed human capabilities in understanding how systems are constructed, solving novel challenges, and autonomously creating new software from scratch.
- Abstract(参考訳): 大規模言語モデル(LLM)とエージェント強化学習(RL)を使用した現在のソフトウェアエージェントは、プログラマの生産性を高めることができる一方で、トレーニングデータ(GitHubのイシューやプルリクエストなど)と環境(パス・ツー・パス、フェール・ツー・パステストなど)は、人間の知識やキュレーションに大きく依存しており、超知能に対する根本的な障壁となっている。
本稿では,SWE-RL(Self-play SWE-RL)について述べる。
このアプローチでは,ソースコードとインストール済みの依存関係を持ったサンドボックスリポジトリへのアクセスのみを必要としています。
これらの実世界のコードベースを基盤として、1つのLLMエージェントは、自己プレイ環境で強化学習を通じてトレーニングされ、複雑さが増すソフトウェアバグを反復的に注入し、修正する。
SWE-bench Verified と SWE-Bench Pro のベンチマークでは、SSR は注目すべき自己改善(+10.4 と +7.8 の点)を達成し、セルフプレイから欠落した自然言語問題で評価されているにもかかわらず、トレーニング軌跡全体において人間のデータベースラインを一貫して上回っている。
私たちの成果は、早い段階で、エージェントが現実世界のソフトウェアリポジトリから広範な学習経験を自律的に収集し、究極的には、システムの構築方法を理解し、新しい課題を解決し、スクラッチから新しいソフトウェアを自律的に作成する超知能システムを可能にしたことを示唆しています。
関連論文リスト
- Agent0: Unleashing Self-Evolving Agents from Zero Data via Tool-Integrated Reasoning [84.70211451226835]
大規模言語モデル(LLM)エージェントは、人間の計算データへの依存によって制約される。
我々は,外部データを持たない高性能エージェントを進化させる完全自律型フレームワークであるAgent0を紹介する。
Agent0は推論能力を大幅に向上させ、Qwen3-8B-Baseモデルを数学的推論で18%改善し、一般的な推論ベンチマークで24%改善した。
論文 参考訳(メタデータ) (2025-11-20T05:01:57Z) - SFR-DeepResearch: Towards Effective Reinforcement Learning for Autonomously Reasoning Single Agents [93.26456498576181]
本稿では,ディープリサーチのためのネイティブ自律単エージェントモデルの開発に焦点をあてる。
我々の最良の変種であるSFR-DR-20Bは、HumanityのLast Examベンチマークで28.7%に達する。
論文 参考訳(メタデータ) (2025-09-08T02:07:09Z) - Re:Form -- Reducing Human Priors in Scalable Formal Software Verification with RL in LLMs: A Preliminary Study on Dafny [78.1575956773948]
強化学習(RL)で訓練された大規模言語モデル(LLM)は、信頼性も拡張性もない、という大きな課題に直面している。
有望だが、ほとんど報われていない代替手段は、フォーマルな言語ベースの推論である。
生成モデルが形式言語空間(例えばダフニー)で機能する厳密な形式体系におけるLLMの接地は、それらの推論プロセスと結果の自動的かつ数学的に証明可能な検証を可能にする。
論文 参考訳(メタデータ) (2025-07-22T08:13:01Z) - SWE-Bench-CL: Continual Learning for Coding Agents [0.0]
SWE-Bench-CLは、人間検証されたSWE-Bench検証データセット上に構築された、新しい連続学習ベンチマークである。
GitHubのイシューを、自然リポジトリの進化を反映した時系列順序に整理することで、SWE-Bench-CLは、エージェントのエクスペリエンスを蓄積する能力を直接評価できる。
論文 参考訳(メタデータ) (2025-06-13T07:11:14Z) - Evaluating Software Development Agents: Patch Patterns, Code Quality, and Issue Complexity in Real-World GitHub Scenarios [13.949319911378826]
この調査は、500の現実のGitHubイシューで上位10のエージェントから4,892のパッチを評価した。
一人のエージェントが支配的であり、170の問題が未解決であり、改善の余地があった。
ほとんどのエージェントはコードの信頼性とセキュリティを維持し、新しいバグや脆弱性を避けた。
一部のエージェントはコードの複雑さを増し、多くの重複を減らし、コードの臭いを最小限にした。
論文 参考訳(メタデータ) (2024-10-16T11:33:57Z) - Agentless: Demystifying LLM-based Software Engineering Agents [12.19683999553113]
Agentless - ソフトウェア開発の問題を自動解決するためのエージェントレスアプローチです。
Agentlessはエージェントベースのアプローチの冗長で複雑な設定と比較すると、ローカライゼーション、修復、パッチ検証の3フェーズプロセスをシンプルに採用している。
人気の高いSWE-bench Liteベンチマークの結果から、Agentlessは驚くほど高いパフォーマンスと低コストを達成できることがわかった。
論文 参考訳(メタデータ) (2024-07-01T17:24:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。