論文の概要: SWE-Universe: Scale Real-World Verifiable Environments to Millions
- arxiv url: http://arxiv.org/abs/2602.02361v1
- Date: Mon, 02 Feb 2026 17:20:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.32287
- Title: SWE-Universe: Scale Real-World Verifiable Environments to Millions
- Title(参考訳): SWE-Universe: 現実の検証可能な環境を数百万に拡大
- Authors: Mouxiang Chen, Lei Zhang, Yunlong Feng, Xuwu Wang, Wenting Zhao, Ruisheng Cao, Jiaxi Yang, Jiawei Chen, Mingze Li, Zeyao Ma, Hao Ge, Zongmeng Zhang, Zeyu Cui, Dayiheng Liu, Jingren Zhou, Jianling Sun, Junyang Lin, Binyuan Hui,
- Abstract要約: SWE-Universeは、GitHubのプルリクエスト(PR)から検証可能な環境を自動的に構築するフレームワークである。
本稿では, 自動建築の課題を克服するために, 効率的なカスタムトレーニングモデルを用いた建築エージェントを提案する。
大規模エージェントによる中等教育と強化学習を通じて,環境の重要さを実証する。
- 参考スコア(独自算出の注目度): 84.63665266236963
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose SWE-Universe, a scalable and efficient framework for automatically constructing real-world software engineering (SWE) verifiable environments from GitHub pull requests (PRs). To overcome the prevalent challenges of automatic building, such as low production yield, weak verifiers, and prohibitive cost, our framework utilizes a building agent powered by an efficient custom-trained model. This agent employs iterative self-verification and in-loop hacking detection to ensure the reliable generation of high-fidelity, verifiable tasks. Using this method, we scale the number of real-world multilingual SWE environments to a million scale (807,693). We demonstrate the profound value of our environments through large-scale agentic mid-training and reinforcement learning. Finally, we applied this technique to Qwen3-Max-Thinking and achieved a score of 75.3% on SWE-Bench Verified. Our work provides both a critical resource and a robust methodology to advance the next generation of coding agents.
- Abstract(参考訳): 我々は,GitHubのプルリクエスト(PR)から現実のソフトウェアエンジニアリング(SWE)検証環境を自動的に構築する,スケーラブルで効率的なフレームワークであるSWE-Universeを提案する。
低生産率, 弱い検証器, 禁止コストといった自動建築の課題を克服するために, 本フレームワークは, 効率的なカスタムトレーニングモデルを用いた建築エージェントを利用する。
このエージェントは、繰り返し自己検証とループ内ハッキング検出を使用して、高忠実で検証可能なタスクを確実に生成する。
本手法を用いて,実世界の多言語SWE環境を100万スケール (807,693) まで拡張する。
大規模エージェントによる中等教育と強化学習を通じて,環境の重要さを実証する。
最後に,この手法をQwen3-Max-Thinkingに適用し,SWE-Bench Verifiedで75.3%のスコアを得た。
私たちの仕事は、次世代のコーディングエージェントを前進させるための、重要なリソースと堅牢な方法論の両方を提供します。
関連論文リスト
- MEnvAgent: Scalable Polyglot Environment Construction for Verifiable Software Engineering [54.236614097082395]
本稿では,自動環境構築のためのフレームワークであるMEnvAgentを紹介する。
MEnvAgentは、建設失敗を自律的に解決するマルチエージェント計画実行検証アーキテクチャを採用している。
MEnvData-SWEは,これまでで最大の,現実的な検証可能なDocker環境のポリグロットデータセットである。
論文 参考訳(メタデータ) (2026-01-30T11:36:10Z) - EmboCoach-Bench: Benchmarking AI Agents on Developing Embodied Robots [68.29056647487519]
Embodied AIは、高忠実度シミュレーションと大規模データ収集によって実現されている。
しかし、このスケーリング能力は、労働集約的な手作業の監視に依存しているため、いまだにボトルネックになっている。
実装ポリシーを自律的に構築するための LLM エージェントの能力を評価するベンチマークである textscEmboCoach-Bench を紹介する。
論文 参考訳(メタデータ) (2026-01-29T11:33:49Z) - Let It Flow: Agentic Crafting on Rock and Roll, Building the ROME Model within an Open Agentic Learning Ecosystem [90.17610617854247]
本稿では,エージェントモデルの生産パイプラインを最適化する基盤インフラであるエージェント学習エコシステム(ALE)を紹介する。
ALEは、重量最適化のためのトレーニング後のフレームワークであるROLL、軌道生成のためのサンドボックス環境マネージャであるROCK、効率的なコンテキストエンジニアリングのためのエージェントフレームワークであるiFlow CLIの3つのコンポーネントで構成されている。
ROMEはALEが基盤として100万件以上のトラジェクトリをトレーニングしたオープンソースエージェントです。
論文 参考訳(メタデータ) (2025-12-31T14:03:39Z) - Multi-Docker-Eval: A `Shovel of the Gold Rush' Benchmark on Automatic Environment Building for Software Engineering [38.724704918577295]
マルチDocker-Evalベンチマークには、9つのプログラミング言語にまたがる40の現実世界リポジトリが含まれている。
現在のモデル全体の成功率は低く(F2Pは37.7%)、環境構築が主要なボトルネックとなっている。
これらの発見は、スケーラブルで完全に自動化されたSWEパイプラインを構築するための実行可能なガイドラインを提供する。
論文 参考訳(メタデータ) (2025-12-07T16:43:45Z) - Training Long-Context, Multi-Turn Software Engineering Agents with Reinforcement Learning [29.605396813225386]
マルチターン対話型タスクにおけるエージェントの訓練に強化学習をどのように利用できるかを示す。
本手法は,オープンウェイトモデルを用いた多ターン対話タスクのための有能エージェントの訓練のための実践的アプローチを提供する。
論文 参考訳(メタデータ) (2025-08-05T14:30:47Z) - Grammarization-Based Grasping with Deep Multi-Autoencoder Latent Space Exploration by Reinforcement Learning Agent [0.0]
本稿では,高次元の目標とグリップの特徴を圧縮するアイデアに基づく,ロボットグルーピングのための新しいフレームワークを提案する。
提案手法は,対象とグリップに専用の3つのオートエンコーダと,その潜在表現を融合させる第3のオートエンコーダを用いて,把握を簡略化する。
論文 参考訳(メタデータ) (2024-11-13T12:26:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。