論文の概要: R2E-Gym: Procedural Environments and Hybrid Verifiers for Scaling Open-Weights SWE Agents
- arxiv url: http://arxiv.org/abs/2504.07164v1
- Date: Wed, 09 Apr 2025 17:55:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-11 12:23:53.910436
- Title: R2E-Gym: Procedural Environments and Hybrid Verifiers for Scaling Open-Weights SWE Agents
- Title(参考訳): R2E-Gym: オープンウェイトSWEエージェントのスケーリングのための手続き環境とハイブリッド検証器
- Authors: Naman Jain, Jaskirat Singh, Manish Shetty, Liang Zheng, Koushik Sen, Ion Stoica,
- Abstract要約: AgentGymは、現実世界のSWEエージェントを訓練するための、手続き的に計算された最大のジム環境である。
Syngen、合成データキュレーションのレシピ、ハイブリッドテストタイムスケーリングの2つの主要なコントリビューションによって実現されている。
提案手法は,SWE-Bench Verifiedベンチマークで51%を達成し,オープンウェイトSWEエージェントの新たな最先端性を反映した。
- 参考スコア(独自算出の注目度): 32.06393076572057
- License:
- Abstract: Improving open-source models on real-world SWE tasks (solving GITHUB issues) faces two key challenges: 1) scalable curation of execution environments to train these models, and, 2) optimal scaling of test-time compute. We introduce AgentGym, the largest procedurally-curated executable gym environment for training real-world SWE-agents, consisting of more than 8.7K tasks. AgentGym is powered by two main contributions: 1) SYNGEN: a synthetic data curation recipe that enables scalable curation of executable environments using test-generation and back-translation directly from commits, thereby reducing reliance on human-written issues or unit tests. We show that this enables more scalable training leading to pass@1 performance of 34.4% on SWE-Bench Verified benchmark with our 32B model. 2) Hybrid Test-time Scaling: we provide an in-depth analysis of two test-time scaling axes; execution-based and execution-free verifiers, demonstrating that they exhibit complementary strengths and limitations. Test-based verifiers suffer from low distinguishability, while execution-free verifiers are biased and often rely on stylistic features. Surprisingly, we find that while each approach individually saturates around 42-43%, significantly higher gains can be obtained by leveraging their complementary strengths. Overall, our approach achieves 51% on the SWE-Bench Verified benchmark, reflecting a new state-of-the-art for open-weight SWE-agents and for the first time showing competitive performance with proprietary models such as o1, o1-preview and sonnet-3.5-v2 (with tools). We will open-source our environments, models, and agent trajectories.
- Abstract(参考訳): 実世界のSWEタスクにおけるオープンソースモデルの改善(GITHUB問題の解決)は、2つの大きな課題に直面している。
1)これらのモデルをトレーニングするための実行環境のスケーラブルなキュレーション
2)テスト時間計算の最適スケーリング。
我々は,8.7K以上のタスクからなる実世界のSWEエージェントを訓練するための,手続き的に計算された最大のジム環境であるAgentGymを紹介する。
AgentGymには2つの主要なコントリビューションがある。
1)SynGENは、コミットから直接テスト生成およびバック翻訳を使用して実行可能な環境のスケーラブルなキュレーションを可能にする合成データキュレーションレシピで、人手による問題や単体テストへの依存を減らす。
これは、SWE-Bench Verifiedベンチマークで32Bモデルで34.4%のパス@1パフォーマンスを実現するための、よりスケーラブルなトレーニングを可能にすることを示す。
2)ハイブリッドテストタイムスケーリング:2つのテストタイムスケーリング軸(実行ベースと実行不要の検証器)の詳細な分析を行い、それらが相補的な強みと限界を示すことを示した。
テストベース検証は低い識別性に悩まされ、実行自由検証はバイアスがあり、しばしばスタイリスティックな特徴に依存している。
驚くべきことに、それぞれのアプローチは42~43%程度飽和するが、相補的な強みを生かして、はるかに高い利得を得ることができる。
SWE-Bench Verifiedベンチマークでは,オープンウェイトなSWEエージェントの新たな最先端性を反映し,o1,o1-preview,thonnet-3.5-v2(ツール付き)などのプロプライエタリなモデルと競合する性能を示した。
私たちは環境、モデル、エージェントの軌跡をオープンソースにします。
関連論文リスト
- S*: Test Time Scaling for Code Generation [55.11863577956177]
コード生成のための最初のハイブリッドテストタイムスケーリングフレームワークであるS*を提案する。
S*は生成されたコードのカバレッジと選択精度を大幅に改善する。
論文 参考訳(メタデータ) (2025-02-20T09:18:53Z) - Training Software Engineering Agents and Verifiers with SWE-Gym [89.55822534364727]
SWE-Gymは、現実世界のソフトウェアエンジニアリング(SWE)エージェントをトレーニングするための最初の環境である。
SWE-Gymには2,438の現実世界のPythonタスクインスタンスが含まれている。
論文 参考訳(メタデータ) (2024-12-30T18:15:39Z) - The BrowserGym Ecosystem for Web Agent Research [151.90034093362343]
BrowserGymエコシステムは、Webエージェントの効率的な評価とベンチマークの必要性の高まりに対処する。
本稿では,Webエージェント研究のためのBrowserGymベースの拡張エコシステムを提案する。
大規模なマルチベンチマークWebエージェント実験を初めて実施し、6つのWebエージェントベンチマークで6つの最先端LCMの性能を比較した。
論文 参考訳(メタデータ) (2024-12-06T23:43:59Z) - AutoPenBench: Benchmarking Generative Agents for Penetration Testing [42.681170697805726]
本稿では,自動貫入試験における生成エージェント評価のためのオープンベンチマークであるAutoPenBenchを紹介する。
エージェントが攻撃しなければならない脆弱性のあるシステムを表す33のタスクを含む包括的フレームワークを提案する。
完全自律型と半自律型という2つのエージェントアーキテクチャをテストすることで,AutoPenBenchのメリットを示す。
論文 参考訳(メタデータ) (2024-10-04T08:24:15Z) - S^2Former-OR: Single-Stage Bi-Modal Transformer for Scene Graph Generation in OR [50.435592120607815]
外科手術のシーングラフ生成(SGG)は、手術室(OR)におけるホモロジー認知知能の増強に不可欠である
これまでの研究は主に多段階学習に依存しており、生成したセマンティックシーングラフはポーズ推定とオブジェクト検出を伴う中間プロセスに依存している。
本研究では,S2Former-OR(S2Former-OR)と呼ばれるORにおけるSGGのための新しいシングルステージバイモーダルトランスフォーマフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-22T11:40:49Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Are Negative Samples Necessary in Entity Alignment? An Approach with
High Performance, Scalability and Robustness [26.04006507181558]
本稿では,高パフォーマンス,高スケーラビリティ,高ロバスト性を実現する3つの新しいコンポーネントを持つ新しいEA手法を提案する。
提案手法の有効性と有効性を検討するために,いくつかの公開データセットについて詳細な実験を行った。
論文 参考訳(メタデータ) (2021-08-11T15:20:41Z) - Score-based Generative Modeling in Latent Space [93.8985523558869]
スコアベース生成モデル(SGM)は,最近,サンプル品質と分布範囲の両面で顕著な結果を示した。
本稿では,Latent Score-based Generative Model (LSGM)を提案する。
データから潜在空間への移動により、より表現力のある生成モデルをトレーニングし、非連続データにSGMを適用し、よりスムーズなSGMをより小さな空間で学習することができる。
論文 参考訳(メタデータ) (2021-06-10T17:26:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。