Fugu-MT 論文翻訳(概要): R2E-Gym: Procedural Environments and Hybrid Verifiers for Scaling Open-Weights SWE Agents

論文の概要: R2E-Gym: Procedural Environments and Hybrid Verifiers for Scaling Open-Weights SWE Agents

arxiv url: http://arxiv.org/abs/2504.07164v1
Date: Wed, 09 Apr 2025 17:55:19 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-19 01:33:42.394952
Title: R2E-Gym: Procedural Environments and Hybrid Verifiers for Scaling Open-Weights SWE Agents
Title（参考訳）: R2E-Gym: オープンウェイトSWEエージェントのスケーリングのための手続き環境とハイブリッド検証器
Authors: Naman Jain, Jaskirat Singh, Manish Shetty, Liang Zheng, Koushik Sen, Ion Stoica,
Abstract要約: AgentGymは、現実世界のSWEエージェントを訓練するための、手続き的に計算された最大のジム環境である。 Syngen、合成データキュレーションのレシピ、ハイブリッドテストタイムスケーリングの2つの主要なコントリビューションによって実現されている。提案手法は,SWE-Bench Verifiedベンチマークで51%を達成し,オープンウェイトSWEエージェントの新たな最先端性を反映した。
参考スコア（独自算出の注目度）: 32.06393076572057
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Improving open-source models on real-world SWE tasks (solving GITHUB issues) faces two key challenges: 1) scalable curation of execution environments to train these models, and, 2) optimal scaling of test-time compute. We introduce AgentGym, the largest procedurally-curated executable gym environment for training real-world SWE-agents, consisting of more than 8.7K tasks. AgentGym is powered by two main contributions: 1) SYNGEN: a synthetic data curation recipe that enables scalable curation of executable environments using test-generation and back-translation directly from commits, thereby reducing reliance on human-written issues or unit tests. We show that this enables more scalable training leading to pass@1 performance of 34.4% on SWE-Bench Verified benchmark with our 32B model. 2) Hybrid Test-time Scaling: we provide an in-depth analysis of two test-time scaling axes; execution-based and execution-free verifiers, demonstrating that they exhibit complementary strengths and limitations. Test-based verifiers suffer from low distinguishability, while execution-free verifiers are biased and often rely on stylistic features. Surprisingly, we find that while each approach individually saturates around 42-43%, significantly higher gains can be obtained by leveraging their complementary strengths. Overall, our approach achieves 51% on the SWE-Bench Verified benchmark, reflecting a new state-of-the-art for open-weight SWE-agents and for the first time showing competitive performance with proprietary models such as o1, o1-preview and sonnet-3.5-v2 (with tools). We will open-source our environments, models, and agent trajectories.
Abstract（参考訳）: 実世界のSWEタスクにおけるオープンソースモデルの改善(GITHUB問題の解決)は、2つの大きな課題に直面している。 1)これらのモデルをトレーニングするための実行環境のスケーラブルなキュレーション 2)テスト時間計算の最適スケーリング。我々は,8.7K以上のタスクからなる実世界のSWEエージェントを訓練するための,手続き的に計算された最大のジム環境であるAgentGymを紹介する。 AgentGymには2つの主要なコントリビューションがある。 1)SynGENは、コミットから直接テスト生成およびバック翻訳を使用して実行可能な環境のスケーラブルなキュレーションを可能にする合成データキュレーションレシピで、人手による問題や単体テストへの依存を減らす。これは、SWE-Bench Verifiedベンチマークで32Bモデルで34.4%のパス@1パフォーマンスを実現するための、よりスケーラブルなトレーニングを可能にすることを示す。 2)ハイブリッドテストタイムスケーリング:2つのテストタイムスケーリング軸(実行ベースと実行不要の検証器)の詳細な分析を行い、それらが相補的な強みと限界を示すことを示した。テストベース検証は低い識別性に悩まされ、実行自由検証はバイアスがあり、しばしばスタイリスティックな特徴に依存している。驚くべきことに、それぞれのアプローチは42～43%程度飽和するが、相補的な強みを生かして、はるかに高い利得を得ることができる。 SWE-Bench Verifiedベンチマークでは,オープンウェイトなSWEエージェントの新たな最先端性を反映し,o1,o1-preview,thonnet-3.5-v2(ツール付き)などのプロプライエタリなモデルと競合する性能を示した。私たちは環境、モデル、エージェントの軌跡をオープンソースにします。

関連論文リスト

SWE-Synth: Synthesizing Verifiable Bug-Fix Data to Enable Large Language Models in Resolving Real-World Bugs [10.70881967278009]
本稿では,現実的な検証可能な,プロセス対応のバグフィックスデータセットをリポジトリレベルで合成するフレームワークであるSWE- Synthを紹介する。手作業で収集したデータセットと比較して、文脈的豊かさと正確さを保ちながら、最小限の人的労力でスケールする。この結果から,APRとソフトウェア工学の自動化の最先端を推し進めるために,人工エージェント生成データの可能性を強調した。
論文参考訳（メタデータ） (2025-04-20T22:37:43Z)
Review, Refine, Repeat: Understanding Iterative Decoding of AI Agents with Dynamic Evaluation and Selection [71.92083784393418]
Best-of-N (BON) サンプリングのような推論時間法は、パフォーマンスを改善するための単純で効果的な代替手段を提供する。本稿では,反復的改良と動的候補評価,検証器による選択を併用した反復的エージェント復号(IAD)を提案する。
論文参考訳（メタデータ） (2025-04-02T17:40:47Z)
Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文参考訳（メタデータ） (2025-03-31T07:31:32Z)
Boosting Virtual Agent Learning and Reasoning: A Step-wise, Multi-dimensional, and Generalist Reward Model with Benchmark [72.46357004059661]
ステップワイドな多次元ジェネリスト・リワードモデルであるSimisalを提案する。エージェントトレーニング用のきめ細かい信号を提供し、推論時間スケーリングのためのより良いアクションを選択することができる。仮想エージェント領域の最初のベンチマークをステップワイドで多次元の報酬モデルトレーニングと評価のために導入する。
論文参考訳（メタデータ） (2025-03-24T13:30:47Z)
START: Self-taught Reasoner with Tools [51.38785489790888]
ツール統合長チェーン・オブ・シークレット(CoT)推論LSMであるSTART(Self-Taught Reasoner with Tools)を紹介する。 STARTは複雑な計算、自己チェック、多様な方法の探索、そして自己老化を行うことができる。基礎となるQwQ-32Bを著しく上回り、最先端のオープンウェイトモデルR1-Distill-Qwen-32Bに匹敵する性能を達成する。
論文参考訳（メタデータ） (2025-03-06T17:11:51Z)
S*: Test Time Scaling for Code Generation [55.11863577956177]
コード生成のための最初のハイブリッドテストタイムスケーリングフレームワークであるS*を提案する。 S*は生成されたコードのカバレッジと選択精度を大幅に改善する。
論文参考訳（メタデータ） (2025-02-20T09:18:53Z)
Training Software Engineering Agents and Verifiers with SWE-Gym [89.55822534364727]
SWE-Gymは、現実世界のソフトウェアエンジニアリング(SWE)エージェントをトレーニングするための最初の環境である。 SWE-Gymには2,438の現実世界のPythonタスクインスタンスが含まれている。
論文参考訳（メタデータ） (2024-12-30T18:15:39Z)
The BrowserGym Ecosystem for Web Agent Research [151.90034093362343]
BrowserGymエコシステムは、Webエージェントの効率的な評価とベンチマークの必要性の高まりに対処する。本稿では,Webエージェント研究のためのBrowserGymベースの拡張エコシステムを提案する。大規模なマルチベンチマークWebエージェント実験を初めて実施し、6つのWebエージェントベンチマークで6つの最先端LCMの性能を比較した。
論文参考訳（メタデータ） (2024-12-06T23:43:59Z)
AutoPenBench: Benchmarking Generative Agents for Penetration Testing [42.681170697805726]
本稿では,自動貫入試験における生成エージェント評価のためのオープンベンチマークであるAutoPenBenchを紹介する。エージェントが攻撃しなければならない脆弱性のあるシステムを表す33のタスクを含む包括的フレームワークを提案する。完全自律型と半自律型という2つのエージェントアーキテクチャをテストすることで,AutoPenBenchのメリットを示す。
論文参考訳（メタデータ） (2024-10-04T08:24:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。