論文の概要: Training Software Engineering Agents and Verifiers with SWE-Gym
- arxiv url: http://arxiv.org/abs/2412.21139v1
- Date: Mon, 30 Dec 2024 18:15:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-31 22:07:02.83856
- Title: Training Software Engineering Agents and Verifiers with SWE-Gym
- Title(参考訳): SWE-Gymによるソフトウェアエンジニアリングエージェントと検証の訓練
- Authors: Jiayi Pan, Xingyao Wang, Graham Neubig, Navdeep Jaitly, Heng Ji, Alane Suhr, Yizhe Zhang,
- Abstract要約: SWE-Gymは、現実世界のソフトウェアエンジニアリング(SWE)エージェントをトレーニングするための最初の環境である。
SWE-Gymには2,438の現実世界のPythonタスクインスタンスが含まれている。
- 参考スコア(独自算出の注目度): 89.55822534364727
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present SWE-Gym, the first environment for training real-world software engineering (SWE) agents. SWE-Gym contains 2,438 real-world Python task instances, each comprising a codebase with an executable runtime environment, unit tests, and a task specified in natural language. We use SWE-Gym to train language model based SWE agents , achieving up to 19% absolute gains in resolve rate on the popular SWE-Bench Verified and Lite test sets. We also experiment with inference-time scaling through verifiers trained on agent trajectories sampled from SWE-Gym. When combined with our fine-tuned SWE agents, we achieve 32.0% and 26.0% on SWE-Bench Verified and Lite, respectively, reflecting a new state-of-the-art for open-weight SWE agents. To facilitate further research, we publicly release SWE-Gym, models, and agent trajectories.
- Abstract(参考訳): 実世界のソフトウェア工学(SWE)エージェントを訓練するための最初の環境であるSWE-Gymを紹介する。
SWE-Gymには2,438の現実世界のPythonタスクインスタンスが含まれている。
我々は、SWE-Gymを用いて言語モデルに基づくSWEエージェントを訓練し、人気のあるSWE-Bench検証およびLiteテストセットの解決レートで最大19%の絶対ゲインを達成する。
また,SWE-Gymから抽出したエージェントトラジェクトリを訓練した検証器による推論時間スケーリング実験を行った。
細調整されたSWEエージェントと組み合わせると、SWE-Bench VerifiedとLiteでそれぞれ32.0%と26.0%を達成することができ、オープンウェイトSWEエージェントの新たな最先端を反映している。
さらなる研究を容易にするため、我々はSWE-Gym、モデル、エージェントトラジェクトリを公開リリースする。
関連論文リスト
- SWE-smith: Scaling Data for Software Engineering Agents [100.30273957706237]
SWE-smithは、大規模なソフトウェアエンジニアリングトレーニングデータを生成するための新しいパイプラインである。
128のGitHubリポジトリからソースされた50kインスタンスのデータセットを作成します。
我々はSWE-agent-LM-32Bをトレーニングし、SWE-bench Verifiedベンチマークで40.2%のPass@1リゾルバ率を達成した。
論文 参考訳(メタデータ) (2025-04-30T16:56:06Z) - Iterative Trajectory Exploration for Multimodal Agents [69.32855772335624]
本研究では,マルチモーダルエージェント,すなわちSPORTのオンライン自己探索手法を提案する。
Sportは、タスク合成、ステップサンプリング、ステップ検証、優先度調整の4つの反復的なコンポーネントを通じて動作する。
GTAとGAIAのベンチマークでは、Sport Agentは6.41%と3.64%の改善を達成している。
論文 参考訳(メタデータ) (2025-04-30T12:01:27Z) - R2E-Gym: Procedural Environments and Hybrid Verifiers for Scaling Open-Weights SWE Agents [32.06393076572057]
AgentGymは、現実世界のSWEエージェントを訓練するための、手続き的に計算された最大のジム環境である。
Syngen、合成データキュレーションのレシピ、ハイブリッドテストタイムスケーリングの2つの主要なコントリビューションによって実現されている。
提案手法は,SWE-Bench Verifiedベンチマークで51%を達成し,オープンウェイトSWEエージェントの新たな最先端性を反映した。
論文 参考訳(メタデータ) (2025-04-09T17:55:19Z) - Agent S2: A Compositional Generalist-Specialist Framework for Computer Use Agents [30.253353551910404]
コンピュータ利用エージェントは、コンピュータやモバイルデバイスのグラフィカルユーザインタフェース(GUI)と直接対話することで、デジタルタスクを自動化する。
本稿では,様々なジェネラリストおよびスペシャリストモデルにまたがって認知的責任を委譲する新しい構成フレームワークであるAgens S2を紹介する。
Agent S2は、3つの著名なコンピュータ使用ベンチマーク上でのSOTA(State-of-the-art)のパフォーマンスを確立する。
論文 参考訳(メタデータ) (2025-04-01T15:40:27Z) - Boosting Virtual Agent Learning and Reasoning: A Step-wise, Multi-dimensional, and Generalist Reward Model with Benchmark [72.46357004059661]
ステップワイドな多次元ジェネリスト・リワードモデルであるSimisalを提案する。
エージェントトレーニング用のきめ細かい信号を提供し、推論時間スケーリングのためのより良いアクションを選択することができる。
仮想エージェント領域の最初のベンチマークをステップワイドで多次元の報酬モデルトレーニングと評価のために導入する。
論文 参考訳(メタデータ) (2025-03-24T13:30:47Z) - Automated Benchmark Generation for Repository-Level Coding Tasks [7.305342793164905]
SetUpAgentは、歴史的に正確な依存性の設定、テスト実行、結果解析が可能な完全に自動化されたシステムである。
i)SWEE-Benchは数百のリポジトリを含むSWE-Benchの拡張バージョンで、ii)SWA-Benchはライブラリではなくアプリケーションに焦点を当てたベンチマークです。
論文 参考訳(メタデータ) (2025-03-10T17:42:49Z) - SWE-Bench+: Enhanced Coding Benchmark for LLMs [7.584728644156347]
SWE-benchデータセットは、2,294の現実世界のGitHubイシューとそれに対応するプルリクエストで構成されている。
SWE-Agent+GPT-4の分解率は12.47%から3.97%に減少した。
同様のデータ品質問題は、SWE-bench LiteとSWE-Bench Verifiedの2つの変種にも存在している。
論文 参考訳(メタデータ) (2024-10-09T15:38:53Z) - Diversity Empowers Intelligence: Integrating Expertise of Software Engineering Agents [106.87436596397816]
大規模言語モデル(LLM)エージェントは、現実世界のソフトウェア工学(SWE)問題を解決する大きな可能性を示している。
専門知識を活かしたフレームワークであるDEI(Diversity Empowered Intelligence)を提案する。
実験により、DEAが指導するエージェント委員会が、最高のエージェントのパフォーマンスを大きなマージンで上回ることが可能であることが示されている。
論文 参考訳(メタデータ) (2024-08-13T17:50:28Z) - AgentGym: Evolving Large Language Model-based Agents across Diverse Environments [116.97648507802926]
大規模言語モデル(LLM)はそのようなエージェントを構築するための有望な基盤と考えられている。
我々は、自己進化能力を備えた一般機能 LLM ベースのエージェントを構築するための第一歩を踏み出す。
我々はAgentGymを提案する。AgentGymは、幅広い、リアルタイム、ユニフォーマット、並行エージェント探索のための様々な環境とタスクを特徴とする新しいフレームワークである。
論文 参考訳(メタデータ) (2024-06-06T15:15:41Z) - SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering [79.07755560048388]
SWEエージェント(SWE-agent)は、LMエージェントが自律的にコンピュータを使用してソフトウェア工学のタスクを解決するシステムである。
SWEエージェントのカスタムエージェントコンピュータインタフェース(ACI)は、エージェントがコードファイルを作成し編集し、リポジトリ全体をナビゲートし、テストやその他のプログラムを実行する能力を著しく向上させる。
我々はSWE-benchとHumanEvalFixのSWE-agentを評価し、それぞれ12.5%と87.7%のパス@1レートで最先端の性能を実現した。
論文 参考訳(メタデータ) (2024-05-06T17:41:33Z) - Learning Synthetic Environments for Reinforcement Learning with
Evolution Strategies [34.13101380723782]
本研究は強化学習のための学習エージェント非依存合成環境(ses)を探索する。
SEはターゲット環境のプロキシとして機能し、ターゲット環境上で直接トレーニングされた場合よりも効率的にエージェントをトレーニングできる。
本手法は,2つの離散的動作空間タスクに対してsesを学習でき,より堅牢に,最大60%のステップでエージェントを訓練できることを示す。
論文 参考訳(メタデータ) (2021-01-24T14:16:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。