論文の概要: Training Software Engineering Agents and Verifiers with SWE-Gym
- arxiv url: http://arxiv.org/abs/2412.21139v1
- Date: Mon, 30 Dec 2024 18:15:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-31 16:07:47.662022
- Title: Training Software Engineering Agents and Verifiers with SWE-Gym
- Title(参考訳): SWE-Gymによるソフトウェアエンジニアリングエージェントと検証の訓練
- Authors: Jiayi Pan, Xingyao Wang, Graham Neubig, Navdeep Jaitly, Heng Ji, Alane Suhr, Yizhe Zhang,
- Abstract要約: SWE-Gymは、現実世界のソフトウェアエンジニアリング(SWE)エージェントをトレーニングするための最初の環境である。
SWE-Gymには2,438の現実世界のPythonタスクインスタンスが含まれている。
- 参考スコア(独自算出の注目度): 89.55822534364727
- License:
- Abstract: We present SWE-Gym, the first environment for training real-world software engineering (SWE) agents. SWE-Gym contains 2,438 real-world Python task instances, each comprising a codebase with an executable runtime environment, unit tests, and a task specified in natural language. We use SWE-Gym to train language model based SWE agents , achieving up to 19% absolute gains in resolve rate on the popular SWE-Bench Verified and Lite test sets. We also experiment with inference-time scaling through verifiers trained on agent trajectories sampled from SWE-Gym. When combined with our fine-tuned SWE agents, we achieve 32.0% and 26.0% on SWE-Bench Verified and Lite, respectively, reflecting a new state-of-the-art for open-weight SWE agents. To facilitate further research, we publicly release SWE-Gym, models, and agent trajectories.
- Abstract(参考訳): 実世界のソフトウェア工学(SWE)エージェントを訓練するための最初の環境であるSWE-Gymを紹介する。
SWE-Gymには2,438の現実世界のPythonタスクインスタンスが含まれている。
我々は、SWE-Gymを用いて言語モデルに基づくSWEエージェントを訓練し、人気のあるSWE-Bench検証およびLiteテストセットの解決レートで最大19%の絶対ゲインを達成する。
また,SWE-Gymから抽出したエージェントトラジェクトリを訓練した検証器による推論時間スケーリング実験を行った。
細調整されたSWEエージェントと組み合わせると、SWE-Bench VerifiedとLiteでそれぞれ32.0%と26.0%を達成することができ、オープンウェイトSWEエージェントの新たな最先端を反映している。
さらなる研究を容易にするため、我々はSWE-Gym、モデル、エージェントトラジェクトリを公開リリースする。
関連論文リスト
- SWE-Fixer: Training Open-Source LLMs for Effective and Efficient GitHub Issue Resolution [56.9361004704428]
大規模言語モデル(LLM)は、様々な複雑なタスクにまたがる顕著な習熟度を示している。
SWE-Fixerは、GitHubの問題を効果的かつ効率的に解決するために設計された、新しいオープンソースフレームワークである。
我々は,SWE-Bench LiteとVerifiedベンチマークに対するアプローチを評価し,オープンソースモデル間の最先端性能を実現する。
論文 参考訳(メタデータ) (2025-01-09T07:54:24Z) - SWE-Bench+: Enhanced Coding Benchmark for LLMs [7.584728644156347]
SWE-benchデータセットは、2,294の現実世界のGitHubイシューとそれに対応するプルリクエストで構成されている。
SWE-Agent+GPT-4の分解率は12.47%から3.97%に減少した。
同様のデータ品質問題は、SWE-bench LiteとSWE-Bench Verifiedの2つの変種にも存在している。
論文 参考訳(メタデータ) (2024-10-09T15:38:53Z) - AutoPenBench: Benchmarking Generative Agents for Penetration Testing [42.681170697805726]
本稿では,自動貫入試験における生成エージェント評価のためのオープンベンチマークであるAutoPenBenchを紹介する。
エージェントが攻撃しなければならない脆弱性のあるシステムを表す33のタスクを含む包括的フレームワークを提案する。
完全自律型と半自律型という2つのエージェントアーキテクチャをテストすることで,AutoPenBenchのメリットを示す。
論文 参考訳(メタデータ) (2024-10-04T08:24:15Z) - Diversity Empowers Intelligence: Integrating Expertise of Software Engineering Agents [106.87436596397816]
大規模言語モデル(LLM)エージェントは、現実世界のソフトウェア工学(SWE)問題を解決する大きな可能性を示している。
専門知識を活かしたフレームワークであるDEI(Diversity Empowered Intelligence)を提案する。
実験により、DEAが指導するエージェント委員会が、最高のエージェントのパフォーマンスを大きなマージンで上回ることが可能であることが示されている。
論文 参考訳(メタデータ) (2024-08-13T17:50:28Z) - AgentGym: Evolving Large Language Model-based Agents across Diverse Environments [116.97648507802926]
大規模言語モデル(LLM)はそのようなエージェントを構築するための有望な基盤と考えられている。
我々は、自己進化能力を備えた一般機能 LLM ベースのエージェントを構築するための第一歩を踏み出す。
我々はAgentGymを提案する。AgentGymは、幅広い、リアルタイム、ユニフォーマット、並行エージェント探索のための様々な環境とタスクを特徴とする新しいフレームワークである。
論文 参考訳(メタデータ) (2024-06-06T15:15:41Z) - SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering [79.07755560048388]
SWEエージェント(SWE-agent)は、LMエージェントが自律的にコンピュータを使用してソフトウェア工学のタスクを解決するシステムである。
SWEエージェントのカスタムエージェントコンピュータインタフェース(ACI)は、エージェントがコードファイルを作成し編集し、リポジトリ全体をナビゲートし、テストやその他のプログラムを実行する能力を著しく向上させる。
我々はSWE-benchとHumanEvalFixのSWE-agentを評価し、それぞれ12.5%と87.7%のパス@1レートで最先端の性能を実現した。
論文 参考訳(メタデータ) (2024-05-06T17:41:33Z) - Score-based Generative Modeling in Latent Space [93.8985523558869]
スコアベース生成モデル(SGM)は,最近,サンプル品質と分布範囲の両面で顕著な結果を示した。
本稿では,Latent Score-based Generative Model (LSGM)を提案する。
データから潜在空間への移動により、より表現力のある生成モデルをトレーニングし、非連続データにSGMを適用し、よりスムーズなSGMをより小さな空間で学習することができる。
論文 参考訳(メタデータ) (2021-06-10T17:26:35Z) - Learning Synthetic Environments for Reinforcement Learning with
Evolution Strategies [34.13101380723782]
本研究は強化学習のための学習エージェント非依存合成環境(ses)を探索する。
SEはターゲット環境のプロキシとして機能し、ターゲット環境上で直接トレーニングされた場合よりも効率的にエージェントをトレーニングできる。
本手法は,2つの離散的動作空間タスクに対してsesを学習でき,より堅牢に,最大60%のステップでエージェントを訓練できることを示す。
論文 参考訳(メタデータ) (2021-01-24T14:16:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。