論文の概要: Live-SWE-agent: Can Software Engineering Agents Self-Evolve on the Fly?
- arxiv url: http://arxiv.org/abs/2511.13646v1
- Date: Mon, 17 Nov 2025 17:58:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 18:52:09.65289
- Title: Live-SWE-agent: Can Software Engineering Agents Self-Evolve on the Fly?
- Title(参考訳): ライブSWEエージェント: ソフトウェアエンジニアリングエージェントは自力で開発できるか?
- Authors: Chunqiu Steven Xia, Zhe Wang, Yan Yang, Yuxiang Wei, Lingming Zhang,
- Abstract要約: 大規模言語モデル(LLM)は、ソフトウェア工学を含むほぼすべての産業を再構築している。
我々は,実世界のソフトウェア問題を解決する際に,自律的かつ連続的に自己進化できる,初のライブソフトウェアエージェントであるLive-SWE-agentを提案する。
広範に研究されているSWE-bench Verifiedベンチマークでは,Live-SWE-agentがテスト時間スケーリングなしで75.4%の精度で解決できることが示されている。
- 参考スコア(独自算出の注目度): 19.772188613944596
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are reshaping almost all industries, including software engineering. In recent years, a number of LLM agents have been proposed to solve real-world software problems. Such software agents are typically equipped with a suite of coding tools and can autonomously decide the next actions to form complete trajectories to solve end-to-end software tasks. While promising, they typically require dedicated design and may still be suboptimal, since it can be extremely challenging and costly to exhaust the entire agent scaffold design space. Recognizing that software agents are inherently software themselves that can be further refined/modified, researchers have proposed a number of self-improving software agents recently, including the Darwin-Gödel Machine (DGM). Meanwhile, such self-improving agents require costly offline training on specific benchmarks and may not generalize well across different LLMs or benchmarks. In this paper, we propose Live-SWE-agent, the first live software agent that can autonomously and continuously evolve itself on-the-fly during runtime when solving real-world software problems. More specifically, Live-SWE-agent starts with the most basic agent scaffold with only access to bash tools (e.g., mini-SWE-agent), and autonomously evolves its own scaffold implementation while solving real-world software problems. Our evaluation on the widely studied SWE-bench Verified benchmark shows that Live-SWE-agent can achieve an impressive solve rate of 75.4% without test-time scaling, outperforming all existing open-source software agents and approaching the performance of the best proprietary solution. Moreover, Live-SWE-agent outperforms state-of-the-art manually crafted software agents on the recent SWE-Bench Pro benchmark, achieving the best-known solve rate of 45.8%.
- Abstract(参考訳): 大規模言語モデル(LLM)は、ソフトウェア工学を含むほぼすべての産業を再構築している。
近年,現実のソフトウェア問題を解決するために,多数のLLMエージェントが提案されている。
このようなソフトウェアエージェントは通常、一連のコーディングツールを備えており、エンド・ツー・エンドのソフトウェアタスクを解決するための完全な軌跡を形成するための次のアクションを自律的に決定することができる。
有望ではあるが、通常は専用の設計が必要であり、エージェントの足場設計スペース全体を無駄にするのは非常に困難で費用がかかるため、それでも最適ではないかもしれない。
ソフトウェアエージェントは本質的にソフトウェア自身であり、さらなる洗練と修正が可能であることを認識した研究者は、最近DGM(Darwin-Gödel Machine)など、自己改善型のソフトウェアエージェントを多数提案している。
一方、このような自己改善エージェントは特定のベンチマークで高価なオフライントレーニングを必要とし、異なるLLMやベンチマークでうまく一般化できない可能性がある。
本稿では,実世界のソフトウェア問題を解決する際に,実行中に自律的かつ連続的に自己を進化させることができる,初のライブソフトウェアエージェントであるLive-SWE-agentを提案する。
より具体的には、Live-SWE-agentはbashツール(例:mini-SWE-agent)のみにアクセス可能な、最も基本的なエージェントの足場から始まり、実際のソフトウェア問題を解決しながら、独自の足場実装を自律的に進化させる。
広く研究されているSWE-bench Verifiedベンチマークの評価では、Live-SWE-agentは、テストタイムスケーリングなしで、既存のすべてのオープンソースソフトウェアエージェントを上回り、最高のプロプライエタリなソリューションのパフォーマンスに近づきながら、75.4%の解決率を達成できることが示されている。
さらに、Live-SWE-agentは最新のSWE-Bench Proベンチマークで最先端のソフトウェアエージェントより優れており、45.8%の解決率で知られている。
関連論文リスト
- TOM-SWE: User Mental Modeling For Software Engineering Agents [75.28749912645127]
ToM-SWEは、プライマリ・ソフトウェア・エンジニアリング(SWE)エージェントとライトウェイト・オブ・ミンド(ToM)パートナーエージェントを組み合わせたデュアルエージェントアーキテクチャである。
ToM-SWEは、ユーザー目標、制約、およびインストラクションとインタラクション履歴から好みを推測する。
2つのソフトウェアエンジニアリングベンチマークでは、ToM-SWEはタスクの成功率とユーザの満足度を改善する。
論文 参考訳(メタデータ) (2025-10-24T16:09:51Z) - SEAgent: Self-Evolving Computer Use Agent with Autonomous Learning from Experience [71.82719117238307]
本稿では,コンピュータ利用エージェントが不慣れなソフトウェアとのインタラクションを通じて進化することを可能にするエージェント型自己進化フレームワークSEAgentを提案する。
我々は、OS-World内の5つの新しいソフトウェア環境におけるSEAgentの有効性を検証する。
当社のアプローチは,競合するオープンソースCUAに比べて,11.3%から34.5%という,23.2%の大幅な改善を実現している。
論文 参考訳(メタデータ) (2025-08-06T17:58:46Z) - Unified Software Engineering agent as AI Software Engineer [14.733475669942276]
大規模言語モデル(LLM)技術は、自動コーディングに対する期待を高めた。
本稿では,統一ソフトウェア工学エージェントやUSEagentを開発することによって,この問題を理解することを目的とする。
私たちはUSEagentを、AIと人間の両方を含む将来のソフトウェア開発チームのチームメンバーになる、将来のAIソフトウェアエンジニアの最初のドラフトとして考えています。
論文 参考訳(メタデータ) (2025-06-17T16:19:13Z) - Agentless: Demystifying LLM-based Software Engineering Agents [12.19683999553113]
Agentless - ソフトウェア開発の問題を自動解決するためのエージェントレスアプローチです。
Agentlessはエージェントベースのアプローチの冗長で複雑な設定と比較すると、ローカライゼーション、修復、パッチ検証の3フェーズプロセスをシンプルに採用している。
人気の高いSWE-bench Liteベンチマークの結果から、Agentlessは驚くほど高いパフォーマンスと低コストを達成できることがわかった。
論文 参考訳(メタデータ) (2024-07-01T17:24:45Z) - SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering [79.07755560048388]
SWEエージェント(SWE-agent)は、LMエージェントが自律的にコンピュータを使用してソフトウェア工学のタスクを解決するシステムである。
SWEエージェントのカスタムエージェントコンピュータインタフェース(ACI)は、エージェントがコードファイルを作成し編集し、リポジトリ全体をナビゲートし、テストやその他のプログラムを実行する能力を著しく向上させる。
我々はSWE-benchとHumanEvalFixのSWE-agentを評価し、それぞれ12.5%と87.7%のパス@1レートで最先端の性能を実現した。
論文 参考訳(メタデータ) (2024-05-06T17:41:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。