論文の概要: Live-SWE-agent: Can Software Engineering Agents Self-Evolve on the Fly?
- arxiv url: http://arxiv.org/abs/2511.13646v3
- Date: Mon, 24 Nov 2025 15:55:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 16:30:37.465993
- Title: Live-SWE-agent: Can Software Engineering Agents Self-Evolve on the Fly?
- Title(参考訳): ライブSWEエージェント: ソフトウェアエンジニアリングエージェントは自力で開発できるか?
- Authors: Chunqiu Steven Xia, Zhe Wang, Yan Yang, Yuxiang Wei, Lingming Zhang,
- Abstract要約: 大規模言語モデル(LLM)は、ソフトウェア工学を含むほぼすべての産業を再構築している。
我々は,実世界のソフトウェア問題を解決する際に,自律的かつ連続的に自己進化できる,初のライブソフトウェアエージェントであるLive-SWE-agentを提案する。
広範に研究されているSWE-bench Verifiedベンチマークでは,Live-SWE-AGENTがテスト時間スケーリングなしで77.4%の精度で解決できることが示されている。
- 参考スコア(独自算出の注目度): 19.772188613944596
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are reshaping almost all industries, including software engineering. In recent years, a number of LLM agents have been proposed to solve real-world software problems. Such software agents are typically equipped with a suite of coding tools and can autonomously decide the next actions to form complete trajectories to solve end-to-end software tasks. While promising, they typically require dedicated design and may still be suboptimal, since it can be extremely challenging and costly to exhaust the entire agent scaffold design space. Recognizing that software agents are inherently software themselves that can be further refined/modified, researchers have proposed a number of self-improving software agents recently, including the Darwin-Gödel Machine (DGM). Meanwhile, such self-improving agents require costly offline training on specific benchmarks and may not generalize well across different LLMs or benchmarks. In this paper, we propose Live-SWE-agent, the first live software agent that can autonomously and continuously evolve itself on-the-fly during runtime when solving real-world software problems. More specifically, Live-SWE-agent starts with the most basic agent scaffold with only access to bash tools (e.g., mini-SWE-agent), and autonomously evolves its own scaffold implementation while solving real-world software problems. Our evaluation on the widely studied SWE-bench Verified benchmark shows that LIVE-SWE-AGENT can achieve an impressive solve rate of 77.4% without test-time scaling, outperforming all existing software agents, including the best proprietary solution. Moreover, Live-SWE-agent outperforms state-of-the-art manually crafted software agents on the recent SWE-Bench Pro benchmark, achieving the best-known solve rate of 45.8%.
- Abstract(参考訳): 大規模言語モデル(LLM)は、ソフトウェア工学を含むほぼすべての産業を再構築している。
近年,現実のソフトウェア問題を解決するために,多数のLLMエージェントが提案されている。
このようなソフトウェアエージェントは通常、一連のコーディングツールを備えており、エンド・ツー・エンドのソフトウェアタスクを解決するための完全な軌跡を形成するための次のアクションを自律的に決定することができる。
有望ではあるが、通常は専用の設計が必要であり、エージェントの足場設計スペース全体を無駄にするのは非常に困難で費用がかかるため、それでも最適ではないかもしれない。
ソフトウェアエージェントは本質的にソフトウェア自身であり、さらなる洗練と修正が可能であることを認識した研究者は、最近DGM(Darwin-Gödel Machine)など、自己改善型のソフトウェアエージェントを多数提案している。
一方、このような自己改善エージェントは特定のベンチマークで高価なオフライントレーニングを必要とし、異なるLLMやベンチマークでうまく一般化できない可能性がある。
本稿では,実世界のソフトウェア問題を解決する際に,実行中に自律的かつ連続的に自己を進化させることができる,初のライブソフトウェアエージェントであるLive-SWE-agentを提案する。
より具体的には、Live-SWE-agentはbashツール(例:mini-SWE-agent)のみにアクセス可能な、最も基本的なエージェントの足場から始まり、実際のソフトウェア問題を解決しながら、独自の足場実装を自律的に進化させる。
LIVE-SWE-AGENTは、テストタイムスケーリングなしで77.4%の分解率を達成でき、最も優れたプロプライエタリなソリューションを含む、既存のソフトウェアエージェントよりも優れた性能を発揮することが、広く研究されているSWE-bench Verifiedベンチマークで評価されている。
さらに、Live-SWE-agentは最新のSWE-Bench Proベンチマークで最先端のソフトウェアエージェントより優れており、45.8%の解決率で知られている。
関連論文リスト
- Toward Training Superintelligent Software Agents through Self-Play SWE-RL [66.11447353341926]
セルフプレイSWE-RLは、超知能ソフトウェアエージェントのトレーニングパラダイムに向けた第一歩である。
当社のアプローチでは,ソースコードとインストール済みの依存関係を備えたサンドボックスリポジトリへのアクセスのみを必要としています。
我々の成果は、早い段階で、エージェントが現実世界のソフトウェアリポジトリから広範囲にわたる学習経験を自律的に収集する道のりを示唆している。
論文 参考訳(メタデータ) (2025-12-21T00:49:40Z) - Agent0: Unleashing Self-Evolving Agents from Zero Data via Tool-Integrated Reasoning [84.70211451226835]
大規模言語モデル(LLM)エージェントは、人間の計算データへの依存によって制約される。
我々は,外部データを持たない高性能エージェントを進化させる完全自律型フレームワークであるAgent0を紹介する。
Agent0は推論能力を大幅に向上させ、Qwen3-8B-Baseモデルを数学的推論で18%改善し、一般的な推論ベンチマークで24%改善した。
論文 参考訳(メタデータ) (2025-11-20T05:01:57Z) - TOM-SWE: User Mental Modeling For Software Engineering Agents [75.28749912645127]
ToM-SWEは、プライマリ・ソフトウェア・エンジニアリング(SWE)エージェントとライトウェイト・オブ・ミンド(ToM)パートナーエージェントを組み合わせたデュアルエージェントアーキテクチャである。
ToM-SWEは、ユーザー目標、制約、およびインストラクションとインタラクション履歴から好みを推測する。
2つのソフトウェアエンジニアリングベンチマークでは、ToM-SWEはタスクの成功率とユーザの満足度を改善する。
論文 参考訳(メタデータ) (2025-10-24T16:09:51Z) - SEAgent: Self-Evolving Computer Use Agent with Autonomous Learning from Experience [71.82719117238307]
本稿では,コンピュータ利用エージェントが不慣れなソフトウェアとのインタラクションを通じて進化することを可能にするエージェント型自己進化フレームワークSEAgentを提案する。
我々は、OS-World内の5つの新しいソフトウェア環境におけるSEAgentの有効性を検証する。
当社のアプローチは,競合するオープンソースCUAに比べて,11.3%から34.5%という,23.2%の大幅な改善を実現している。
論文 参考訳(メタデータ) (2025-08-06T17:58:46Z) - Unified Software Engineering agent as AI Software Engineer [14.733475669942276]
大規模言語モデル(LLM)技術は、自動コーディングに対する期待を高めた。
本稿では,統一ソフトウェア工学エージェントやUSEagentを開発することによって,この問題を理解することを目的とする。
私たちはUSEagentを、AIと人間の両方を含む将来のソフトウェア開発チームのチームメンバーになる、将来のAIソフトウェアエンジニアの最初のドラフトとして考えています。
論文 参考訳(メタデータ) (2025-06-17T16:19:13Z) - Can Agents Fix Agent Issues? [15.50260831159089]
LLMベースのエージェントシステムは、新しいソフトウェアパラダイムとして登場し、医学、ロボティクス、プログラミングといった様々な領域で広く採用されている。
これらのシステムを維持するには、バグが必然的に発生し、外部の要求に合うように継続的に進化するため、かなりの努力が必要です。
最近のソフトウェア工学(SE)エージェントは、従来のソフトウェアシステムにおける問題に対処することを約束しているが、エージェントシステムにおける現実の問題がどの程度効果的に解決できるかは不明だ。
論文 参考訳(メタデータ) (2025-05-27T05:45:03Z) - LLM Agents Making Agent Tools [2.5529148902034637]
ツールの使用は、大規模言語モデル(LLM)を、複雑なマルチステップタスクを実行できる強力なエージェントに変えた。
しかし、これらのツールは人間の開発者によって事前に実装されなければならない。
論文をコードで自律的にLLM互換のツールに変換するエージェントフレームワークであるToolMakerを提案する。
論文 参考訳(メタデータ) (2025-02-17T11:44:11Z) - Agentless: Demystifying LLM-based Software Engineering Agents [12.19683999553113]
Agentless - ソフトウェア開発の問題を自動解決するためのエージェントレスアプローチです。
Agentlessはエージェントベースのアプローチの冗長で複雑な設定と比較すると、ローカライゼーション、修復、パッチ検証の3フェーズプロセスをシンプルに採用している。
人気の高いSWE-bench Liteベンチマークの結果から、Agentlessは驚くほど高いパフォーマンスと低コストを達成できることがわかった。
論文 参考訳(メタデータ) (2024-07-01T17:24:45Z) - Agent-Driven Automatic Software Improvement [55.2480439325792]
本提案は,Large Language Models (LLMs) を利用したエージェントの展開に着目して,革新的なソリューションの探求を目的とする。
継続的学習と適応を可能にするエージェントの反復的性質は、コード生成における一般的な課題を克服するのに役立ちます。
我々は,これらのシステムにおける反復的なフィードバックを用いて,エージェントの基盤となるLLMをさらに微調整し,自動化されたソフトウェア改善のタスクに整合性を持たせることを目指している。
論文 参考訳(メタデータ) (2024-06-24T15:45:22Z) - SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering [79.07755560048388]
SWEエージェント(SWE-agent)は、LMエージェントが自律的にコンピュータを使用してソフトウェア工学のタスクを解決するシステムである。
SWEエージェントのカスタムエージェントコンピュータインタフェース(ACI)は、エージェントがコードファイルを作成し編集し、リポジトリ全体をナビゲートし、テストやその他のプログラムを実行する能力を著しく向上させる。
我々はSWE-benchとHumanEvalFixのSWE-agentを評価し、それぞれ12.5%と87.7%のパス@1レートで最先端の性能を実現した。
論文 参考訳(メタデータ) (2024-05-06T17:41:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。