論文の概要: Unified Software Engineering agent as AI Software Engineer
- arxiv url: http://arxiv.org/abs/2506.14683v1
- Date: Tue, 17 Jun 2025 16:19:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 17:34:59.568893
- Title: Unified Software Engineering agent as AI Software Engineer
- Title(参考訳): AIソフトウェアエンジニアとしての統一ソフトウェアエンジニアリングエージェント
- Authors: Leonhard Applis, Yuntong Zhang, Shanchao Liang, Nan Jiang, Lin Tan, Abhik Roychoudhury,
- Abstract要約: 大規模言語モデル(LLM)技術は、自動コーディングに対する期待を高めた。
本稿では,統一ソフトウェア工学エージェントやUSEagentを開発することによって,この問題を理解することを目的とする。
私たちはUSEagentを、AIと人間の両方を含む将来のソフトウェア開発チームのチームメンバーになる、将来のAIソフトウェアエンジニアの最初のドラフトとして考えています。
- 参考スコア(独自算出の注目度): 14.733475669942276
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The growth of Large Language Model (LLM) technology has raised expectations for automated coding. However, software engineering is more than coding and is concerned with activities including maintenance and evolution of a project. In this context, the concept of LLM agents has gained traction, which utilize LLMs as reasoning engines to invoke external tools autonomously. But is an LLM agent the same as an AI software engineer? In this paper, we seek to understand this question by developing a Unified Software Engineering agent or USEagent. Unlike existing work which builds specialized agents for specific software tasks such as testing, debugging, and repair, our goal is to build a unified agent which can orchestrate and handle multiple capabilities. This gives the agent the promise of handling complex scenarios in software development such as fixing an incomplete patch, adding new features, or taking over code written by others. We envision USEagent as the first draft of a future AI Software Engineer which can be a team member in future software development teams involving both AI and humans. To evaluate the efficacy of USEagent, we build a Unified Software Engineering bench (USEbench) comprising of myriad tasks such as coding, testing, and patching. USEbench is a judicious mixture of tasks from existing benchmarks such as SWE-bench, SWT-bench, and REPOCOD. In an evaluation on USEbench consisting of 1,271 repository-level software engineering tasks, USEagent shows improved efficacy compared to existing general agents such as OpenHands CodeActAgent. There exist gaps in the capabilities of USEagent for certain coding tasks, which provides hints on further developing the AI Software Engineer of the future.
- Abstract(参考訳): LLM(Large Language Model)技術の成長により、自動コーディングへの期待が高まっている。
しかしながら、ソフトウェアエンジニアリングはコーディング以上のものであり、プロジェクトのメンテナンスや進化を含む活動に関係しています。
この文脈では、LSMエージェントの概念が勢いを増し、LSMを推論エンジンとして利用して外部ツールを自律的に起動する。
しかし、LLMエージェントはAIソフトウェアエンジニアと同じなのか?
本稿では,統一ソフトウェア工学エージェントやUSEagentを開発することによって,この問題を理解することを目的とする。
テストやデバッグ、修復といった特定のソフトウェアタスクのための特別なエージェントを構築する既存の作業とは異なり、当社の目標は、複数の機能を編成し、処理できる統一されたエージェントを構築することです。
これにより、エージェントは、不完全なパッチの修正、新機能の追加、他の人によって書かれたコードの引き継ぎなど、ソフトウェア開発における複雑なシナリオを扱うことができる。
私たちはUSEagentを、AIと人間の両方を含む将来のソフトウェア開発チームのチームメンバーになる、将来のAIソフトウェアエンジニアの最初のドラフトとして考えています。
USEagentの有効性を評価するため、コーディング、テスト、パッチングといった無数のタスクからなる統一ソフトウェアエンジニアリングベンチ(USEbench)を構築した。
USEbenchは、SWE-bench、SWT-bench、REPOCODといった既存のベンチマークからのタスクのジュディショナルな混合である。
1,271のリポジトリレベルのソフトウェアエンジニアリングタスクからなるUSEbenchの評価において、USEagentはOpenHands CodeActAgentのような既存の汎用エージェントと比較して改善された効果を示す。
特定のコーディングタスクに対してUSEagentの能力にはギャップがあり、将来のAIソフトウェアエンジニアをさらに発展させるヒントを提供する。
関連論文リスト
- Agentic AI Software Engineers: Programming with Trust [33.88230182444934]
大きな言語モデル(LLM)は、コードスニペットを生成するのに驚くほどの習熟度を示している。
AIソフトウェアエンジニアのデプロイに成功するためには、人間主導のソフトウェアエンジニアリングプラクティスによって確立された信頼と同等以上の信頼レベルが必要である、と私たちは主張する。
論文 参考訳(メタデータ) (2025-02-19T14:28:42Z) - Agentless: Demystifying LLM-based Software Engineering Agents [12.19683999553113]
Agentless - ソフトウェア開発の問題を自動解決するためのエージェントレスアプローチです。
Agentlessはエージェントベースのアプローチの冗長で複雑な設定と比較すると、ローカライゼーション、修復、パッチ検証の3フェーズプロセスをシンプルに採用している。
人気の高いSWE-bench Liteベンチマークの結果から、Agentlessは驚くほど高いパフォーマンスと低コストを達成できることがわかった。
論文 参考訳(メタデータ) (2024-07-01T17:24:45Z) - Agent-Driven Automatic Software Improvement [55.2480439325792]
本提案は,Large Language Models (LLMs) を利用したエージェントの展開に着目して,革新的なソリューションの探求を目的とする。
継続的学習と適応を可能にするエージェントの反復的性質は、コード生成における一般的な課題を克服するのに役立ちます。
我々は,これらのシステムにおける反復的なフィードバックを用いて,エージェントの基盤となるLLMをさらに微調整し,自動化されたソフトウェア改善のタスクに整合性を持たせることを目指している。
論文 参考訳(メタデータ) (2024-06-24T15:45:22Z) - SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering [79.07755560048388]
SWEエージェント(SWE-agent)は、LMエージェントが自律的にコンピュータを使用してソフトウェア工学のタスクを解決するシステムである。
SWEエージェントのカスタムエージェントコンピュータインタフェース(ACI)は、エージェントがコードファイルを作成し編集し、リポジトリ全体をナビゲートし、テストやその他のプログラムを実行する能力を著しく向上させる。
我々はSWE-benchとHumanEvalFixのSWE-agentを評価し、それぞれ12.5%と87.7%のパス@1レートで最先端の性能を実現した。
論文 参考訳(メタデータ) (2024-05-06T17:41:33Z) - ChatDev: Communicative Agents for Software Development [84.90400377131962]
ChatDevはチャットを利用したソフトウェア開発フレームワークで、特別なエージェントがコミュニケーション方法についてガイドされる。
これらのエージェントは、統一された言語ベースのコミュニケーションを通じて、設計、コーディング、テストフェーズに積極的に貢献する。
論文 参考訳(メタデータ) (2023-07-16T02:11:34Z) - Automated Machine Learning: A Case Study on Non-Intrusive Appliance Load Monitoring [81.06807079998117]
非侵入的機器負荷モニタリング(NIALM)のための自動機械学習(AutoML)を実現する新しい手法を提案する。
NIALMは、電子機器や家電のエネルギー消費を測定するためのスマートメーターに代わる費用対効果を提供する。
論文 参考訳(メタデータ) (2022-03-06T10:12:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。