論文の概要: HyperAgent: Generalist Software Engineering Agents to Solve Coding Tasks at Scale
- arxiv url: http://arxiv.org/abs/2409.16299v1
- Date: Mon, 09 Sep 2024 19:35:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-09-30 06:32:36.544083
- Title: HyperAgent: Generalist Software Engineering Agents to Solve Coding Tasks at Scale
- Title(参考訳): HyperAgent: コーディングタスクを大規模に解決する汎用ソフトウェアエンジニアリングエージェント
- Authors: Huy Nhat Phan, Phong X. Nguyen, Nghi D. Q. Bui,
- Abstract要約: ソフトウェア工学(SE)タスクの幅広い領域に対処するために設計された,新しい汎用マルチエージェントシステムであるHyperAgentを紹介する。
Planner、Navigator、Code Editor、Executorの4つの特別なエージェントで構成され、HyperAgentはSEタスクのライフサイクル全体を管理する。
広範な評価を通じて、HyperAgentは様々なSEタスクで最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 5.641402231731082
- License:
- Abstract: Large Language Models (LLMs) have revolutionized software engineering (SE), demonstrating remarkable capabilities in various coding tasks. While recent efforts have produced autonomous software agents based on LLMs for end-to-end development tasks, these systems are typically designed for specific SE tasks. We introduce HyperAgent, a novel generalist multi-agent system designed to address a wide spectrum of SE tasks across different programming languages by mimicking human developers' workflows. Comprising four specialized agents - Planner, Navigator, Code Editor, and Executor. HyperAgent manages the full lifecycle of SE tasks, from initial conception to final verification. Through extensive evaluations, HyperAgent achieves state-of-the-art performance across diverse SE tasks: it attains a 25.01% success rate on SWE-Bench-Lite and 31.40% on SWE-Bench-Verified for GitHub issue resolution, surpassing existing methods. Furthermore, HyperAgent demonstrates SOTA performance in repository-level code generation (RepoExec), and in fault localization and program repair (Defects4J), often outperforming specialized systems. This work represents a significant advancement towards versatile, autonomous agents capable of handling complex, multi-step SE tasks across various domains and languages, potentially transforming AI-assisted software development practices.
- Abstract(参考訳): 大規模言語モデル(LLM)はソフトウェア工学(SE)に革命をもたらし、様々なコーディングタスクにおいて顕著な能力を発揮している。
近年の取り組みでは、エンド・ツー・エンドの開発タスクにLLMをベースとした自律型ソフトウェアエージェントが開発されているが、これらのシステムは通常、特定のSEタスク用に設計されている。
我々は,ヒューマン開発者のワークフローを模倣して,様々なプログラミング言語にまたがる幅広いSEタスクに対処するために設計された,新しい汎用マルチエージェントシステムHyperAgentを紹介する。
Planner、Navigator、Code Editor、Executorの4つの特殊エージェントを補完する。
HyperAgentは、初期概念から最終的な検証まで、SEタスクの完全なライフサイクルを管理する。
幅広い評価を通じて、HyperAgentはさまざまなSEタスクにわたる最先端のパフォーマンスを達成する。SWE-Bench-Liteで25.01%、GitHubイシュー解決でSWE-Bench-Verifiedで31.40%、既存のメソッドを上回り、成功率を達成した。
さらに、HyperAgentはリポジトリレベルのコード生成(RepoExec)およびフォールトローカライゼーションとプログラム修復(Defects4J)におけるSOTAのパフォーマンスをデモしている。
この作業は、さまざまなドメインや言語にわたる複雑な多段階のSEタスクを処理でき、AI支援のソフトウェア開発プラクティスを変革する可能性のある、汎用的で自律的なエージェントに対する大きな進歩を表している。
関連論文リスト
- Spider2-V: How Far Are Multimodal Agents From Automating Data Science and Engineering Workflows? [73.81908518992161]
我々は、プロのデータサイエンスとエンジニアリングに焦点を当てた最初のマルチモーダルエージェントベンチマークであるSpider2-Vを紹介する。
Spider2-Vは、本物のコンピュータ環境における現実世界のタスクを特徴とし、20のエンタープライズレベルのプロフェッショナルアプリケーションを組み込んでいる。
これらのタスクは、エンタープライズデータソフトウェアシステムにおいて、コードを書き、GUIを管理することで、マルチモーダルエージェントがデータ関連のタスクを実行する能力を評価する。
論文 参考訳(メタデータ) (2024-07-15T17:54:37Z) - Agentless: Demystifying LLM-based Software Engineering Agents [12.19683999553113]
Agentless - ソフトウェア開発の問題を自動解決するためのエージェントレスアプローチです。
エージェントベースのアプローチの冗長で複雑な設定と比較すると、エージェントレスは局所化の単純化された2段階のプロセスを採用し、修理を行う。
人気の高いSWE-bench Liteベンチマークの結果、驚くほど単純なAgentlessは、既存のすべてのオープンソースソフトウェアエージェントと比較して、最高のパフォーマンス(27.33%)と最低コスト(0.34ドル)を達成できることがわかった。
論文 参考訳(メタデータ) (2024-07-01T17:24:45Z) - EvoAgent: Towards Automatic Multi-Agent Generation via Evolutionary Algorithms [55.77492625524141]
EvoAgentは進化的アルゴリズムによって専門家エージェントをマルチエージェントシステムに自動的に拡張する汎用的な手法である。
EvoAgentは複数の専門家エージェントを自動生成し,LLMエージェントのタスク解決能力を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2024-06-20T11:49:23Z) - CAAP: Context-Aware Action Planning Prompting to Solve Computer Tasks with Front-End UI Only [21.054681757006385]
高度な推論能力を持つ大規模言語モデル(LLM)は、エージェントがより複雑で以前は目に見えないタスクをこなすためのステージを定めている。
環境認識のためのスクリーンショットのみに基づいて機能するエージェントを提案する。
67種類のMiniWoB++問題に対して94.4%の成功率を達成した。
論文 参考訳(メタデータ) (2024-06-11T05:21:20Z) - AgentGym: Evolving Large Language Model-based Agents across Diverse Environments [116.97648507802926]
大規模言語モデル(LLM)はそのようなエージェントを構築するための有望な基盤と考えられている。
我々は、自己進化能力を備えた一般機能 LLM ベースのエージェントを構築するための第一歩を踏み出す。
我々はAgentGymを提案する。AgentGymは、幅広い、リアルタイム、ユニフォーマット、並行エージェント探索のための様々な環境とタスクを特徴とする新しいフレームワークである。
論文 参考訳(メタデータ) (2024-06-06T15:15:41Z) - SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering [79.07755560048388]
SWEエージェント(SWE-agent)は、LMエージェントが自律的にコンピュータを使用してソフトウェア工学のタスクを解決するシステムである。
SWEエージェントのカスタムエージェントコンピュータインタフェース(ACI)は、エージェントがコードファイルを作成し編集し、リポジトリ全体をナビゲートし、テストやその他のプログラムを実行する能力を著しく向上させる。
我々はSWE-benchとHumanEvalFixのSWE-agentを評価し、それぞれ12.5%と87.7%のパス@1レートで最先端の性能を実現した。
論文 参考訳(メタデータ) (2024-05-06T17:41:33Z) - AgentScope: A Flexible yet Robust Multi-Agent Platform [66.64116117163755]
AgentScopeは、メッセージ交換をコアコミュニケーションメカニズムとする、開発者中心のマルチエージェントプラットフォームである。
豊富な構文ツール、組み込みエージェントとサービス機能、アプリケーションのデモとユーティリティモニタのためのユーザフレンドリなインターフェース、ゼロコードプログラミングワークステーション、自動プロンプトチューニング機構により、開発とデプロイメントの両方の障壁は大幅に低下した。
論文 参考訳(メタデータ) (2024-02-21T04:11:28Z) - CodePori: Large-Scale System for Autonomous Software Development Using Multi-Agent Technology [4.2990995991059275]
大規模言語モデル(LLM)とGPT(Generative Pre-trained Transformer)は、ソフトウェア工学の分野を変えました。
我々は,大規模かつ複雑なソフトウェアプロジェクトのコード生成を自動化するように設計された,新しいシステムであるCodePoriを紹介する。
結果: CodePoriは、典型的なソフトウェア開発プロセスに合わせて、大規模プロジェクトの実行コードを生成することができる。
論文 参考訳(メタデータ) (2024-02-02T13:42:50Z) - CodeAgent: Enhancing Code Generation with Tool-Integrated Agent Systems for Real-World Repo-level Coding Challenges [41.038584732889895]
大規模言語モデル(LLM)は自動コード生成において有望であるが、通常は単純なタスクでのみ優れている。
私たちの研究は、実世界のリポジトリレベルのコード生成という、より現実的な設定でLLMを評価することに向かっています。
我々は,効率的なリポジトリレベルのコード生成に外部ツールを利用する,新しいLLMベースのエージェントフレームワークであるCodeAgentを紹介する。
論文 参考訳(メタデータ) (2024-01-14T18:12:03Z) - AutoAgents: A Framework for Automatic Agent Generation [27.74332323317923]
AutoAgentsは、さまざまなタスクに応じてAIチームを構築するために、複数の専門エージェントを適応的に生成し、コーディネートする革新的なフレームワークである。
各種ベンチマーク実験により,AutoAgentsは既存のマルチエージェント手法よりも一貫性と正確な解を生成することが示された。
論文 参考訳(メタデータ) (2023-09-29T14:46:30Z) - WebArena: A Realistic Web Environment for Building Autonomous Agents [92.3291458543633]
我々は、非常に現実的で再現可能な言語誘導エージェントのための環境を構築する。
我々は,Web上でタスクを実行するエージェントに着目し,4つの共通ドメインから完全に機能するWebサイトを持つ環境を構築する。
タスク完了の関数的正しさを評価することに焦点を当てたベンチマークタスクのセットをリリースする。
論文 参考訳(メタデータ) (2023-07-25T22:59:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。