論文の概要: HyperAgent: Generalist Software Engineering Agents to Solve Coding Tasks at Scale
- arxiv url: http://arxiv.org/abs/2409.16299v2
- Date: Tue, 5 Nov 2024 17:22:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-06 17:42:27.630701
- Title: HyperAgent: Generalist Software Engineering Agents to Solve Coding Tasks at Scale
- Title(参考訳): HyperAgent: コーディングタスクを大規模に解決する汎用ソフトウェアエンジニアリングエージェント
- Authors: Huy Nhat Phan, Tien N. Nguyen, Phong X. Nguyen, Nghi D. Q. Bui,
- Abstract要約: 大規模言語モデル(LLM)がソフトウェア工学(SE)に革命をもたらした
最近の進歩にもかかわらず、これらのシステムは一般的に特定のSE関数用に設計されている。
我々は,多種多様なSEタスクに対処するために設計された,革新的な汎用マルチエージェントシステムHyperAgentを紹介する。
- 参考スコア(独自算出の注目度): 12.173834895070827
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Large Language Models (LLMs) have revolutionized software engineering (SE), showcasing remarkable proficiency in various coding tasks. Despite recent advancements that have enabled the creation of autonomous software agents utilizing LLMs for end-to-end development tasks, these systems are typically designed for specific SE functions. We introduce HyperAgent, an innovative generalist multi-agent system designed to tackle a wide range of SE tasks across different programming languages by mimicking the workflows of human developers. HyperAgent features four specialized agents-Planner, Navigator, Code Editor, and Executor-capable of handling the entire lifecycle of SE tasks, from initial planning to final verification. HyperAgent sets new benchmarks in diverse SE tasks, including GitHub issue resolution on the renowned SWE-Bench benchmark, outperforming robust baselines. Furthermore, HyperAgent demonstrates exceptional performance in repository-level code generation (RepoExec) and fault localization and program repair (Defects4J), often surpassing state-of-the-art baselines.
- Abstract(参考訳): 大規模言語モデル(LLM)は、ソフトウェア工学(SE)に革命をもたらし、様々なコーディングタスクにおいて顕著な熟練を示している。
近年の進歩により、エンド・ツー・エンドの開発タスクにLLMを利用する自律型ソフトウェアエージェントの開発が可能になったが、これらのシステムは通常、特定のSE機能のために設計されている。
提案するHyperAgentは,人間開発者のワークフローを模倣して,プログラム言語間での幅広いSEタスクに対処するために設計された,革新的な汎用マルチエージェントシステムである。
HyperAgentは、初期計画から最終検証まで、SEタスクのライフサイクル全体を処理できる4つの特別なエージェント-Planner、Navigator、Code Editor、Executor-capを特徴とする。
HyperAgentは、SWE-BenchベンチマークのGitHubイシュー解決など、さまざまなSEタスクで新しいベンチマークを設定し、堅牢なベースラインを上回っている。
さらに、HyperAgentはリポジトリレベルのコード生成(RepoExec)とフォールトローカライゼーションとプログラム修復(Defects4J)において例外的なパフォーマンスを示し、しばしば最先端のベースラインを超えている。
関連論文リスト
- Evaluating Software Development Agents: Patch Patterns, Code Quality, and Issue Complexity in Real-World GitHub Scenarios [13.949319911378826]
この調査は、500の現実のGitHubイシューで上位10のエージェントから4,892のパッチを評価した。
一人のエージェントが支配的であり、170の問題が未解決であり、改善の余地があった。
ほとんどのエージェントはコードの信頼性とセキュリティを維持し、新しいバグや脆弱性を避けた。
一部のエージェントはコードの複雑さを増し、多くの重複を減らし、コードの臭いを最小限にした。
論文 参考訳(メタデータ) (2024-10-16T11:33:57Z) - Agent S: An Open Agentic Framework that Uses Computers Like a Human [31.16046798529319]
我々は、GUI(Graphical User Interface)を通じてコンピュータとの自律的なインタラクションを可能にするオープンエージェントフレームワークであるAgent Sを提案する。
Agent Sは、ドメイン固有の知識の取得、長いタスクの水平線の計画、動的で一様でないインターフェイスの処理という、コンピュータタスクの自動化における3つの重要な課題に対処することを目指している。
論文 参考訳(メタデータ) (2024-10-10T17:43:51Z) - Gödel Agent: A Self-Referential Agent Framework for Recursive Self-Improvement [117.94654815220404]
G"odel AgentはG"odelマシンにインスパイアされた自己進化型フレームワークである。
G"odel Agentは、パフォーマンス、効率、一般化性において手作業によるエージェントを上回る、継続的な自己改善を実現することができる。
論文 参考訳(メタデータ) (2024-10-06T10:49:40Z) - GenAgent: Build Collaborative AI Systems with Automated Workflow Generation -- Case Studies on ComfyUI [64.57616646552869]
本稿では、モデル、データソース、パイプラインを統合し、複雑で多様なタスクを解決するためにパフォーマンスを向上させるために使用される協調AIシステムについて検討する。
我々は、LLMベースのフレームワークであるGenAgentを紹介した。
その結果、GenAgentは実行レベルおよびタスクレベルの評価においてベースラインアプローチよりも優れていた。
論文 参考訳(メタデータ) (2024-09-02T17:44:10Z) - Agentless: Demystifying LLM-based Software Engineering Agents [12.19683999553113]
Agentless - ソフトウェア開発の問題を自動解決するためのエージェントレスアプローチです。
Agentlessはエージェントベースのアプローチの冗長で複雑な設定と比較すると、ローカライゼーション、修復、パッチ検証の3フェーズプロセスをシンプルに採用している。
人気の高いSWE-bench Liteベンチマークの結果から、Agentlessは驚くほど高いパフォーマンスと低コストを達成できることがわかった。
論文 参考訳(メタデータ) (2024-07-01T17:24:45Z) - EvoAgent: Towards Automatic Multi-Agent Generation via Evolutionary Algorithms [55.77492625524141]
EvoAgentは進化的アルゴリズムによって専門家エージェントをマルチエージェントシステムに自動的に拡張する汎用的な手法である。
EvoAgentは複数の専門家エージェントを自動生成し,LLMエージェントのタスク解決能力を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2024-06-20T11:49:23Z) - SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering [79.07755560048388]
SWEエージェント(SWE-agent)は、LMエージェントが自律的にコンピュータを使用してソフトウェア工学のタスクを解決するシステムである。
SWEエージェントのカスタムエージェントコンピュータインタフェース(ACI)は、エージェントがコードファイルを作成し編集し、リポジトリ全体をナビゲートし、テストやその他のプログラムを実行する能力を著しく向上させる。
我々はSWE-benchとHumanEvalFixのSWE-agentを評価し、それぞれ12.5%と87.7%のパス@1レートで最先端の性能を実現した。
論文 参考訳(メタデータ) (2024-05-06T17:41:33Z) - AgentScope: A Flexible yet Robust Multi-Agent Platform [66.64116117163755]
AgentScopeは、メッセージ交換をコアコミュニケーションメカニズムとする、開発者中心のマルチエージェントプラットフォームである。
豊富な構文ツール、組み込みエージェントとサービス機能、アプリケーションのデモとユーティリティモニタのためのユーザフレンドリなインターフェース、ゼロコードプログラミングワークステーション、自動プロンプトチューニング機構により、開発とデプロイメントの両方の障壁は大幅に低下した。
論文 参考訳(メタデータ) (2024-02-21T04:11:28Z) - CodeAgent: Enhancing Code Generation with Tool-Integrated Agent Systems for Real-World Repo-level Coding Challenges [41.038584732889895]
大規模言語モデル(LLM)は自動コード生成において有望であるが、通常は単純なタスクでのみ優れている。
私たちの研究は、実世界のリポジトリレベルのコード生成という、より現実的な設定でLLMを評価することに向かっています。
我々は,効率的なリポジトリレベルのコード生成に外部ツールを利用する,新しいLLMベースのエージェントフレームワークであるCodeAgentを紹介する。
論文 参考訳(メタデータ) (2024-01-14T18:12:03Z) - GitAgent: Facilitating Autonomous Agent with GitHub by Tool Extension [81.44231422624055]
さまざまなタスクを実行できる外部ツールを備えた大規模言語モデル(LLM)に焦点が当てられている。
本稿では,GitHubから自動ツール拡張を実現するエージェントであるGitAgentを紹介する。
論文 参考訳(メタデータ) (2023-12-28T15:47:30Z) - AutoAgents: A Framework for Automatic Agent Generation [27.74332323317923]
AutoAgentsは、さまざまなタスクに応じてAIチームを構築するために、複数の専門エージェントを適応的に生成し、コーディネートする革新的なフレームワークである。
各種ベンチマーク実験により,AutoAgentsは既存のマルチエージェント手法よりも一貫性と正確な解を生成することが示された。
論文 参考訳(メタデータ) (2023-09-29T14:46:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。