論文の概要: CodeAgent: Enhancing Code Generation with Tool-Integrated Agent Systems
for Real-World Repo-level Coding Challenges
- arxiv url: http://arxiv.org/abs/2401.07339v1
- Date: Sun, 14 Jan 2024 18:12:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-17 18:43:48.748588
- Title: CodeAgent: Enhancing Code Generation with Tool-Integrated Agent Systems
for Real-World Repo-level Coding Challenges
- Title(参考訳): CodeAgent: リアルタイムリポジトリレベルのコーディング課題のためのツール統合エージェントシステムによるコード生成の強化
- Authors: Kechi Zhang, Jia Li, Ge Li, Xianjie Shi, Zhi Jin
- Abstract要約: 大規模言語モデル(LLM)は自動コード生成において有望であるが、通常は単純なタスクでのみ優れている。
私たちの研究は、実世界のリポジトリレベルのコード生成という、より現実的な設定でLLMを評価することに向かっています。
我々は,効率的なリポジトリレベルのコード生成に外部ツールを利用する,新しいLLMベースのエージェントフレームワークであるCodeAgentを紹介する。
- 参考スコア(独自算出の注目度): 44.028079593225584
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have shown promise in automated code generation
but typically excel only in simpler tasks such as generating standalone code
units. Real-world software development, however, often involves complex code
repositories (named repo) with complex dependencies and extensive
documentation. To fill this gap, our research pivots towards evaluating LLMs in
a more realistic setting -- real-world repo-level code generation. We introduce
CodeAgentBench, a manually curated benchmark for repo-level code generation.
This benchmark comprises five high-quality Python projects, encompassing a
total of 101 samples. We assess nine leading LLMs on repo-level tasks and
observe a decline in their performance. To tackle this, we present CodeAgent, a
novel LLM-based agent framework that employs external tools for effective
repo-level code generation. CodeAgent integrates five programming tools,
enabling interaction with software artifacts for information retrieval, code
symbol navigation, and code testing. We implement four agent strategies to
optimize these tools' usage. Our experiments on CodeAgentBench show that
CodeAgent enhances LLM performance significantly, with improvements ranging
from 18.1\% to 250\%. Further tests on the HumanEval benchmark confirm
CodeAgent's adaptability and efficacy across various code generation tasks.
Notably, CodeAgent outperforms commercial products like Github Copilot,
showcasing superior accuracy and efficiency. These results demonstrate
CodeAgent's robust capabilities in code generation, highlighting its potential
for real-world repo-level coding challenges.
- Abstract(参考訳): 大規模言語モデル(llm)は自動コード生成において有望であるが、一般的にはスタンドアロンコード単位生成のような単純なタスクでのみ優れている。
しかし、実際のソフトウェア開発には、複雑な依存関係と広範なドキュメントを持つ複雑なコードリポジトリ(リポジトリという名前)が伴うことが多い。
このギャップを埋めるために、我々の研究は、より現実的な、現実世界のリポジトリレベルのコード生成でLLMを評価することに重点を置いています。
我々は,リポジトリレベルのコード生成のための手作業によるベンチマークであるCodeAgentBenchを紹介する。
このベンチマークは、合計101サンプルを含む5つの高品質pythonプロジェクトで構成されている。
我々は,リポジトリレベルのタスクにおいて9つの主要なllmを評価し,その性能の低下を観察した。
そこで本研究では,レポレベルの効率的なコード生成に外部ツールを活用する新しいLLMベースのエージェントフレームワークであるCodeAgentを提案する。
CodeAgentは5つのプログラミングツールを統合し、情報検索、コードシンボルナビゲーション、コードテストのためのソフトウェアアーティファクトとのインタラクションを可能にする。
これらのツールの使用を最適化するための4つのエージェント戦略を実装した。
CodeAgentBenchの実験では、CodeAgentはLLMの性能を大幅に向上させ、18.1\%から250\%に改善した。
HumanEvalベンチマークのさらなるテストでは、さまざまなコード生成タスクに対するCodeAgentの適応性と有効性を確認している。
CodeAgentはGithub Copilotのような商用製品よりも優れており、精度と効率が優れている。
これらの結果は、コード生成におけるcodeagentの堅牢な能力を示し、実際のリポジトリレベルのコーディング課題の可能性を強調している。
関連論文リスト
- RepoAgent: An LLM-Powered Open-Source Framework for Repository-level
Code Documentation Generation [79.83270415843857]
コードドキュメンテーションを積極的に生成、保守、更新することを目的とした、大規模な言語モデルによるオープンソースフレームワークであるRepoAgentを紹介します。
RepoAgentは高品質なリポジトリレベルのドキュメントを生成するのに優れています。
論文 参考訳(メタデータ) (2024-02-26T15:39:52Z) - CodeAgent: Collaborative Agents for Software Engineering [21.094498135928404]
コードレビューのための新しいマルチエージェントベースのシステムであるCodeAgentを紹介する。
CodeAgentは自律的で、マルチエージェントで、大規模言語モデル駆動である。
論文 参考訳(メタデータ) (2024-02-03T14:43:14Z) - CodePori: Large Scale Model for Autonomous Software Development by Using
Multi-Agents [3.8066447473175304]
大規模言語モデル(LLM)とGPT(Generative Pre-trained Transformer)は、ソフトウェア工学(SE)の分野を変えつつある。
本稿では,自然言語のプロンプトに基づく大規模かつ複雑なソフトウェアプロジェクトのコード生成を自動化する新しいモデルであるCodePoriを紹介する。
論文では、CodePoriが大規模なプロジェクトのために実行中のコードを生成し、数時間ではなく数分でソフトウェア開発プロセス全体を完了し、数ドルというコストで実行可能であることを示しています。
論文 参考訳(メタデータ) (2024-02-02T13:42:50Z) - Executable Code Actions Elicit Better LLM Agents [80.81465829575507]
この研究は、Pythonコードを使用して、Large Language Model(LLM)エージェントのアクションを統一されたアクション空間(CodeAct)に統合することを提案する。
Pythonインタプリタと統合されたCodeActは、コードアクションを実行し、事前アクションを動的に修正したり、マルチターンインタラクションを通じて新しい観察に新しいアクションを発行することができる。
CodeActのパフォーマンス向上は、解釈可能なコードを実行し、自然言語を使ってユーザとコラボレーションすることで、環境と対話するオープンソースのLLMエージェントを構築する動機となります。
論文 参考訳(メタデータ) (2024-02-01T21:38:58Z) - GitAgent: Facilitating Autonomous Agent with GitHub by Tool Extension [81.44231422624055]
さまざまなタスクを実行できる外部ツールを備えた大規模言語モデル(LLM)に焦点が当てられている。
本稿では,GitHubから自動ツール拡張を実現するエージェントであるGitAgentを紹介する。
論文 参考訳(メタデータ) (2023-12-28T15:47:30Z) - AgentCoder: Multi-Agent-based Code Generation with Iterative Testing and
Optimisation [11.396924441349263]
本稿では,マルチエージェント・アシスタント・コード生成(AgentCoder)を紹介する。
AgentCoderは,プログラマエージェント,テストデザイナエージェント,テストエグゼクタエージェントという,特殊なエージェントを備えたマルチエージェントフレームワークを備えた,斬新なソリューションだ。
9つのコード生成モデルと12つの拡張アプローチの実験では、既存のコード生成モデルよりもAgentCoderの方が優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2023-12-20T13:22:41Z) - ML-Bench: Large Language Models Leverage Open-source Libraries for
Machine Learning Tasks [75.12666425091702]
大規模な言語モデルは、コード生成ベンチマークで有望なパフォーマンスを示している。
この研究は、LLMがオープンソースのライブラリを使用して機械学習タスクを終了する、新たな評価設定を提案することを目的としている。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z) - Benchmarking Large Language Models As AI Research Agents [105.65277755304277]
我々は,AI研究エージェントをベンチマークするMLタスクスイートであるMLAgentBenchを提案する。
我々は, GPT-4をベースとした研究エージェントが, MLAgentBenchの多くのタスクにおいて, 魅力的なMLモデルを構築できることを発見した。
長期計画や幻覚など,LSMをベースとした研究エージェントにとって重要な課題をいくつか挙げる。
論文 参考訳(メタデータ) (2023-10-05T04:06:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。