論文の概要: CodePori: Large Scale Model for Autonomous Software Development by Using
Multi-Agents
- arxiv url: http://arxiv.org/abs/2402.01411v1
- Date: Fri, 2 Feb 2024 13:42:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-05 15:16:46.613530
- Title: CodePori: Large Scale Model for Autonomous Software Development by Using
Multi-Agents
- Title(参考訳): CodePori: マルチエージェントによる自律ソフトウェア開発のための大規模モデル
- Authors: Zeeshan Rasheed, Muhammad Waseem, Mika Saari, Kari Syst\"a, Pekka
Abrahamsson
- Abstract要約: 大規模言語モデル(LLM)とGPT(Generative Pre-trained Transformer)は、ソフトウェア工学(SE)の分野を変えつつある。
本稿では,自然言語のプロンプトに基づく大規模かつ複雑なソフトウェアプロジェクトのコード生成を自動化する新しいモデルであるCodePoriを紹介する。
論文では、CodePoriが大規模なプロジェクトのために実行中のコードを生成し、数時間ではなく数分でソフトウェア開発プロセス全体を完了し、数ドルというコストで実行可能であることを示しています。
- 参考スコア(独自算出の注目度): 3.8066447473175304
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) and Generative Pre-trained Transformers (GPTs)
are reshaping the field of Software Engineering (SE). Existing LLM-based
multi-agent systems have successfully resolved simple dialogue tasks. However,
the potential of LLMs for more complex tasks, such as automated code generation
for large and complex projects, have been explored in only a few existing
works. This paper introduces CodePori, a novel model designed to automate code
generation for extensive and complex software projects based on natural
language prompts. We employ LLM-based multi-AI agents to handle creative and
challenging tasks in autonomous software development. Each agent engages with a
specific task, including system design, code development, code review, code
verification, and test engineering. We show in the paper that CodePori is able
to generate running code for large-scale projects, completing the entire
software development process in minutes rather than hours, and at a cost of a
few dollars. It identifies and mitigates potential security vulnerabilities and
corrects errors while maintaining a solid code performance level. We also
conducted an evaluation of CodePori against existing solutions using HumanEval
and the Massively Multitask Benchmark for Python (MBPP) benchmark. The results
indicate that CodePori improves upon the benchmarks in terms of code accuracy,
efficiency, and overall performance. For example, CodePori improves the pass@1
metric on HumanEval to 87.5% and on MBPP to 86.5%, representing a clear
improvement over the existing models. We also assessed CodePori's performance
through practitioner evaluations, with 91% expressing satisfaction with the
model's performance.
- Abstract(参考訳): 大規模言語モデル(LLM)と生成事前学習トランスフォーマー(GPT)は、ソフトウェア工学(SE)の分野を変えつつある。
既存のllmベースのマルチエージェントシステムは、単純な対話タスクをうまく解決した。
しかし、大規模で複雑なプロジェクトのコードの自動生成など、より複雑なタスクのためのLLMの可能性は、いくつかの既存の研究で研究されている。
本稿では,自然言語のプロンプトに基づく大規模かつ複雑なソフトウェアプロジェクトのコード生成を自動化する新しいモデルであるCodePoriを紹介する。
LLMベースのマルチAIエージェントを使用して、自律ソフトウェア開発における創造的で困難なタスクを処理します。
各エージェントは、システム設計、コード開発、コードレビュー、コード検証、テストエンジニアリングを含む特定のタスクに従事します。
論文では、CodePoriが大規模なプロジェクトのために実行中のコードを生成し、数時間ではなく数分でソフトウェア開発プロセス全体を完了し、数ドルもすることを示した。
潜在的なセキュリティ脆弱性を特定し、軽減し、堅固なコードパフォーマンスレベルを維持しながらエラーを修正する。
また,HumanEvalとMassively Multitask Benchmark for Python (MBPP)ベンチマークを用いて,既存のソリューションに対するCodePoriの評価を行った。
結果は、コード精度、効率、全体的なパフォーマンスの観点から、CodePoriがベンチマークを改善していることを示している。
例えば、CodePoriはHumanEvalのpass@1メトリックを87.5%、MBPPを86.5%に改善し、既存のモデルよりも明らかに改善されている。
また,CodePoriのパフォーマンスを実践的評価を通じて評価し,91%がモデルの性能に対する満足度を示した。
関連論文リスト
- StepCoder: Improve Code Generation with Reinforcement Learning from
Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。
CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。
FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。
提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-02-02T13:14:31Z) - CodeAgent: Enhancing Code Generation with Tool-Integrated Agent Systems
for Real-World Repo-level Coding Challenges [44.028079593225584]
大規模言語モデル(LLM)は自動コード生成において有望であるが、通常は単純なタスクでのみ優れている。
私たちの研究は、実世界のリポジトリレベルのコード生成という、より現実的な設定でLLMを評価することに向かっています。
我々は,効率的なリポジトリレベルのコード生成に外部ツールを利用する,新しいLLMベースのエージェントフレームワークであるCodeAgentを紹介する。
論文 参考訳(メタデータ) (2024-01-14T18:12:03Z) - AgentCoder: Multi-Agent-based Code Generation with Iterative Testing and
Optimisation [11.396924441349263]
本稿では,マルチエージェント・アシスタント・コード生成(AgentCoder)を紹介する。
AgentCoderは,プログラマエージェント,テストデザイナエージェント,テストエグゼクタエージェントという,特殊なエージェントを備えたマルチエージェントフレームワークを備えた,斬新なソリューションだ。
9つのコード生成モデルと12つの拡張アプローチの実験では、既存のコード生成モデルよりもAgentCoderの方が優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2023-12-20T13:22:41Z) - MAgIC: Investigation of Large Language Model Powered Multi-Agent in
Cognition, Adaptability, Rationality and Collaboration [102.41118020705876]
大規模言語モデル(LLM)は自然言語処理の分野で大きな進歩を遂げている。
アプリケーションがマルチエージェント環境に拡張されるにつれ、包括的な評価フレームワークの必要性が高まっている。
この研究は、マルチエージェント設定内でLLMを評価するために特別に設計された新しいベンチマークフレームワークを導入している。
論文 参考訳(メタデータ) (2023-11-14T21:46:27Z) - CodeFuse-13B: A Pretrained Multi-lingual Code Large Language Model [58.127534002232096]
本稿では,オープンソースの事前学習型LLMであるCodeFuse-13Bを紹介する。
英語と中国語の両方のプロンプトによるコード関連のタスク用に特別に設計されている。
CodeFuseは、高品質な事前トレーニングデータセットを利用することで、その効果を達成する。
論文 参考訳(メタデータ) (2023-10-10T02:38:44Z) - Modeling Parallel Programs using Large Language Models [2.906142380269856]
大規模言語モデル(LLM)が,高性能および科学的コードに特有のタスクにどのように適用できるかを示す。
並列コードで訓練された新しいモデルHPC-Coderを導入する。
論文 参考訳(メタデータ) (2023-06-29T19:44:55Z) - CodeT5+: Open Code Large Language Models for Code Understanding and
Generation [72.1638273937025]
大きな言語モデル (LLM) は膨大なソースコードで事前訓練されており、コードインテリジェンスにおいて顕著な進歩を遂げている。
CodeT5+は、コンポーネントモジュールを柔軟に組み合わせて、幅広い下流のコードタスクに適合させることができるコードのためのエンコーダ-デコーダLLMのファミリーである。
我々は、ゼロショット、微調整、命令調整を含む20以上のコード関連ベンチマークでCodeT5+を広範囲に評価した。
論文 参考訳(メタデータ) (2023-05-13T14:23:07Z) - ReACC: A Retrieval-Augmented Code Completion Framework [53.49707123661763]
本稿では,語彙のコピーと類似したセマンティクスを持つコード参照の両方を検索により活用する検索拡張コード補完フレームワークを提案する。
我々は,Python および Java プログラミング言語のコード補完タスクにおけるアプローチを評価し,CodeXGLUE ベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-03-15T08:25:08Z) - Project CodeNet: A Large-Scale AI for Code Dataset for Learning a
Diversity of Coding Tasks [11.10732802304274]
Project CodeNetは、1400万のコードサンプルと55の異なるプログラミング言語で約5億行のコードで構成されている。
Project CodeNetは、その規模だけでなく、ベンチマークに役立つコーディングタスクの多様性にも特有である。
論文 参考訳(メタデータ) (2021-05-25T00:13:29Z) - Measuring Coding Challenge Competence With APPS [54.22600767666257]
コード生成のベンチマークであるAPPSを紹介する。
私たちのベンチマークには1万の問題が含まれています。
GPT-Neoのような最近のモデルでは、導入問題のテストケースの約15%をパスできる。
論文 参考訳(メタデータ) (2021-05-20T17:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。