論文の概要: CodePori: Large Scale Model for Autonomous Software Development by Using
Multi-Agents
- arxiv url: http://arxiv.org/abs/2402.01411v1
- Date: Fri, 2 Feb 2024 13:42:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-05 15:16:46.613530
- Title: CodePori: Large Scale Model for Autonomous Software Development by Using
Multi-Agents
- Title(参考訳): CodePori: マルチエージェントによる自律ソフトウェア開発のための大規模モデル
- Authors: Zeeshan Rasheed, Muhammad Waseem, Mika Saari, Kari Syst\"a, Pekka
Abrahamsson
- Abstract要約: 大規模言語モデル(LLM)とGPT(Generative Pre-trained Transformer)は、ソフトウェア工学(SE)の分野を変えつつある。
本稿では,自然言語のプロンプトに基づく大規模かつ複雑なソフトウェアプロジェクトのコード生成を自動化する新しいモデルであるCodePoriを紹介する。
論文では、CodePoriが大規模なプロジェクトのために実行中のコードを生成し、数時間ではなく数分でソフトウェア開発プロセス全体を完了し、数ドルというコストで実行可能であることを示しています。
- 参考スコア(独自算出の注目度): 3.8066447473175304
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) and Generative Pre-trained Transformers (GPTs)
are reshaping the field of Software Engineering (SE). Existing LLM-based
multi-agent systems have successfully resolved simple dialogue tasks. However,
the potential of LLMs for more complex tasks, such as automated code generation
for large and complex projects, have been explored in only a few existing
works. This paper introduces CodePori, a novel model designed to automate code
generation for extensive and complex software projects based on natural
language prompts. We employ LLM-based multi-AI agents to handle creative and
challenging tasks in autonomous software development. Each agent engages with a
specific task, including system design, code development, code review, code
verification, and test engineering. We show in the paper that CodePori is able
to generate running code for large-scale projects, completing the entire
software development process in minutes rather than hours, and at a cost of a
few dollars. It identifies and mitigates potential security vulnerabilities and
corrects errors while maintaining a solid code performance level. We also
conducted an evaluation of CodePori against existing solutions using HumanEval
and the Massively Multitask Benchmark for Python (MBPP) benchmark. The results
indicate that CodePori improves upon the benchmarks in terms of code accuracy,
efficiency, and overall performance. For example, CodePori improves the pass@1
metric on HumanEval to 87.5% and on MBPP to 86.5%, representing a clear
improvement over the existing models. We also assessed CodePori's performance
through practitioner evaluations, with 91% expressing satisfaction with the
model's performance.
- Abstract(参考訳): 大規模言語モデル(LLM)と生成事前学習トランスフォーマー(GPT)は、ソフトウェア工学(SE)の分野を変えつつある。
既存のllmベースのマルチエージェントシステムは、単純な対話タスクをうまく解決した。
しかし、大規模で複雑なプロジェクトのコードの自動生成など、より複雑なタスクのためのLLMの可能性は、いくつかの既存の研究で研究されている。
本稿では,自然言語のプロンプトに基づく大規模かつ複雑なソフトウェアプロジェクトのコード生成を自動化する新しいモデルであるCodePoriを紹介する。
LLMベースのマルチAIエージェントを使用して、自律ソフトウェア開発における創造的で困難なタスクを処理します。
各エージェントは、システム設計、コード開発、コードレビュー、コード検証、テストエンジニアリングを含む特定のタスクに従事します。
論文では、CodePoriが大規模なプロジェクトのために実行中のコードを生成し、数時間ではなく数分でソフトウェア開発プロセス全体を完了し、数ドルもすることを示した。
潜在的なセキュリティ脆弱性を特定し、軽減し、堅固なコードパフォーマンスレベルを維持しながらエラーを修正する。
また,HumanEvalとMassively Multitask Benchmark for Python (MBPP)ベンチマークを用いて,既存のソリューションに対するCodePoriの評価を行った。
結果は、コード精度、効率、全体的なパフォーマンスの観点から、CodePoriがベンチマークを改善していることを示している。
例えば、CodePoriはHumanEvalのpass@1メトリックを87.5%、MBPPを86.5%に改善し、既存のモデルよりも明らかに改善されている。
また,CodePoriのパフォーマンスを実践的評価を通じて評価し,91%がモデルの性能に対する満足度を示した。
関連論文リスト
- OpenCoder: The Open Cookbook for Top-Tier Code Large Language Models [70.72097493954067]
コードのための大規模言語モデル(LLM)は、コード生成、推論、タスク、エージェントシステムなど、さまざまな領域で必須になっている。
トップクラスのコードLLMであるOpenCoderは、主要なモデルに匹敵するパフォーマンスを達成するだけでなく、研究コミュニティの'オープンクックブック'として機能します。
論文 参考訳(メタデータ) (2024-11-07T17:47:25Z) - Large Language Models as Code Executors: An Exploratory Study [29.545321608864295]
本稿では,Large Language Models (LLM) をコードエグゼキュータとして探索する。
OpenAIのo1、GPT-4o、GPT-3.5、DeepSeek、Qwen-Coderなど、さまざまなLLMでこの実現可能性を調べています。
我々は,コードスニペットを行単位で処理し,弱いモデルの精度を平均7.22%向上させるIIP(Iterative Instruction Prompting)技術を導入する。
論文 参考訳(メタデータ) (2024-10-09T08:23:22Z) - Codev-Bench: How Do LLMs Understand Developer-Centric Code Completion? [60.84912551069379]
Code-Development Benchmark (Codev-Bench)は、細粒度で現実世界、リポジトリレベル、開発者中心の評価フレームワークです。
Codev-Agentは、リポジトリのクローリングを自動化し、実行環境を構築し、既存のユニットテストから動的呼び出しチェーンを抽出し、データ漏洩を避けるために新しいテストサンプルを生成するエージェントベースのシステムである。
論文 参考訳(メタデータ) (2024-10-02T09:11:10Z) - RGD: Multi-LLM Based Agent Debugger via Refinement and Generation Guidance [0.6062751776009752]
大規模言語モデル(LLM)は、コード生成タスクにおいて驚くべきポテンシャルを示しています。
LLMはタスク記述に基づいてコードを生成することができるが、精度は限られている。
コード生成と自動デバッグのためのLLMエージェントの新しいアーキテクチャ:Refinement and Guidancebug (RGD)を紹介する。
RGDはコード生成タスクを複数のステップに分割し、より明確なワークフローを確保し、自己回帰とフィードバックに基づいた反復的なコード改善を可能にする。
論文 参考訳(メタデータ) (2024-10-02T05:07:02Z) - A Survey on Evaluating Large Language Models in Code Generation Tasks [30.256255254277914]
本稿では,コード生成タスクにおけるLarge Language Models (LLMs) の性能評価に使用される現在の手法と指標について概説する。
自動ソフトウェア開発の需要が急速に増加し、LLMはコード生成の分野で大きな可能性を示してきた。
論文 参考訳(メタデータ) (2024-08-29T12:56:06Z) - Agent-Driven Automatic Software Improvement [55.2480439325792]
本提案は,Large Language Models (LLMs) を利用したエージェントの展開に着目して,革新的なソリューションの探求を目的とする。
継続的学習と適応を可能にするエージェントの反復的性質は、コード生成における一般的な課題を克服するのに役立ちます。
我々は,これらのシステムにおける反復的なフィードバックを用いて,エージェントの基盤となるLLMをさらに微調整し,自動化されたソフトウェア改善のタスクに整合性を持たせることを目指している。
論文 参考訳(メタデータ) (2024-06-24T15:45:22Z) - A Survey on Large Language Models for Code Generation [9.555952109820392]
大規模言語モデル(LLM)は、様々なコード関連のタスクで顕著な進歩を遂げています。
本調査は、総合的かつ最新の文献レビューを提供することで、学界と実践的発展のギャップを埋めることを目的としている。
論文 参考訳(メタデータ) (2024-06-01T17:48:15Z) - InfiBench: Evaluating the Question-Answering Capabilities of Code Large Language Models [56.723509505549536]
InfiBenchは、私たちの知識に合ったコードのための、最初の大規模フリーフォーム質問回答(QA)ベンチマークです。
慎重に選択された234の高品質なStack Overflow質問で構成されており、15のプログラミング言語にまたがっている。
InfiBench上で100以上の最新のコードLLMに対して,系統的評価を行い,新しい知見と洞察に富んだ結果を得た。
論文 参考訳(メタデータ) (2024-03-11T02:06:30Z) - StepCoder: Improve Code Generation with Reinforcement Learning from
Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。
CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。
FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。
提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-02-02T13:14:31Z) - CodeTF: One-stop Transformer Library for State-of-the-art Code LLM [72.1638273937025]
我々は、最先端のCode LLMとコードインテリジェンスのためのオープンソースのTransformerベースのライブラリであるCodeTFを紹介する。
我々のライブラリは、事前訓練されたコードLLMモデルと人気のあるコードベンチマークのコレクションをサポートします。
CodeTFが機械学習/生成AIとソフトウェア工学のギャップを埋められることを願っている。
論文 参考訳(メタデータ) (2023-05-31T05:24:48Z) - Execution-based Code Generation using Deep Reinforcement Learning [8.085533911328577]
PPOCoderは、事前訓練されたPLモデルとプロキシポリシー最適化を組み合わせた、コード生成のための新しいフレームワークである。
PPOCoderは、外部コード固有の知識をモデル最適化プロセスにシームレスに統合する。
PPOCoderはタスクに依存しない、モデルに依存しないフレームワークで、さまざまなコード生成タスクやPLで使用できます。
論文 参考訳(メタデータ) (2023-01-31T18:02:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。