論文の概要: Self-Evolving Multi-Agent Collaboration Networks for Software Development
- arxiv url: http://arxiv.org/abs/2410.16946v1
- Date: Tue, 22 Oct 2024 12:20:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-23 14:29:45.974379
- Title: Self-Evolving Multi-Agent Collaboration Networks for Software Development
- Title(参考訳): ソフトウェア開発のための自己進化型マルチエージェントコラボレーションネットワーク
- Authors: Yue Hu, Yuzhu Cai, Yaxin Du, Xinyu Zhu, Xiangrui Liu, Zijie Yu, Yuchen Hou, Shuo Tang, Siheng Chen,
- Abstract要約: 本稿では,MACネットワークのための新たな自己進化パラダイムであるEvoMACを紹介する。
従来のニューラルネットワークトレーニングにインスパイアされたEvoMACは、テキストベースの環境フィードバックを取得する。
本稿では,要件指向ソフトウェア開発ベンチマークrSDE-Benchを提案する。
- 参考スコア(独自算出の注目度): 32.78667834175446
- License:
- Abstract: LLM-driven multi-agent collaboration (MAC) systems have demonstrated impressive capabilities in automatic software development at the function level. However, their heavy reliance on human design limits their adaptability to the diverse demands of real-world software development. To address this limitation, we introduce EvoMAC, a novel self-evolving paradigm for MAC networks. Inspired by traditional neural network training, EvoMAC obtains text-based environmental feedback by verifying the MAC network's output against a target proxy and leverages a novel textual backpropagation to update the network. To extend coding capabilities beyond function-level tasks to more challenging software-level development, we further propose rSDE-Bench, a requirement-oriented software development benchmark, which features complex and diverse software requirements along with automatic evaluation of requirement correctness. Our experiments show that: i) The automatic requirement-aware evaluation in rSDE-Bench closely aligns with human evaluations, validating its reliability as a software-level coding benchmark. ii) EvoMAC outperforms previous SOTA methods on both the software-level rSDE-Bench and the function-level HumanEval benchmarks, reflecting its superior coding capabilities. The benchmark can be downloaded at https://yuzhu-cai.github.io/rSDE-Bench/.
- Abstract(参考訳): LLM駆動型マルチエージェントコラボレーション(MAC)システムは,機能レベルでのソフトウェア自動開発において,目覚ましい能力を発揮している。
しかしながら、人間設計への強い依存は、現実世界のソフトウェア開発の多様な要求への適応性を制限します。
この制限に対処するために,新しいMACネットワークの自己進化パラダイムであるEvoMACを紹介する。
従来のニューラルネットワークトレーニングにインスパイアされたEvoMACは、MACネットワークの出力をターゲットプロキシに対して検証することで、テキストベースの環境フィードバックを取得し、新たなテキストバックプロパゲーションを活用してネットワークを更新する。
機能レベルのタスクを超えて、より困難なソフトウェア開発まで、コーディング能力を拡張するために、要件指向のソフトウェア開発ベンチマークであるrSDE-Benchを提案する。
私たちの実験は、こう示しています。
i) rSDE-Benchにおける自動要求認識評価は、人間の評価と密接に一致し、その信頼性をソフトウェアレベルのコーディングベンチマークとして検証する。
2EvoMACは、ソフトウェアレベルのrSDE-Benchと関数レベルのHumanEvalベンチマークの両方において、従来のSOTAメソッドよりも優れており、その優れたコーディング能力を反映している。
ベンチマークはhttps://yuzhu-cai.github.io/rSDE-Bench/でダウンロードできる。
関連論文リスト
- SWE-Search: Enhancing Software Agents with Monte Carlo Tree Search and Iterative Refinement [18.84439000902905]
SWE-Searchは、MCTS(Monte Carlo Tree Search)と自己改善機構を統合し、ソフトウェアエージェントのパフォーマンスを向上させるマルチエージェントフレームワークである。
本研究は,複雑でダイナミックなソフトウェア工学環境において,エージェント推論と計画を強化する自己評価型検索技術の可能性を強調した。
論文 参考訳(メタデータ) (2024-10-26T22:45:56Z) - Contextual Augmented Multi-Model Programming (CAMP): A Hybrid Local-Cloud Copilot Framework [8.28588489551341]
本稿では、Retrieval-Augmented Generation(RAG)を用いた局所モデルからなるマルチモデルAI支援プログラミングフレームワークであるCAMPを提案する。
RAGは、コンテキスト認識プロンプト構築を容易にするために、クラウドモデルからコンテキスト情報を取得する。
この方法論は、Appleソフトウェアエコシステム向けに開発されたAI支援プログラミングツールであるCopilot for Xcodeで実現されている。
論文 参考訳(メタデータ) (2024-10-20T04:51:24Z) - Codev-Bench: How Do LLMs Understand Developer-Centric Code Completion? [60.84912551069379]
Code-Development Benchmark (Codev-Bench)は、細粒度で現実世界、リポジトリレベル、開発者中心の評価フレームワークです。
Codev-Agentは、リポジトリのクローリングを自動化し、実行環境を構築し、既存のユニットテストから動的呼び出しチェーンを抽出し、データ漏洩を避けるために新しいテストサンプルを生成するエージェントベースのシステムである。
論文 参考訳(メタデータ) (2024-10-02T09:11:10Z) - Agent-Driven Automatic Software Improvement [55.2480439325792]
本提案は,Large Language Models (LLMs) を利用したエージェントの展開に着目して,革新的なソリューションの探求を目的とする。
継続的学習と適応を可能にするエージェントの反復的性質は、コード生成における一般的な課題を克服するのに役立ちます。
我々は,これらのシステムにおける反復的なフィードバックを用いて,エージェントの基盤となるLLMをさらに微調整し,自動化されたソフトウェア改善のタスクに整合性を持たせることを目指している。
論文 参考訳(メタデータ) (2024-06-24T15:45:22Z) - SOEN-101: Code Generation by Emulating Software Process Models Using Large Language Model Agents [50.82665351100067]
FlowGenは、複数のLarge Language Model (LLM)エージェントに基づいたソフトウェアプロセスモデルをエミュレートするコード生成フレームワークである。
FlowGenScrumをHumanEval、HumanEval-ET、MBPP、MBPP-ETの4つのベンチマークで評価した。
論文 参考訳(メタデータ) (2024-03-23T14:04:48Z) - Self-evolving Autoencoder Embedded Q-Network [9.414875682358085]
本稿では,Q-Network を組み込んだ自己進化型オートエンコーダ SAQN を提案する。
SAQNでは、オートエンコーダアーキテクチャはエージェントが環境を探索する際に適応して進化する。
提案したSAQNは最先端のSAQNよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-02-18T14:42:47Z) - Comparing Software Developers with ChatGPT: An Empirical Investigation [0.0]
本稿では,ChatGPTのようなソフトウェア技術者やAIシステムのパフォーマンスを,さまざまな評価指標で比較した実証的研究を行う。
この論文は、さまざまな評価基準を考慮して、ソフトウェアエンジニアとAIベースのソリューションの包括的な比較が、人間と機械のコラボレーションを促進する上で重要であることを示唆している。
論文 参考訳(メタデータ) (2023-05-19T17:25:54Z) - CodeRL: Mastering Code Generation through Pretrained Models and Deep
Reinforcement Learning [92.36705236706678]
CodeRLは、事前訓練されたLMと深層強化学習によるプログラム合成タスクのための新しいフレームワークである。
推論中、我々は重要なサンプリング戦略を持つ新しい生成手順を導入する。
モデルバックボーンについては,CodeT5のエンコーダデコーダアーキテクチャを拡張し,学習目標を拡張した。
論文 参考訳(メタデータ) (2022-07-05T02:42:15Z) - QTRAN++: Improved Value Transformation for Cooperative Multi-Agent
Reinforcement Learning [70.382101956278]
QTRANは、最大級の共同作用値関数を学習できる強化学習アルゴリズムである。
理論的な保証は強いが、複雑な環境での実証的な性能は劣っている。
そこで我々はQTRAN++という改良版を提案する。
論文 参考訳(メタデータ) (2020-06-22T05:08:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。