論文の概要: Evaluating Software Process Models for Multi-Agent Class-Level Code Generation
- arxiv url: http://arxiv.org/abs/2511.09794v1
- Date: Fri, 14 Nov 2025 01:10:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.491895
- Title: Evaluating Software Process Models for Multi-Agent Class-Level Code Generation
- Title(参考訳): マルチエージェントクラスレベルコード生成のためのソフトウェアプロセスモデルの評価
- Authors: Wasique Islam Shafin, Md Nakhla Rafi, Zhenhao Li, Tse-Hsun Chen,
- Abstract要約: 大規模言語モデル(LLM)は、ソフトウェア開発の自動化にますます使われています。
本研究では,クラスレベルのコード生成のためのプロセス構造とロール形状のマルチエージェント特殊化について検討する。
- 参考スコア(独自算出の注目度): 5.545076518491288
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern software systems require code that is not only functional but also maintainable and well-structured. Although Large Language Models (LLMs) are increasingly used to automate software development, most studies focus on isolated, single-agent function-level generation. This work examines how process structure and role specialization shape multi-agent LLM workflows for class-level code generation. We simulate a Waterfall-style development cycle covering Requirement, Design, Implementation, and Testing using three LLMs (GPT-4o-mini, DeepSeek-Chat, and Claude-3.5-Haiku) on 100 Python tasks from the ClassEval benchmark. Our findings show that multi-agent workflows reorganize, rather than consistently enhance, model performance. Waterfall-style collaboration produces cleaner and more maintainable code but often reduces functional correctness (-37.8\% for GPT-4o-mini and -39.8\% for DeepSeek-Chat), with Claude-3.5-Haiku as a notable exception (+9.5\%). Importantly, process constraints shift failure characteristics: structural issues such as missing code decrease, while semantic and validation errors become more frequent. Among all stages, Testing exerts the strongest influence by improving verification coverage but also introducing new reasoning failures, whereas Requirement and Design have comparatively modest effects. Overall, this study provides empirical evidence that software process structure fundamentally alters how LLMs reason, collaborate, and fail, revealing inherent trade-offs between rigid workflow discipline and flexible problem-solving in multi-agent code generation.
- Abstract(参考訳): 現代のソフトウェアシステムには、機能的だけでなく、保守性があり、十分に構造化されたコードが必要である。
大規模言語モデル(LLM)はソフトウェア開発の自動化にますます使われていますが、ほとんどの研究は独立した単一エージェント関数レベルの生成に重点を置いています。
本研究では,クラスレベルのコード生成のためのプロセス構造と役割特化形状のマルチエージェントLLMワークフローについて検討する。
クラスEvalベンチマークから,100のPythonタスク上で3つのLLM(GPT-4o-mini, DeepSeek-Chat, Claude-3.5-Haiku)を用いて,要求,設計,実装,テストをカバーするウォーターフォールスタイルの開発サイクルをシミュレートする。
この結果から,マルチエージェントワークフローがモデル性能を継続的に向上するのではなく,再編成されることが示唆された。
ウォーターフォールスタイルのコラボレーションはよりクリーンでメンテナンスしやすいコードを生成するが、機能的正しさ(GPT-4o-miniでは-37.8\%、DeepSeek-Chatでは-39.8\%)を減らし、Claude-3.5-Haikuを例外(+9.5\%)とする。
重要なのは、プロセスの制約が障害特性を変えることだ。コードの欠落などの構造上の問題が少なくなり、セマンティックなエラーや検証エラーが頻繁に発生する。
あらゆる段階において、テストは検証カバレッジを改善しながら、新たな推論失敗を導入することで、最も強い影響を与える一方、要求と設計は比較的穏やかな効果を持っている。
全体として、本研究では、ソフトウェアプロセス構造がLCMの理性、協力、失敗の仕方を根本的に変えるという実証的な証拠を提供し、厳密なワークフローの規律とマルチエージェントコード生成における柔軟な問題解決との間の固有のトレードオフを明らかにする。
関連論文リスト
- Lifecycle-Aware code generation: Leveraging Software Engineering Phases in LLMs [12.70863561286374]
トレーニング段階と推論段階の両方に中間アーティファクトを組み込んだライフサイクル対応フレームワークを導入する。
実験によると、ライフサイクルレベルの微調整は、微調整の前に同じモデルで最大75%の精度でコードの正しさを向上させる。
オープンソース LLM は、かつて私たちのフレームワークの下で微調整され、コードで事前訓練されたモデルにマッチするか、わずかに優れています。
論文 参考訳(メタデータ) (2025-10-28T02:54:02Z) - Benchmarking Correctness and Security in Multi-Turn Code Generation [41.75392001830794]
MTSecは,マルチターン符号化シナリオにおける正当性とセキュリティを評価する最初のベンチマークである。
MT-Secでは32のオープンソースモデルとクローズドソースモデルと3つのエージェントスキャフォールディングを評価した。
エージェント生成スキャフォールディングは単一ターンコード生成性能を高めるが,マルチターン評価にはあまり有効ではないことがわかった。
論文 参考訳(メタデータ) (2025-10-13T01:20:46Z) - Evaluating Classical Software Process Models as Coordination Mechanisms for LLM-Based Software Generation [4.583390874772685]
本研究では,Large Language Model (LLM) ベースのMASのための協調足場として,従来のソフトウェア開発プロセスをどのように適応させるかを検討する。
3つのプロセスモデルと4つのGPT変種の下で11の多様なソフトウェアプロジェクトを実行し、合計132回の実行を行いました。
プロセスモデルとLLMの選択はシステム性能に大きく影響した。
ウォーターフォールは最も効率的で、Vモデルが最も冗長なコードを生成し、アジャイルは最高のコード品質を達成しました。
論文 参考訳(メタデータ) (2025-09-17T13:11:49Z) - Benchmarking Agentic Workflow Generation [80.74757493266057]
複数面シナリオと複雑なグラフワークフロー構造を備えた統合ワークフロー生成ベンチマークであるWorfBenchを紹介する。
また,サブシーケンスとサブグラフマッチングアルゴリズムを利用したシステム評価プロトコルWorfEvalを提案する。
我々は、生成されたタスクが下流のタスクを強化し、推論中により少ない時間で優れたパフォーマンスを達成することを観察する。
論文 参考訳(メタデータ) (2024-10-10T12:41:19Z) - What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [92.62952504133926]
本研究は,3つの一般的なベンチマーク上で,3つの主要なクローズドソースLLMと6つの人気のあるオープンソースLLMの性能評価を行った。
間違ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析した。
本稿では,自己批判を導入し,LLMが生成したコードに対する批判と修正を可能にする,新たな学習自由反復手法を提案する。
論文 参考訳(メタデータ) (2024-07-08T17:27:17Z) - SOEN-101: Code Generation by Emulating Software Process Models Using Large Language Model Agents [50.82665351100067]
FlowGenは、複数のLarge Language Model (LLM)エージェントに基づいたソフトウェアプロセスモデルをエミュレートするコード生成フレームワークである。
FlowGenScrumをHumanEval、HumanEval-ET、MBPP、MBPP-ETの4つのベンチマークで評価した。
論文 参考訳(メタデータ) (2024-03-23T14:04:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。