Fugu-MT 論文翻訳(概要): SOEN-101: Code Generation by Emulating Software Process Models Using Large Language Model Agents

論文の概要: SOEN-101: Code Generation by Emulating Software Process Models Using Large Language Model Agents

arxiv url: http://arxiv.org/abs/2403.15852v2
Date: Thu, 31 Oct 2024 14:43:58 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:31.526117
Title: SOEN-101: Code Generation by Emulating Software Process Models Using Large Language Model Agents
Title（参考訳）: SOEN-101:大規模言語モデルエージェントを用いたソフトウェアプロセスモデルのエミュレートによるコード生成
Authors: Feng Lin, Dong Jae Kim, Tse-Husn, Chen,
Abstract要約: FlowGenは、複数のLarge Language Model (LLM)エージェントに基づいたソフトウェアプロセスモデルをエミュレートするコード生成フレームワークである。 FlowGenScrumをHumanEval、HumanEval-ET、MBPP、MBPP-ETの4つのベンチマークで評価した。
参考スコア（独自算出の注目度）: 50.82665351100067
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Software process models are essential to facilitate collaboration and communication among software teams to solve complex development tasks. Inspired by these software engineering practices, we present FlowGen - a code generation framework that emulates software process models based on multiple Large Language Model (LLM) agents. We emulate three process models, FlowGenWaterfall, FlowGenTDD, and FlowGenScrum, by assigning LLM agents to embody roles (i.e., requirement engineer, architect, developer, tester, and scrum master) that correspond to everyday development activities and organize their communication patterns. The agents work collaboratively using chain-of-thought and prompt composition with continuous self-refinement to improve the code quality. We use GPT3.5 as our underlying LLM and several baselines (RawGPT, CodeT, Reflexion) to evaluate code generation on four benchmarks: HumanEval, HumanEval-ET, MBPP, and MBPP-ET. Our findings show that FlowGenScrum excels compared to other process models, achieving a Pass@1 of 75.2, 65.5, 82.5, and 56.7 in HumanEval, HumanEval-ET, MBPP, and MBPP-ET, respectively (an average of 15% improvement over RawGPT). Compared with other state-of-the-art techniques, FlowGenScrum achieves a higher Pass@1 in MBPP compared to CodeT, with both outperforming Reflexion. Notably, integrating CodeT into FlowGenScrum resulted in statistically significant improvements, achieving the highest Pass@1 scores. Our analysis also reveals that the development activities impacted code smell and exception handling differently, with design and code review adding more exception handling and reducing code smells. Finally, FlowGen models maintain stable Pass@1 scores across GPT3.5 versions and temperature values, highlighting the effectiveness of software process models in enhancing the quality and stability of LLM-generated code.
Abstract（参考訳）: ソフトウェアプロセスモデルは、複雑な開発タスクを解決するために、ソフトウェアチーム間のコラボレーションとコミュニケーションを促進するために不可欠です。ソフトウェアエンジニアリングのプラクティスに触発されたFlowGenは、複数のLarge Language Model(LLM)エージェントに基づいたソフトウェアプロセスモデルをエミュレートするコード生成フレームワークです。 FlowGenWaterfall(リンク)、FlowGenTDD(リンク)、FlowGenScrum(リンク)の3つのプロセスモデルをエミュレートします。エージェントは、チェーン・オブ・シントを使って協調して働き、コード品質を改善するために、連続的な自己リファインメントによる構成を促します。我々は、GPT3.5を基盤となるLLMといくつかのベースライン(RawGPT、CodeT、Reflexion)として、HumanEval、HumanEval-ET、MBPP、MBPP-ETの4つのベンチマークでコード生成を評価する。その結果,FlowGenScrumは,HumanEval,HumanEval-ET,MBPP,MBPP-ETにおいて,Pass@1の75.2,65.5,82.5,56.7(RawGPTよりも平均15%改善)を達成した。他の最先端技術と比較すると、FlowGenScrumは、CodeTと比較してMBPPのPass@1が高く、どちらもReflexionよりも優れています。特に、CodeTをFlowGenScrumに統合すると、統計学的に大幅に改善され、Pass@1スコアが最高になった。私たちの分析では、開発活動がコードの臭いや例外の扱いに異なる影響を与え、設計やコードレビューが例外の扱いを増やし、コードの臭いを減らしたことも示しています。最後に、FlowGenモデルは、GPT3.5バージョンと温度値で安定したPass@1スコアを維持し、LCM生成コードの品質と安定性を向上させるためのソフトウェアプロセスモデルの有効性を強調している。

関連論文リスト

GenPRM: Scaling Test-Time Compute of Process Reward Models via Generative Reasoning [35.429904556288996]
我々は、コード検証を伴う明示的なChain-of-Thought(CoT)推論を行う生成プロセス報酬モデルGenPRMを紹介する。実験の結果,GenPRMはMATHデータセットから23Kのトレーニングデータしか得られず,従来のPRMよりも有意に優れていた。
論文参考訳（メタデータ） (2025-04-01T15:21:05Z)
Collab: Controlled Decoding using Mixture of Agents for LLM Alignment [90.6117569025754]
人間のフィードバックからの強化学習は、大規模言語モデルを整合させる効果的な手法として現れてきた。制御された復号化は、再訓練せずに推論時にモデルを整列するメカニズムを提供する。本稿では,既存の既成のLCMポリシを活用するエージェントベースのデコーディング戦略の混合を提案する。
論文参考訳（メタデータ） (2025-03-27T17:34:25Z)
ComfyGPT: A Self-Optimizing Multi-Agent System for Comprehensive ComfyUI Workflow Generation [71.31634636156384]
タスク記述に基づいてComfyUIを生成するように設計された,最初の自己最適化型マルチエージェントシステムであるComfyGPTを紹介する。 ComfyGPTは、ReformatAgent、FlowAgent、RefineAgent、ExecuteAgentの4つの特殊エージェントで構成されている。 FlowDatasetは、13,571のワークフロー記述ペアを含む大規模なデータセットであり、FlowBenchはワークフロー生成システムを評価するためのベンチマークである。
論文参考訳（メタデータ） (2025-03-22T06:48:50Z)
UnitCoder: Scalable Iterative Code Synthesis with Unit Test Guidance [65.01483640267885]
大きな言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示してきたが、コード生成は依然として大きな課題である。私たちは、モデル生成ユニットテストを活用してコード生成プロセスのガイドと検証を行う、システマティックパイプラインであるUnitCoderを紹介します。我々の研究は、モデル生成単体テストを利用して、事前学習コーパスから高品質なコードデータの合成を誘導するスケーラブルなアプローチを提案する。
論文参考訳（メタデータ） (2025-02-17T05:37:02Z)
A Progressive Transformer for Unifying Binary Code Embedding and Knowledge Transfer [15.689556592544667]
本稿では,バイナリコード埋め込みのための新しいトランスフォーマーベースの手法であるProTSTを紹介する。 ProTSTは、独特の木のような構造に基づく階層的なトレーニングプロセスを採用している。その結果, ProTSTは従来の2段階トレーニングに比べて14.8%改善した(F1, MRR, Recall@1)。
論文参考訳（メタデータ） (2024-12-15T13:04:29Z)
Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文参考訳（メタデータ） (2024-11-21T02:30:53Z)
Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。 In-Context Learning (ICL) など。効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。下流タスクへのLLM。我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文参考訳（メタデータ） (2024-09-30T10:48:20Z)
Think-on-Process: Dynamic Process Generation for Collaborative Development of Multi-Agent System [13.65717444483291]
ToP (Think-on-Process) はソフトウェア開発のための動的プロセス生成フレームワークである。本フレームワークはGPT-3.5とGPT-4の動的プロセス生成能力を著しく向上させる。
論文参考訳（メタデータ） (2024-09-10T15:02:34Z)
GenAgent: Build Collaborative AI Systems with Automated Workflow Generation -- Case Studies on ComfyUI [64.57616646552869]
本稿では、モデル、データソース、パイプラインを統合し、複雑で多様なタスクを解決するためにパフォーマンスを向上させるために使用される協調AIシステムについて検討する。我々は、LLMベースのフレームワークであるGenAgentを紹介した。その結果、GenAgentは実行レベルおよびタスクレベルの評価においてベースラインアプローチよりも優れていた。
論文参考訳（メタデータ） (2024-09-02T17:44:10Z)
ITERTL: An Iterative Framework for Fine-tuning LLMs for RTL Code Generation [9.409062607311528]
大規模言語モデル(LLM)は優れた性能を示しており、研究者はレジスタ転送レベル(RTL)コード生成の自動化に利用することを模索している。 RTL生成のためのファインチューンLSMへの既存のアプローチは、通常、固定データセット上で実行される。 ITERTLと呼ばれる反復的なトレーニングパラダイムを導入し、これらの問題を緩和する。我々のモデルは GPT4 と State-of-the-art (SOTA) のオープンソースモデルより優れており、VerilogEval- Human ベンチマークでは 53.8% のパス@1 レートを達成した。
論文参考訳（メタデータ） (2024-06-28T01:44:57Z)
LLM-Based Test-Driven Interactive Code Generation: User Study and Empirical Evaluation [13.800675921118348]
本稿では,ガイド付き意図明確化のための対話型ワークフローTiCoderを提案する。コード生成精度を向上させるためのワークフローの有効性を実証的に評価する。我々は,5つのユーザインタラクション内において,データセットと全LLMのパス@1コード生成精度が平均45.97%向上したことを観察した。
論文参考訳（メタデータ） (2024-04-15T19:16:32Z)
AgentCoder: Multi-Agent-based Code Generation with Iterative Testing and Optimisation [11.155351560550853]
本稿では,マルチエージェント・アシスタント・コード生成(AgentCoder)を紹介する。 AgentCoderは,プログラマエージェント,テストデザイナエージェント,テストエグゼクタエージェントという,特殊なエージェントを備えたマルチエージェントフレームワークを備えた,斬新なソリューションだ。 9つのコード生成モデルと12つの拡張アプローチの実験では、既存のコード生成モデルよりもAgentCoderの方が優れたパフォーマンスを示している。
論文参考訳（メタデータ） (2023-12-20T13:22:41Z)
LLM-Assisted Code Cleaning For Training Accurate Code Generators [53.087019724256606]
コードの品質を調査した結果,より構造化され,読みやすくなれば,コード生成性能が向上することがわかった。私たちは、これらの原則を使って既存のプログラムを変換する、新しいデータクリーニングパイプラインを構築します。提案手法を2つのアルゴリズムコード生成ベンチマークで評価した結果,微調整のCodeLLaMa-7Bでは,元のデータセットの微調整に比べて最大30%性能が向上していることがわかった。
論文参考訳（メタデータ） (2023-11-25T02:45:50Z)
Execution-based Code Generation using Deep Reinforcement Learning [8.085533911328577]
PPOCoderは、事前訓練されたPLモデルとプロキシポリシー最適化を組み合わせた、コード生成のための新しいフレームワークである。 PPOCoderは、外部コード固有の知識をモデル最適化プロセスにシームレスに統合する。 PPOCoderはタスクに依存しない、モデルに依存しないフレームワークで、さまざまなコード生成タスクやPLで使用できます。
論文参考訳（メタデータ） (2023-01-31T18:02:26Z)
CodeRL: Mastering Code Generation through Pretrained Models and Deep Reinforcement Learning [92.36705236706678]
CodeRLは、事前訓練されたLMと深層強化学習によるプログラム合成タスクのための新しいフレームワークである。推論中、我々は重要なサンプリング戦略を持つ新しい生成手順を導入する。モデルバックボーンについては,CodeT5のエンコーダデコーダアーキテクチャを拡張し,学習目標を拡張した。
論文参考訳（メタデータ） (2022-07-05T02:42:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。