Fugu-MT 論文翻訳(概要): Towards Realistic Project-Level Code Generation via Multi-Agent Collaboration and Semantic Architecture Modeling

論文の概要: Towards Realistic Project-Level Code Generation via Multi-Agent Collaboration and Semantic Architecture Modeling

arxiv url: http://arxiv.org/abs/2511.03404v1
Date: Wed, 05 Nov 2025 12:12:35 GMT
ステータス: 翻訳完了
システム内更新日: 2025-11-06 18:19:32.419436
Title: Towards Realistic Project-Level Code Generation via Multi-Agent Collaboration and Semantic Architecture Modeling
Title（参考訳）: マルチエージェントコラボレーションとセマンティックアーキテクチャモデリングによるリアルなプロジェクトレベルコード生成に向けて
Authors: Qianhui Zhao, Li Zhang, Fang Liu, Junhang Cheng, Chengru Wu, Junchen Ai, Qiaoyuanhe Meng, Lichen Zhang, Xiaoli Lian, Shubin Song, Yuanping Guo,
Abstract要約: CodeProjectEvalは、12.7ファイルと2,388.6行のタスクを持つ18の現実世界リポジトリから構築されたプロジェクトレベルのコード生成データセットである。プロジェクトをアーキテクチャ設計、スケルトン生成、コードフィリングステージに分解するマルチエージェントフレームワークであるProjectGenを提案する。実験によると、ProjectGenは、52/124のテストケースを小さなプロジェクトレベルのコード生成データセットDevBenchに渡すことで、最先端のパフォーマンスを実現している。
参考スコア（独自算出の注目度）: 7.753074942497876
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In recent years, Large Language Models (LLMs) have achieved remarkable progress in automated code generation. In real-world software engineering, the growing demand for rapid iteration and continuous delivery underscores the importance of project-level code generation, where LLMs are expected to generate complete software projects directly from complex user requirements. Although existing studies have made initial explorations, they still face key limitations, including unrealistic datasets and unreliable evaluation metrics that fail to reflect real-world complexity, the semantic gap between human-written requirements and machine-interpretable structures, and difficulties in managing hierarchical dependencies and maintaining quality throughout the generation process. To address these limitations, we first introduce CodeProjectEval, a project-level code generation dataset built from 18 real-world repositories with 12.7 files and 2,388.6 lines of code per task on average, supplemented with documentation and executable test cases for automatic evaluation. We further propose ProjectGen, a multi-agent framework that decomposes projects into architecture design, skeleton generation, and code filling stages with iterative refinement and memory-based context management. Within this framework, we introduce the Semantic Software Architecture Tree (SSAT), a structured and semantically rich representation that effectively bridges user requirements and source code implementation. Experiments show that ProjectGen achieves state-of-the-art performance, passing 52/124 test cases on the small-scale project-level code generation dataset DevBench, a 57% improvement over the baseline approaches, and 310 test cases on CodeProjectEval, representing an improvement of roughly tenfold compared to the baselines.
Abstract（参考訳）: 近年、LLM(Large Language Models)は自動コード生成において顕著な進歩を遂げている。現実世界のソフトウェアエンジニアリングでは、迅速なイテレーションと継続的デリバリの需要の増加が、LCMが複雑なユーザ要件からソフトウェアプロジェクトを直接生成することが期待されるプロジェクトレベルのコード生成の重要性を浮き彫りにしている。既存の研究は、初期の調査を行ったが、現実の複雑さを反映できない非現実的なデータセットや信頼性の低い評価指標、人間の記述した要求と機械解釈可能な構造の間のセマンティックなギャップ、階層的な依存関係の管理と生成プロセスにおける品質維持の難しさなど、重要な制限に直面している。この制限に対処するために、まずCodeProjectEvalを紹介した。これは、12.7ファイルと2,388.6行のタスク毎のコードを含む18の現実世界リポジトリから構築されたプロジェクトレベルのコード生成データセットで、自動評価のためにドキュメントと実行可能なテストケースが補足されている。さらに,プロジェクトをアーキテクチャ設計,スケルトン生成,コードフィリングステージに分割し,反復的な改善とメモリベースのコンテキスト管理を行うマルチエージェントフレームワークであるProjectGenを提案する。本フレームワークでは,ユーザ要求とソースコード実装を効果的に橋渡しする構造的かつ意味的にリッチな表現であるSemantic Software Architecture Tree (SSAT)を導入する。実験によると、ProjectGenは、小規模なプロジェクトレベルのコード生成データセットであるDevBenchで52/124のテストケースをパスし、ベースラインアプローチよりも57%改善し、CodeProjectEvalで310のテストケースをパスし、ベースラインと比べて約10倍改善した。

関連論文リスト

Retrieval-Augmented Code Generation: A Survey with Focus on Repository-Level Approaches [6.740646039135986]
Retrieval-Augmented Generation (RAG) は、LLMと外部検索機構を統合する強力なパラダイムとして登場した。リポジトリレベルのアプローチを重視したRACG(Retrieval-Augmented Code Generation)の研究を包括的にレビューする。私たちのゴールは、この急速に進化する分野を理解するための統合分析フレームワークを確立し、AIによるソフトウェア工学の継続的な進歩を刺激することです。
論文参考訳（メタデータ） (2025-10-06T15:20:03Z)
LoCoBench: A Benchmark for Long-Context Large Language Models in Complex Software Engineering [85.58151741052616]
LoCoBenchは、現実的で複雑なソフトウェア開発シナリオにおいて、長いコンテキストのLLMを評価するために特別に設計されたベンチマークである。ベンチマークでは,10言語にまたがって8000の評価シナリオを体系的に生成する。 LoCoBenchは8つのタスクカテゴリを導入し、重要なコンテキスト理解機能をキャプチャしている。
論文参考訳（メタデータ） (2025-09-11T16:55:04Z)
Dynamic Benchmark Construction for Evaluating Large Language Models on Real-World Codes [33.80591142965565]
CODE2BENCHは、実世界のGitHubリポジトリから、堅牢で汚染に強いベンチマークを動的に構築するためのパイプラインである。特に、CODE2BENCHは、(1) トレーニングデータの汚染を最小限に抑えるために、最近のコードの周期的取り込みによって達成される自動ダイナミズム、(2) 依存レベルの制御されたベンチマークインスタンスへの関数の構造化可能なスコープグラフベースの依存性分析、(3) 厳密なテストスイートの自動合成のためのプロパティベーステスト(PBT)の3つの重要なイノベーションを紹介している。
論文参考訳（メタデータ） (2025-08-10T05:06:36Z)
DesignCoder: Hierarchy-Aware and Self-Correcting UI Code Generation with Large Language Models [17.348284143568282]
DesignCoderは、階層的かつ自己修正の自動化コード生成フレームワークである。複雑なネストUI階層を理解し予測するMLLMの能力を向上するUI Grouping Chainsを導入する。また、生成したコードのエラーを特定し、修正するモデルの能力を改善するための自己補正機構も組み込んでいます。
論文参考訳（メタデータ） (2025-06-16T16:20:43Z)
Paper2Code: Automating Code Generation from Scientific Papers in Machine Learning [70.04746094652653]
機械学習論文を機能コードリポジトリに変換するフレームワークであるPaperCoderを紹介した。 PaperCoderは3つの段階で動作する。計画、図によるシステムアーキテクチャの設計、ファイル依存の特定、構成ファイルの生成である。次に、モデルベースおよび人的評価の両方に基づいて、機械学習論文からコード実装を生成するPaperCoderを評価する。
論文参考訳（メタデータ） (2025-04-24T01:57:01Z)
Empowering AI to Generate Better AI Code: Guided Generation of Deep Learning Projects with LLMs [4.616570111453259]
大規模言語モデル(LLM)は、ディープラーニングプロジェクト全体の生成に苦労する。本稿では,ディープラーニングプロジェクトを生成するための新しい計画誘導型コード生成手法DLCodeGenを提案する。
論文参考訳（メタデータ） (2025-04-21T13:09:25Z)
Codev-Bench: How Do LLMs Understand Developer-Centric Code Completion? [60.84912551069379]
Code-Development Benchmark (Codev-Bench)は、細粒度で現実世界、リポジトリレベル、開発者中心の評価フレームワークです。 Codev-Agentは、リポジトリのクローリングを自動化し、実行環境を構築し、既存のユニットテストから動的呼び出しチェーンを抽出し、データ漏洩を避けるために新しいテストサンプルを生成するエージェントベースのシステムである。
論文参考訳（メタデータ） (2024-10-02T09:11:10Z)
ComplexCodeEval: A Benchmark for Evaluating Large Code Models on More Complex Code [29.178248778212588]
ComplexCodeEvalは、様々な開発タスクで大きな言語モデル(LLM)を評価するために設計されたベンチマークである。これには、上位のGitHubリポジトリから3,897のJavaサンプルと7,184のPythonサンプルが含まれている。
論文参考訳（メタデータ） (2024-09-16T13:43:04Z)
ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。 LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文参考訳（メタデータ） (2023-11-16T12:03:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。