論文の概要: RepoGenesis: Benchmarking End-to-End Microservice Generation from Readme to Repository
- arxiv url: http://arxiv.org/abs/2601.13943v1
- Date: Tue, 20 Jan 2026 13:19:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.322556
- Title: RepoGenesis: Benchmarking End-to-End Microservice Generation from Readme to Repository
- Title(参考訳): RepoGenesis: ReadmeからRepositoryへのエンドツーエンドのマイクロサービス生成のベンチマーク
- Authors: Zhiyuan Peng, Xin Yin, Pu Zhao, Fangkai Yang, Lu Wang, Ran Jia, Xu Chen, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang,
- Abstract要約: RepoGenesisは、リポジトリレベルのエンドツーエンドWebマイクロサービス生成のための、最初の多言語ベンチマークである。
Pass@1、API Coverage(AC)、Deployment Success Rate(DSR)を使用して、オープンソースのエージェント(DeepCodeなど)と商用IDE(Cursorなど)を評価します。
その結果、高いAC(最大73.91%)とDSR(最大100%)にもかかわらず、最高のパフォーマンスのシステムはPythonで23.67%のPass@1、Javaで21.45%しか達成していないことが明らかになった。
- 参考スコア(独自算出の注目度): 52.98970048197381
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models and agents have achieved remarkable progress in code generation. However, existing benchmarks focus on isolated function/class-level generation (e.g., ClassEval) or modifications to existing codebases (e.g., SWE-Bench), neglecting complete microservice repository generation that reflects real-world 0-to-1 development workflows. To bridge this gap, we introduce RepoGenesis, the first multilingual benchmark for repository-level end-to-end web microservice generation, comprising 106 repositories (60 Python, 46 Java) across 18 domains and 11 frameworks, with 1,258 API endpoints and 2,335 test cases verified through a "review-rebuttal" quality assurance process. We evaluate open-source agents (e.g., DeepCode) and commercial IDEs (e.g., Cursor) using Pass@1, API Coverage (AC), and Deployment Success Rate (DSR). Results reveal that despite high AC (up to 73.91%) and DSR (up to 100%), the best-performing system achieves only 23.67% Pass@1 on Python and 21.45% on Java, exposing deficiencies in architectural coherence, dependency management, and cross-file consistency. Notably, GenesisAgent-8B, fine-tuned on RepoGenesis (train), achieves performance comparable to GPT-5 mini, demonstrating the quality of RepoGenesis for advancing microservice generation. We release our benchmark at https://github.com/pzy2000/RepoGenesis.
- Abstract(参考訳): 大規模な言語モデルとエージェントは、コード生成において顕著な進歩を遂げた。
しかし、既存のベンチマークでは、独立した関数/クラスレベルの生成(例:ClassEval)や既存のコードベースの変更(例:SWE-Bench)に重点を置いており、現実世界の0-to-1開発ワークフローを反映した完全なマイクロサービスリポジトリ生成を無視している。
このギャップを埋めるために、リポジトリレベルのWebマイクロサービス生成のための最初のマルチ言語ベンチマークであるRepoGenesisを紹介します。18のドメインと11のフレームワークに106のリポジトリ(60 Python、46 Java)があり、1,258のAPIエンドポイントと2,335のテストケースが"レビュー-レスポンス"品質保証プロセスを通じて検証されています。
Pass@1、API Coverage(AC)、Deployment Success Rate(DSR)を用いて、オープンソースのエージェント(例えば、DeepCode)と商用IDE(例えば、Cursor)を評価します。
その結果、高いAC(最大73.91%)とDSR(最大100%)にもかかわらず、最高のパフォーマンスシステムはPythonで23.67%のPass@1、Javaで21.45%しか達成せず、アーキテクチャの一貫性、依存性管理、ファイル間の一貫性の欠如を露呈していることがわかった。
特に、RepoGenesisに微調整されたGenesisAgent-8Bは、GPT-5 miniに匹敵するパフォーマンスを実現し、マイクロサービス生成の進歩のためのRepoGenesisの品質を実証している。
ベンチマークはhttps://github.com/pzy2000/RepoGenesis.comで公開しています。
関連論文リスト
- SWE-Bench++: A Framework for the Scalable Generation of Software Engineering Benchmarks from Open-Source Repositories [2.951332247539421]
オープンソースGitHubプロジェクトからリポジトリレベルのコーディングタスクを生成する自動フレームワークであるSWE-Bench++を紹介します。
合成アプローチとは異なり、パイプラインは11言語にわたるバグ修正と機能要求の両方をカバーするために、ライブプルリクエストを収集します。
最初のベンチマークは11言語にわたる3,971リポジトリから11,133インスタンスで構成されています。
論文 参考訳(メタデータ) (2025-12-19T10:16:51Z) - GitGoodBench: A Novel Benchmark For Evaluating Agentic Performance On Git [0.8397730500554048]
GitGoodBenchは、バージョン管理システム(VCS)タスク上でAIエージェントのパフォーマンスを評価するための新しいベンチマークである。
私たちのベンチマークでは、オープンソースのPython、Java、Kotlinリポジトリから抽出された3つのコアGitシナリオについて取り上げています。
我々は、カスタムツールを備えたGPT-4oを用いて、ベンチマークのプロトタイプバージョン上でベースライン性能を確立し、全体的な21.1%の解決率を達成する。
論文 参考訳(メタデータ) (2025-05-28T16:56:11Z) - EmbedAgent: Benchmarking Large Language Models in Embedded System Development [41.849233931919265]
大規模言語モデル(LLM)は様々なタスクにおいて有望であるが、組み込みシステム開発におけるその能力を評価するベンチマークは少ない。
組込みシステム開発における現実の役割をシミュレートするパラダイムである EmbedAgent を紹介する。
組込みシステムプログラミング、回路設計、クロスプラットフォームマイグレーションのための最初の包括的なベンチマークであるEmbedbenchを提案する。
論文 参考訳(メタデータ) (2025-04-19T12:51:24Z) - RustRepoTrans: Repository-level Code Translation Benchmark Targeting Rust [50.65321080814249]
RustRepoTransは、インクリメンタル翻訳をターゲットにした、最初のリポジトリレベルのコンテキストコード変換ベンチマークである。
複雑な翻訳シナリオの制約を評価するために, 7つの代表的なLLMを評価し, それらの誤差を分析した。
論文 参考訳(メタデータ) (2024-11-21T10:00:52Z) - Can Language Models Replace Programmers for Coding? REPOCOD Says 'Not Yet' [9.48622608877252]
大規模言語モデル(LLM)の機能を評価するために、多くのリポジトリレベルのコード生成ベンチマークが登場した。
これらのベンチマークは、短い補完、合成例、または限られたスケールのリポジトリに焦点を当て、現実世界のコーディングタスクを表現できない。
実世界の大規模プロジェクトで現実的な依存関係を持つ複雑なタスクを含むPythonコード生成ベンチマークであるREPOCODを作成します。
論文 参考訳(メタデータ) (2024-10-29T01:21:05Z) - CRAB: Cross-environment Agent Benchmark for Multimodal Language Model Agents [49.68117560675367]
Crabは、クロス環境タスクをサポートするように設計された最初のベンチマークフレームワークである。
私たちのフレームワークは複数のデバイスをサポートし、Pythonインターフェースで簡単に任意の環境に拡張できます。
実験の結果、GPT-4oの1剤が38.01%の最高完成率を達成することが示された。
論文 参考訳(メタデータ) (2024-07-01T17:55:04Z) - RepoAgent: An LLM-Powered Open-Source Framework for Repository-level
Code Documentation Generation [79.83270415843857]
コードドキュメンテーションを積極的に生成、保守、更新することを目的とした、大規模な言語モデルによるオープンソースフレームワークであるRepoAgentを紹介します。
RepoAgentは高品質なリポジトリレベルのドキュメントを生成するのに優れています。
論文 参考訳(メタデータ) (2024-02-26T15:39:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。