論文の概要: RepoZero: Can LLMs Generate a Code Repository from Scratch?
- arxiv url: http://arxiv.org/abs/2605.07122v2
- Date: Wed, 13 May 2026 09:42:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 17:13:58.785283
- Title: RepoZero: Can LLMs Generate a Code Repository from Scratch?
- Title(参考訳): RepoZero: LLMはスクラッチからコードリポジトリを生成することができるか?
- Authors: Zhaoxi Zhang, Yiming Xu, Jiahui Liang, Weikang Li, Yunfang Wu,
- Abstract要約: RepoZeroは、完全に自動化された実行ベースのレポジトリレベルの生成をスクラッチから検証できる最初のベンチマークである。
我々の結果は、RepoZeroをエンドツーエンドのコード生成のための、困難でスケーラブルで信頼性の高いテストベッドとして確立しています。
- 参考スコア(独自算出の注目度): 13.87780777614509
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have recently shown remarkable progress in code generation, yet their ability to construct complete software repositories from scratch remains poorly understood. A fundamental bottleneck is the lack of verifiable and scalable evaluation: existing benchmarks either focus on patch-based editing or rely on human or LLM-based judgments, which introduce bias and limit reproducibility. In this work, we present RepoZero, the first benchmark that enables fully automated, execution-based verification of repository-level generation from scratch. Our key idea is to reformulate generation as repository reproduction: given only API specifications, an agent must re-implement an entire repository such that its behavior matches the original implementation. This design allows for strict black-box validation via output equivalence, while naturally supporting large-scale construction by reusing existing open-source repositories. To further mitigate data leakage and shortcut solutions, we introduce cross-language constraints and a sandboxed evaluation protocol. Building on this benchmark, we propose an Agentic Code-Test Evolution (ACE) framework that performs iterative test generation and error-driven refinement, enabling effective test-time scaling for repository-level synthesis. Extensive experiments across multiple state-of-the-art LLMs and agent frameworks reveal that even the strongest LLM agents achieve only limited pass rates (30\% - 55\%), exposing a substantial gap between current capabilities and real-world software development requirements. Our results establish RepoZero as a challenging, scalable, and reliable testbed for end-to-end code generation, and highlight self-verification via test generation as a critical direction for advancing LLM-based coding agents.
- Abstract(参考訳): 大規模言語モデル(LLM)は、最近、コード生成の顕著な進歩を示しているが、スクラッチから完全なソフトウェアリポジトリを構築する能力は、まだよく分かっていない。
既存のベンチマークでは、パッチベースの編集に焦点を当てるか、あるいは人間やLLMベースの判断に依存しており、バイアスや再現性を制限する。
本研究では,リポジトリレベルの生成をスクラッチから完全に自動化し,実行ベースの検証を可能にする最初のベンチマークであるRepoZeroを紹介する。
API仕様のみを前提として、エージェントは、その振る舞いが元の実装と一致するように、レポジトリ全体を再実装する必要があります。
この設計により、出力等価性による厳格なブラックボックス検証が可能であり、既存のオープンソースリポジトリを再利用することで、大規模構築を自然にサポートする。
データ漏洩とショートカットソリューションをさらに緩和するため,クロスランゲージ制約とサンドボックス評価プロトコルを導入する。
本稿では,このベンチマークに基づいて,反復的なテスト生成とエラー駆動リファインメントを行うAgentic Code-Test Evolution (ACE) フレームワークを提案する。
複数の最先端のLLMおよびエージェントフレームワークにわたる大規模な実験により、最強のLLMエージェントでさえ、制限されたパスレート(30 % - 55 %)しか達成せず、現在の能力と実際のソフトウェア開発要件の間に大きなギャップがあることが判明した。
この結果から, エンドツーエンドのコード生成において, RepoZeroを困難でスケーラブルで信頼性の高いテストベッドとして確立し, テスト生成による自己検証をLCMベースのコーディングエージェントを進化させる重要な方向として強調した。
関連論文リスト
- RealBench: A Repo-Level Code Generation Benchmark Aligned with Real-World Software Development Practices [54.956760584923295]
コード生成にLLM(Large Language Models)を使用することで、研究者は大幅に進歩した。
しかしながら、開発者は一般的に、生の自然言語記述ではなく、構造化された設計や仕様に基づいたコードを書く。
既存のベンチマークと実際の産業開発プラクティスのギャップは、現在のベンチマークスコアが、どれだけのコード生成が開発タスクの自動化に役立つかを正確に反映していないことを意味する。
論文 参考訳(メタデータ) (2026-04-24T15:35:54Z) - Understanding by Reconstruction: Reversing the Software Development Process for LLM Pretraining [66.89012795621349]
大規模言語モデル(LLM)は、複雑なソフトウェア工学に必要な、深く、長期にわたる推論に苦しむことが多い。
本稿では,再構築による理解という,新しいパラダイムを提案する。
マルチエージェントシミュレーションを用いて潜在エージェント軌道を合成するフレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-11T09:23:20Z) - NL2Repo-Bench: Towards Long-Horizon Repository Generation Evaluation of Coding Agents [79.29376673236142]
既存のベンチマークは、完全なソフトウェアシステムを構築するのに必要な長期的能力の厳格な評価に失敗する。
符号化エージェントの長期リポジトリ生成能力を評価するために設計されたベンチマークであるNL2Repo Benchを提案する。
論文 参考訳(メタデータ) (2025-12-14T15:12:13Z) - FEA-Bench: A Benchmark for Evaluating Repository-Level Code Generation for Feature Implementation [26.14778133391999]
FEA-Benchは、大規模な言語モデルがコードリポジトリ内でインクリメンタルな開発を行う能力を評価するために設計されたベンチマークである。
83のGitHubリポジトリからのプルリクエストを収集し、ルールベースとインテントベースのフィルタリングを使用して、新機能開発にフォーカスしたタスクインスタンスを構築します。
論文 参考訳(メタデータ) (2025-03-09T16:11:57Z) - Codev-Bench: How Do LLMs Understand Developer-Centric Code Completion? [60.84912551069379]
Code-Development Benchmark (Codev-Bench)は、細粒度で現実世界、リポジトリレベル、開発者中心の評価フレームワークです。
Codev-Agentは、リポジトリのクローリングを自動化し、実行環境を構築し、既存のユニットテストから動的呼び出しチェーンを抽出し、データ漏洩を避けるために新しいテストサンプルを生成するエージェントベースのシステムである。
論文 参考訳(メタデータ) (2024-10-02T09:11:10Z) - On the Impacts of Contexts on Repository-Level Code Generation [5.641402231731082]
本稿ではレポジトリレベルのコード生成を評価するために設計された新しいベンチマークであるRepoExecを紹介する。
実行可能性、包括的なテストケース生成による機能的正当性、ファイル間のコンテキストの正確な利用という3つの重要な側面に注目します。
論文 参考訳(メタデータ) (2024-06-17T10:45:22Z) - Class-Level Code Generation from Natural Language Using Iterative, Tool-Enhanced Reasoning over Repository [4.767858874370881]
実世界のリポジトリ内でクラスレベルのコードを生成する際に,LLMを厳格に評価するためのベンチマークであるRepoClassBenchを紹介する。
RepoClassBenchには、リポジトリの選択からJava、Python、C#にまたがる"Natural Language to Class Generation"タスクが含まれている。
Retrieve-Repotools-Reflect (RRR)は,レポジトリレベルのコンテキストを反復的にナビゲートし,推論する静的解析ツールを備えた新しいアプローチである。
論文 参考訳(メタデータ) (2024-04-22T03:52:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。