論文の概要: RPG: A Repository Planning Graph for Unified and Scalable Codebase Generation
- arxiv url: http://arxiv.org/abs/2509.16198v2
- Date: Tue, 23 Sep 2025 01:00:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 11:50:03.907342
- Title: RPG: A Repository Planning Graph for Unified and Scalable Codebase Generation
- Title(参考訳): RPG: 統一されたスケーラブルなコードベース生成のためのリポジトリプランニンググラフ
- Authors: Jane Luo, Xin Zhang, Steven Liu, Jie Wu, Yiming Huang, Yangyu Huang, Chengyu Yin, Ying Xin, Jianfeng Liu, Yuefeng Zhan, Hao Sun, Qi Chen, Scarlett Li, Mao Yang,
- Abstract要約: Repository Planning Graph(RPG)は、機能、ファイル構造、データフロー、関数を1つのグラフにエンコーディングすることで、提案レベルと実装レベルのプランニングを統一する表現である。
RPGは曖昧な自然言語を明示的な青写真に置き換え、長期計画とスケーラブルなリポジトリ生成を可能にする。
ZeroRepoは、スクラッチからリポジトリを生成するグラフ駆動のフレームワークである。
- 参考スコア(独自算出の注目度): 27.834864953082302
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models excel at function- and file-level code generation, yet generating complete repositories from scratch remains a fundamental challenge. This process demands coherent and reliable planning across proposal- and implementation-level stages, while natural language, due to its ambiguity and verbosity, is ill-suited for faithfully representing complex software structures. To address this, we introduce the Repository Planning Graph (RPG), a persistent representation that unifies proposal- and implementation-level planning by encoding capabilities, file structures, data flows, and functions in one graph. RPG replaces ambiguous natural language with an explicit blueprint, enabling long-horizon planning and scalable repository generation. Building on RPG, we develop ZeroRepo, a graph-driven framework for repository generation from scratch. It operates in three stages: proposal-level planning and implementation-level refinement to construct the graph, followed by graph-guided code generation with test validation. To evaluate this setting, we construct RepoCraft, a benchmark of six real-world projects with 1,052 tasks. On RepoCraft, ZeroRepo generates repositories averaging 36K Code Lines, roughly 3.9$\times$ the strongest baseline (Claude Code) and about 64$\times$ other baselines. It attains 81.5% functional coverage and a 69.7% pass rate, exceeding Claude Code by 27.3 and 35.8 percentage points, respectively. Further analysis shows that RPG models complex dependencies, enables progressively more sophisticated planning through near-linear scaling, and enhances LLM understanding of repositories, thereby accelerating agent localization.
- Abstract(参考訳): 大きな言語モデルは関数レベルのコード生成やファイルレベルのコード生成に優れていますが、スクラッチから完全なリポジトリを生成することは根本的な課題です。
このプロセスは提案段階と実装段階をまたいだ一貫性のある信頼性の高い計画を必要とするが、自然言語はその曖昧さと冗長性のため、複雑なソフトウェア構造を忠実に表現するのに不適当である。
これを解決するために、我々は、機能、ファイル構造、データフロー、関数を1つのグラフで符号化することで、提案レベルの計画と実装レベルの計画を統一する永続的な表現であるRepository Planning Graph(RPG)を紹介した。
RPGは曖昧な自然言語を明示的な青写真に置き換え、長期計画とスケーラブルなリポジトリ生成を可能にする。
RPG上に構築されたZeroRepoは,スクラッチからリポジトリを生成するグラフ駆動のフレームワークです。
グラフを構築するための提案レベル計画と実装レベルの改良、そしてテスト検証を伴うグラフ誘導コード生成の3段階で動作する。
この設定を評価するために,1,052のタスクを持つ6つの実世界のプロジェクトのベンチマークであるRepoCraftを構築した。
RepoCraftでは、ZeroRepoは平均36Kコードライン、約3.9$\times$最強のベースライン(Claude Code)、約64$\times$その他のベースラインのリポジトリを生成する。
機能カバレッジは81.5%、パスレートは69.7%で、Claude Codeの27.3ポイントと35.8ポイントをそれぞれ上回っている。
さらに分析したところ、RPGは複雑な依存関係をモデル化し、ニア線形スケーリングによるより高度なプランニングを可能にし、レポジトリのLLM理解を強化し、エージェントのローカライゼーションを加速させる。
関連論文リスト
- Architecture-Aware Multi-Design Generation for Repository-Level Feature Addition [53.50448142467294]
RAIMは、リポジトリレベルの機能追加のための、多設計およびアーキテクチャ対応のフレームワークである。
複数の多様な実装設計を生成することで、線形パッチから切り離される。
NoCode-bench Verifiedデータセットの実験では、RAIMが新しい最先端のパフォーマンスを確立することが示されている。
論文 参考訳(メタデータ) (2026-03-02T12:50:40Z) - Closing the Loop: Universal Repository Representation with RPG-Encoder [26.428468203770663]
本稿では,リポジトリ計画グラフ(RPG)を統一表現に一般化するフレームワークであるRPG-Encoderを提案する。
RPG-Encoderは3つのメカニズムを通じて推論ループを閉じる。
93.7%のAcc@5で検証されたSWE-bench上での最先端のローカライゼーション性能を確立し、SWE-bench Live Lite上でのローカライゼーション精度を10%以上越えている。
論文 参考訳(メタデータ) (2026-02-02T13:30:00Z) - ProjDevBench: Benchmarking AI Coding Agents on End-to-End Project Development [49.63491095660809]
ProjDevBenchはエンドツーエンドのベンチマークで、コーディングエージェントにプロジェクト要件を提供し、その結果のリポジトリを評価する。
概念指向タスクと実世界のアプリケーションシナリオの両方をカバーし、8つのカテゴリにまたがる20のプログラミング問題をキュレートします。
エージェントは基本的な機能を扱うが、複雑なシステム設計、時間最適化、リソース管理に苦労する。
論文 参考訳(メタデータ) (2026-02-02T05:17:23Z) - Towards Realistic Project-Level Code Generation via Multi-Agent Collaboration and Semantic Architecture Modeling [7.753074942497876]
CodeProjectEvalは、12.7ファイルと2,388.6行のタスクを持つ18の現実世界リポジトリから構築されたプロジェクトレベルのコード生成データセットである。
プロジェクトをアーキテクチャ設計、スケルトン生成、コードフィリングステージに分解するマルチエージェントフレームワークであるProjectGenを提案する。
実験によると、ProjectGenは、52/124のテストケースを小さなプロジェクトレベルのコード生成データセットDevBenchに渡すことで、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-11-05T12:12:35Z) - CodeWiki: Evaluating AI's Ability to Generate Holistic Documentation for Large-Scale Codebases [7.75137961900221]
bftextCodeWikiは、7つのプログラミング言語にまたがるリポジトリレベルのドキュメントを自動化する統合フレームワークである。
CodeWikiは、3つの重要なイノベーションを紹介している: (i) 階層的な分解はアーキテクチャのコンテキストを複数のレベルの粒度で保存し、 (ii) スケーラブルな生成のための動的タスクデリゲートによる再帰的マルチエージェント処理、 (iii) アーキテクチャ図やデータフロー表現のようなビジュアルアーティファクトとテキスト記述を統合するマルチモーダル合成である。
CodeWikiは、プロプライエタリなモデルで68.79%の品質スコアを獲得し、クローズドソースのDeepWikiベースライン(64.06%)を4.73%上回った。
論文 参考訳(メタデータ) (2025-10-28T13:52:46Z) - VisCoder2: Building Multi-Language Visualization Coding Agents [63.63232038173407]
可視化符号化エージェントを進化させるための3つの相補的なリソースを紹介する。
VisCoder2は、強力なオープンソースベースラインを著しく上回り、プロプライエタリなモデルのパフォーマンスにアプローチする。
論文 参考訳(メタデータ) (2025-10-24T18:03:57Z) - A Hierarchical and Evolvable Benchmark for Fine-Grained Code Instruction Following with Multi-Turn Feedback [30.446511584123492]
大規模言語モデル(LLM)はコード生成において著しく進歩しているが、階層化され多様な制約を持つ複雑なプログラミング命令に従う能力はいまだ探索されていない。
複数次元にわたるコード生成における命令追従の評価を目的とした総合ベンチマークであるMultiCodeIFを紹介する。
我々は14のプログラミング言語から得られた2,021のコードタスクを合成し、進化させ、フィードバック駆動型タスク変種によるマルチターン評価をサポートする。
論文 参考訳(メタデータ) (2025-07-01T11:51:40Z) - HDLxGraph: Bridging Large Language Models and HDL Repositories via HDL Graph Databases [57.51078142561683]
大規模言語モデル(LLM)は、ハードウェア設計タスクにおいてその可能性を実証している。
しかし、実際のリポジトリレベルのHDLプロジェクトでのパフォーマンスは、数千から数万のコード行で妨げられています。
グラフ検索拡張生成(Graph RAG)とLLMを統合する新しいフレームワークであるHDLxGraphを提案する。
論文 参考訳(メタデータ) (2025-05-21T16:14:10Z) - Code-Driven Planning in Grid Worlds with Large Language Models [2.6080756513915824]
コードで表現された解釈可能なエージェントポリシーを合成することにより,グリッドベースのタスクを解決するための反復的プログラム計画フレームワークを提案する。
従来の検索や強化学習に頼るのではなく、コード生成をポリシー合成として使用しています。
論文 参考訳(メタデータ) (2025-05-15T23:23:31Z) - LocAgent: Graph-Guided LLM Agents for Code Localization [25.395102705800916]
LocAgentは、グラフベースの表現を通じてコードのローカライゼーションに対処するフレームワークである。
細調整したQwen-2.5-Coder-Instruct-32Bモデルを用いて,SOTAプロプライエタリモデルと比較して,コストを大幅に削減した。
論文 参考訳(メタデータ) (2025-03-12T05:55:01Z) - Plan-over-Graph: Towards Parallelable LLM Agent Schedule [53.834646147919436]
大規模言語モデル(LLM)はタスク計画の推論において例外的な能力を示した。
本稿では,まず実生活のテキストタスクを実行可能なサブタスクに分解し,抽象的なタスクグラフを構築する,新しいパラダイムであるプランオーバーグラフを提案する。
モデルはこのタスクグラフを入力として理解し、並列実行計画を生成する。
論文 参考訳(メタデータ) (2025-02-20T13:47:51Z) - Unlocking Reasoning Potential in Large Langauge Models by Scaling Code-form Planning [94.76546523689113]
CodePlanは、テキストコード形式の計画を生成し、追跡するフレームワークで、高いレベルの構造化された推論プロセスの概要を擬似コードで示します。
CodePlanは、洗練された推論タスク固有のリッチなセマンティクスと制御フローを効果的にキャプチャする。
反応を直接生成するのに比べて25.1%の相対的な改善が達成されている。
論文 参考訳(メタデータ) (2024-09-19T04:13:58Z) - CodeRAG-Bench: Can Retrieval Augment Code Generation? [78.37076502395699]
検索拡張生成を用いたコード生成の系統的,大規模な解析を行う。
まず、コード生成タスクの3つのカテゴリを含む総合的な評価ベンチマークであるCodeRAG-Benchをキュレートする。
CodeRAG-Bench上のトップパフォーマンスモデルについて、1つまたは複数のソースから検索したコンテキストを提供することにより検討する。
論文 参考訳(メタデータ) (2024-06-20T16:59:52Z) - On the Impacts of Contexts on Repository-Level Code Generation [5.641402231731082]
本稿ではレポジトリレベルのコード生成を評価するために設計された新しいベンチマークであるRepoExecを紹介する。
実行可能性、包括的なテストケース生成による機能的正当性、ファイル間のコンテキストの正確な利用という3つの重要な側面に注目します。
論文 参考訳(メタデータ) (2024-06-17T10:45:22Z) - CodeGRAG: Bridging the Gap between Natural Language and Programming Language via Graphical Retrieval Augmented Generation [58.84212778960507]
CodeGRAGは、制御フローとそれらのデータフローに基づいて、コードブロックのグラフィカルなビューを構築し、プログラミングドメインの知識をよりよく解釈する。
CodeGRAGはLLMのコード生成能力を大幅に改善し、言語間コード生成のパフォーマンス向上も実現している。
論文 参考訳(メタデータ) (2024-05-03T02:48:55Z) - ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。
LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z) - Octopus: Embodied Vision-Language Programmer from Environmental Feedback [58.04529328728999]
身体視覚言語モデル(VLM)は多モード認識と推論において大きな進歩を遂げた。
このギャップを埋めるために、我々は、計画と操作を接続する媒体として実行可能なコード生成を使用する、具体化された視覚言語プログラマであるOctopusを紹介した。
Octopusは、1)エージェントの視覚的およびテキスト的タスクの目的を正確に理解し、2)複雑なアクションシーケンスを定式化し、3)実行可能なコードを生成するように設計されている。
論文 参考訳(メタデータ) (2023-10-12T17:59:58Z) - Self-planning Code Generation with Large Language Models [54.41645432114179]
本稿では,大規模言語モデルを用いた自己計画型コード生成手法を提案する。
計画段階では、モデルは意図から簡潔で形式化された計画手順を概説する。
実装フェーズでは、モデルが前回の計画ステップでガイドされたステップごとにコードを生成する。
論文 参考訳(メタデータ) (2023-03-12T15:36:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。