論文の概要: RPG: A Repository Planning Graph for Unified and Scalable Codebase Generation
- arxiv url: http://arxiv.org/abs/2509.16198v3
- Date: Fri, 26 Sep 2025 02:50:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 12:12:20.294967
- Title: RPG: A Repository Planning Graph for Unified and Scalable Codebase Generation
- Title(参考訳): RPG: 統一されたスケーラブルなコードベース生成のためのリポジトリプランニンググラフ
- Authors: Jane Luo, Xin Zhang, Steven Liu, Jie Wu, Yiming Huang, Yangyu Huang, Chengyu Yin, Ying Xin, Jianfeng Liu, Yuefeng Zhan, Hao Sun, Qi Chen, Scarlett Li, Mao Yang,
- Abstract要約: Repository Planning Graph (RPG)は、統一グラフ内の機能、ファイル構造、データフロー、関数をエンコードする。
ZeroRepoは、提案レベルの計画、実装レベルの構築、テストバリデーションを備えたグラフ誘導コード生成という、グラフ駆動のフレームワークである。
- 参考スコア(独自算出の注目度): 27.834864953082302
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models excel at generating individual functions or single files of code, yet generating complete repositories from scratch remains a fundamental challenge. This capability is key to building coherent software systems from high-level specifications and realizing the full potential of automated code generation. The process requires planning at two levels: deciding what features and modules to build (proposal stage) and defining their implementation details (implementation stage). Current approaches rely on natural language planning, which often produces unclear specifications, misaligned components, and brittle designs due to its inherent ambiguity and lack of structure. To address these limitations, we introduce the Repository Planning Graph (RPG), a structured representation that encodes capabilities, file structures, data flows, and functions in a unified graph. By replacing free-form natural language with an explicit blueprint, RPG enables consistent long-horizon planning for repository generation. Building on RPG, we develop ZeroRepo, a graph-driven framework that operates in three stages: proposal-level planning, implementation-level construction, and graph-guided code generation with test validation. To evaluate, we construct RepoCraft, a benchmark of six real-world projects with 1,052 tasks. On RepoCraft, ZeroRepo produces nearly 36K Code Lines and 445K Code Tokens, on average 3.9$\times$ larger than the strongest baseline (Claude Code), and 68$\times$ larger than other baselines. It achieves 81.5% coverage and 69.7% test accuracy, improving over Claude Code by 27.3 and 35.8 points. Further analysis shows that RPG models complex dependencies, enables more sophisticated planning through near-linear scaling, and improves agent understanding of repositories, thus accelerating localization.
- Abstract(参考訳): 大きな言語モデルは個々の関数やコードの単一ファイルを生成するのに優れていますが、スクラッチから完全なリポジトリを生成することは根本的な課題です。
この能力は、ハイレベルな仕様からコヒーレントなソフトウェアシステムを構築し、自動化されたコード生成の可能性を最大限に実現するための鍵となる。
プロセスでは、どの機能やモジュールをビルドするか(プロモーサルステージ)を決め、実装の詳細(実装ステージ)を定義します。
現在のアプローチは、しばしば不明瞭な仕様、不整合コンポーネント、不安定な設計を生み出す自然言語計画に依存している。
これらの制限に対処するために、統合グラフ内の機能、ファイル構造、データフロー、関数をエンコードする構造化表現であるRepository Planning Graph(RPG)を導入する。
自由形式の自然言語を明示的な青写真に置き換えることで、RPGはリポジトリ生成のための一貫した長期計画を可能にする。
RPG上に構築されたZeroRepoは,提案レベルの計画,実装レベルの構築,テスト検証を備えたグラフ誘導コード生成という,3段階のグラフ駆動型フレームワークである。
評価のために,1,052のタスクを持つ6つの実世界のプロジェクトのベンチマークであるRepoCraftを構築した。
RepoCraftでは、ZeroRepoは36Kのコードラインと445Kのコードトークンを、最強のベースライン(Claude Code)よりも平均3.9$\times$、他のベースラインよりも68$\times$で生産している。
81.5%のカバレッジと69.7%のテスト精度を達成し、Clude Codeを27.3ポイント、35.8ポイント改善した。
さらに分析によると、RPGは複雑な依存関係をモデル化し、ニア線形スケーリングによるより高度な計画を可能にし、リポジトリのエージェント理解を改善し、ローカライゼーションを加速する。
関連論文リスト
- A Hierarchical and Evolvable Benchmark for Fine-Grained Code Instruction Following with Multi-Turn Feedback [30.446511584123492]
大規模言語モデル(LLM)はコード生成において著しく進歩しているが、階層化され多様な制約を持つ複雑なプログラミング命令に従う能力はいまだ探索されていない。
複数次元にわたるコード生成における命令追従の評価を目的とした総合ベンチマークであるMultiCodeIFを紹介する。
我々は14のプログラミング言語から得られた2,021のコードタスクを合成し、進化させ、フィードバック駆動型タスク変種によるマルチターン評価をサポートする。
論文 参考訳(メタデータ) (2025-07-01T11:51:40Z) - HDLxGraph: Bridging Large Language Models and HDL Repositories via HDL Graph Databases [57.51078142561683]
大規模言語モデル(LLM)は、ハードウェア設計タスクにおいてその可能性を実証している。
しかし、実際のリポジトリレベルのHDLプロジェクトでのパフォーマンスは、数千から数万のコード行で妨げられています。
グラフ検索拡張生成(Graph RAG)とLLMを統合する新しいフレームワークであるHDLxGraphを提案する。
論文 参考訳(メタデータ) (2025-05-21T16:14:10Z) - Code-Driven Planning in Grid Worlds with Large Language Models [2.6080756513915824]
コードで表現された解釈可能なエージェントポリシーを合成することにより,グリッドベースのタスクを解決するための反復的プログラム計画フレームワークを提案する。
従来の検索や強化学習に頼るのではなく、コード生成をポリシー合成として使用しています。
論文 参考訳(メタデータ) (2025-05-15T23:23:31Z) - LocAgent: Graph-Guided LLM Agents for Code Localization [25.395102705800916]
LocAgentは、グラフベースの表現を通じてコードのローカライゼーションに対処するフレームワークである。
細調整したQwen-2.5-Coder-Instruct-32Bモデルを用いて,SOTAプロプライエタリモデルと比較して,コストを大幅に削減した。
論文 参考訳(メタデータ) (2025-03-12T05:55:01Z) - Plan-over-Graph: Towards Parallelable LLM Agent Schedule [53.834646147919436]
大規模言語モデル(LLM)はタスク計画の推論において例外的な能力を示した。
本稿では,まず実生活のテキストタスクを実行可能なサブタスクに分解し,抽象的なタスクグラフを構築する,新しいパラダイムであるプランオーバーグラフを提案する。
モデルはこのタスクグラフを入力として理解し、並列実行計画を生成する。
論文 参考訳(メタデータ) (2025-02-20T13:47:51Z) - Unlocking Reasoning Potential in Large Langauge Models by Scaling Code-form Planning [94.76546523689113]
CodePlanは、テキストコード形式の計画を生成し、追跡するフレームワークで、高いレベルの構造化された推論プロセスの概要を擬似コードで示します。
CodePlanは、洗練された推論タスク固有のリッチなセマンティクスと制御フローを効果的にキャプチャする。
反応を直接生成するのに比べて25.1%の相対的な改善が達成されている。
論文 参考訳(メタデータ) (2024-09-19T04:13:58Z) - CodeRAG-Bench: Can Retrieval Augment Code Generation? [78.37076502395699]
検索拡張生成を用いたコード生成の系統的,大規模な解析を行う。
まず、コード生成タスクの3つのカテゴリを含む総合的な評価ベンチマークであるCodeRAG-Benchをキュレートする。
CodeRAG-Bench上のトップパフォーマンスモデルについて、1つまたは複数のソースから検索したコンテキストを提供することにより検討する。
論文 参考訳(メタデータ) (2024-06-20T16:59:52Z) - On the Impacts of Contexts on Repository-Level Code Generation [5.641402231731082]
本稿ではレポジトリレベルのコード生成を評価するために設計された新しいベンチマークであるRepoExecを紹介する。
実行可能性、包括的なテストケース生成による機能的正当性、ファイル間のコンテキストの正確な利用という3つの重要な側面に注目します。
論文 参考訳(メタデータ) (2024-06-17T10:45:22Z) - ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。
LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z) - Octopus: Embodied Vision-Language Programmer from Environmental Feedback [58.04529328728999]
身体視覚言語モデル(VLM)は多モード認識と推論において大きな進歩を遂げた。
このギャップを埋めるために、我々は、計画と操作を接続する媒体として実行可能なコード生成を使用する、具体化された視覚言語プログラマであるOctopusを紹介した。
Octopusは、1)エージェントの視覚的およびテキスト的タスクの目的を正確に理解し、2)複雑なアクションシーケンスを定式化し、3)実行可能なコードを生成するように設計されている。
論文 参考訳(メタデータ) (2023-10-12T17:59:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。