論文の概要: RepoDoc: A Knowledge Graph-Based Framework to Automatic Documentation Generation and Incremental Updates
- arxiv url: http://arxiv.org/abs/2604.26523v1
- Date: Wed, 29 Apr 2026 10:43:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-30 15:59:36.363249
- Title: RepoDoc: A Knowledge Graph-Based Framework to Automatic Documentation Generation and Incremental Updates
- Title(参考訳): RepoDoc: 自動ドキュメンテーション生成とインクリメンタルアップデートのための知識グラフベースのフレームワーク
- Authors: Dong Xu, Mingwei Liu, Xiwen Wang, Jianfeng Zhong, Zibin Zheng,
- Abstract要約: 本稿では,レポジトリ知識グラフ(RepoKG)をドキュメントライフサイクル全体の意味基盤として利用するシステムであるRepoDocを提案する。
インクリメンタルアップデートでは、更新時間を73%削減し、トークン使用量を77%削減し、10.2%高めの更新リコールを実現している。
8つの言語にわたる24のリポジトリで評価されたRepoDocは、最先端の代替よりも大幅に優れています。
- 参考スコア(独自算出の注目度): 41.56228301287882
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Maintaining up-to-date, comprehensive documentation for large codebases is a persistent challenge. Recent progress in automated documentation has moved from template-based rules to large language models (LLMs), yet existing tools still process source code as flat fragments, producing isolated documents that lack semantic structure. This design also leads to excessive token consumption and slow generation, while failing to capture how code changes propagate across dependencies. We propose RepoDoc, a system that uses a repository knowledge graph (RepoKG) as the semantic foundation for the entire documentation lifecycle. Our framework consists of three stages: (1) RepoKG construction, which extracts code entities and their relationships; (2) module clustering, which groups code into functionally cohesive, hierarchical units; and (3) skillful agent-based generation, which queries the graph to create modular, cross-referenced documentation with auto-generated Mermaid diagrams. For incremental maintenance, a semantic impact propagation mechanism navigates the RepoKG bidirectionally to pinpoint all affected parts, allowing selective, targeted regeneration. Evaluated on 24 repositories across 8 programming languages, RepoDoc substantially outperforms state-of-the-art alternatives. It improves API coverage by 32.5% and completeness by 10.4%, while generating documentation 3x faster with 85% fewer tokens. For incremental updates, it cuts update time by 73% and token usage by 77%, and achieves 10.2% higher update recall, more accurately reflecting code changes in the regenerated documentation. The source code and experimental artifacts are available at https://github.com/SYSUSELab/RepoDoc.
- Abstract(参考訳): 大規模なコードベースに対する最新の包括的なドキュメントを維持することは、永続的な課題である。
自動ドキュメントの最近の進歩は、テンプレートベースのルールから、大きな言語モデル(LLM)へと移行しているが、既存のツールは、ソースコードをフラットなフラグメントとして処理し、セマンティック構造を持たない独立したドキュメントを生成する。
この設計は、コードの変更が依存関係間でどのように伝播するかを捉えるのに失敗しながら、トークンの過剰な消費と生成を遅くする。
本稿では,レポジトリ知識グラフ(RepoKG)をドキュメントライフサイクル全体の意味基盤として利用するシステムであるRepoDocを提案する。
このフレームワークは,(1)コードエンティティとその関係を抽出するRepoKGの構築,(2)コードを機能的に結合的で階層的な単位にグループ化するモジュールクラスタリング,(3)グラフをクエリしてモジュール化された相互参照ドキュメンテーションを自動生成する巧妙なエージェントベース生成,の3段階で構成されている。
インクリメンタルなメンテナンスのために、セマンティックインパクト伝搬機構は、RepoKGを双方向にナビゲートして、影響を受けるすべての部分をピンポイントし、選択的に標的とする再生を可能にする。
8つのプログラミング言語にわたる24のリポジトリで評価され、RepoDocは最先端の代替よりも大幅に優れている。
APIカバレッジを32.5%改善し、完全性を10.4%向上し、ドキュメント生成を3倍速くし、トークンを85%削減した。
インクリメンタルアップデートでは、更新時間を73%削減し、トークン使用量を77%削減し、10.2%高めの更新リコールを実現し、再生されたドキュメントのコード変更をより正確に反映する。
ソースコードと実験成果物はhttps://github.com/SYSUSELab/RepoDoc.comで入手できる。
関連論文リスト
- What Papers Don't Tell You: Recovering Tacit Knowledge for Automated Paper Reproduction [57.86097956633207]
Methodは、学術論文から実行可能なコードを生成するグラフベースのエージェントフレームワークである。
3つのドメイン、10のタスク、10の最近の論文にまたがる拡張ReproduceBenchでは、公式実装に対する平均的なパフォーマンスギャップが10.04%に達する。
論文 参考訳(メタデータ) (2026-03-02T12:33:31Z) - Code2Doc: A Quality-First Curated Dataset for Code Documentation [0.0]
機能レベルのコードドキュメンテーション生成のための品質第一のキュレートデータセットであるCode2Docを紹介します。
Code2Docは、オープンソースリポジトリから抽出された13,358の高品質な関数ドキュメントペアで構成されている。
52,069人の候補者から始めて、全ての品質制約を満たすのは25.6%である。
全体として、86.9%のサンプルには明示的な型アノテーションが含まれており、潜在的なAI生成としてフラグ付けされているのはわずか2.9%である。
論文 参考訳(メタデータ) (2025-12-21T14:28:51Z) - CodeWiki: Evaluating AI's Ability to Generate Holistic Documentation for Large-Scale Codebases [7.75137961900221]
bftextCodeWikiは、7つのプログラミング言語にまたがるリポジトリレベルのドキュメントを自動化する統合フレームワークである。
CodeWikiは、3つの重要なイノベーションを紹介している: (i) 階層的な分解はアーキテクチャのコンテキストを複数のレベルの粒度で保存し、 (ii) スケーラブルな生成のための動的タスクデリゲートによる再帰的マルチエージェント処理、 (iii) アーキテクチャ図やデータフロー表現のようなビジュアルアーティファクトとテキスト記述を統合するマルチモーダル合成である。
CodeWikiは、プロプライエタリなモデルで68.79%の品質スコアを獲得し、クローズドソースのDeepWikiベースライン(64.06%)を4.73%上回った。
論文 参考訳(メタデータ) (2025-10-28T13:52:46Z) - Paper2Code: Automating Code Generation from Scientific Papers in Machine Learning [70.04746094652653]
機械学習論文を機能コードリポジトリに変換するフレームワークであるPaperCoderを紹介した。
PaperCoderは3つの段階で動作する。計画、図によるシステムアーキテクチャの設計、ファイル依存の特定、構成ファイルの生成である。
次に、モデルベースおよび人的評価の両方に基づいて、機械学習論文からコード実装を生成するPaperCoderを評価する。
論文 参考訳(メタデータ) (2025-04-24T01:57:01Z) - Linking Code and Documentation Churn: Preliminary Analysis [2.033674689332928]
本研究では,GitHubの3つのオープンソースプロジェクトにおけるコードチャーンとドキュメント更新の同期について検討する。
予備的な結果は、プロジェクト間で異なる同期度を示し、統合された並行ドキュメントプラクティスの重要性を強調します。
この研究の斬新さは、コードの変更とドキュメントの更新を同期させることが、多様性と効率を向上させることで、開発ライフサイクルをいかに改善できるかを示すことである。
論文 参考訳(メタデータ) (2024-10-08T12:41:58Z) - RepoCoder: Repository-Level Code Completion Through Iterative Retrieval
and Generation [96.75695811963242]
RepoCoderはリポジトリレベルのコード補完プロセスを合理化するフレームワークである。
類似性ベースのレトリバーと、事前訓練されたコード言語モデルが組み込まれている。
バニラ検索で拡張されたコード補完アプローチよりも一貫して優れています。
論文 参考訳(メタデータ) (2023-03-22T13:54:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。