論文の概要: CodeWiki: Evaluating AI's Ability to Generate Holistic Documentation for Large-Scale Codebases
- arxiv url: http://arxiv.org/abs/2510.24428v2
- Date: Thu, 30 Oct 2025 01:38:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 13:50:54.733954
- Title: CodeWiki: Evaluating AI's Ability to Generate Holistic Documentation for Large-Scale Codebases
- Title(参考訳): CodeWiki: 大規模コードベースのホロスティックドキュメンテーションを生成するAIの能力を評価する
- Authors: Anh Nguyen Hoang, Minh Le-Anh, Bach Le, Nghi D. Q. Bui,
- Abstract要約: bftextCodeWikiは、7つのプログラミング言語にまたがるリポジトリレベルのドキュメントを自動化する統合フレームワークである。
CodeWikiは、3つの重要なイノベーションを紹介している: (i) 階層的な分解はアーキテクチャのコンテキストを複数のレベルの粒度で保存し、 (ii) スケーラブルな生成のための動的タスクデリゲートによる再帰的マルチエージェント処理、 (iii) アーキテクチャ図やデータフロー表現のようなビジュアルアーティファクトとテキスト記述を統合するマルチモーダル合成である。
CodeWikiは、プロプライエタリなモデルで68.79%の品質スコアを獲得し、クローズドソースのDeepWikiベースライン(64.06%)を4.73%上回った。
- 参考スコア(独自算出の注目度): 7.75137961900221
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Given a large and evolving codebase, the ability to automatically generate holistic, architecture-aware documentation that captures not only individual functions but also cross-file, cross-module, and system-level interactions remains an open challenge. Comprehensive documentation is essential for long-term software maintenance and collaboration, yet current automated approaches still fail to model the rich semantic dependencies and architectural structures that define real-world software systems. We present \textbf{CodeWiki}, a unified framework for automated repository-level documentation across seven programming languages. CodeWiki introduces three key innovations: (i) hierarchical decomposition that preserves architectural context across multiple levels of granularity, (ii) recursive multi-agent processing with dynamic task delegation for scalable generation, and (iii) multi-modal synthesis that integrates textual descriptions with visual artifacts such as architecture diagrams and data-flow representations. To enable rigorous evaluation, we introduce \textbf{CodeWikiBench}, a comprehensive benchmark featuring multi-dimensional rubrics and LLM-based assessment protocols. Experimental results show that CodeWiki achieves a 68.79\% quality score with proprietary models, outperforming the closed-source DeepWiki baseline (64.06\%) by 4.73\%, with particularly strong improvements on high-level scripting languages (+10.47\%). We open-source CodeWiki to foster future research and community adoption.
- Abstract(参考訳): 大規模で進化したコードベースを考えると、個々の関数だけでなく、クロスファイル、クロスモジュール、システムレベルのインタラクションをキャプチャする、全体的なアーキテクチャを意識したドキュメントを自動的に生成する能力は、依然としてオープンな課題である。
包括的なドキュメントは、長期的なソフトウェア保守とコラボレーションには不可欠ですが、現在の自動化されたアプローチでは、現実世界のソフトウェアシステムを定義するリッチなセマンティックな依存関係とアーキテクチャ構造をモデル化できません。
7つのプログラミング言語にまたがるリポジトリレベルの自動ドキュメンテーションのための統合フレームワークである \textbf{CodeWiki} を提示する。
CodeWikiは3つの重要なイノベーションを紹介している。
(i)多段階の粒度のアーキテクチャ的文脈を保存する階層的な分解
(II)スケーラブルな生成のための動的タスクデリゲートを用いた再帰的マルチエージェント処理
3) テキスト記述をアーキテクチャ図やデータフロー表現などの視覚的アーティファクトと統合するマルチモーダル合成。
厳密な評価を可能にするために,多次元ルーブリックとLLMに基づく評価プロトコルを備えた総合ベンチマークである \textbf{CodeWikiBench} を導入する。
実験の結果、CodeWikiはプロプライエタリなモデルで68.79.%の品質スコアを獲得し、クローズドソースのDeepWikiベースライン(64.06.%)を4.73.%上回った。
我々はCodeWikiをオープンソース化し、将来の研究とコミュニティの採用を促進する。
関連論文リスト
- RepoSummary: Feature-Oriented Summarization and Documentation Generation for Code Repositories [7.744086870383438]
RepoSummaryは機能指向のコードリポジトリ要約アプローチである。
同時にリポジトリドキュメンテーションを自動的に生成する。
機能機能から対応するコード要素へのより正確なトレーサビリティリンクを確立する。
論文 参考訳(メタデータ) (2025-10-13T06:16:44Z) - DocRefine: An Intelligent Framework for Scientific Document Understanding and Content Optimization based on Multimodal Large Model Agents [25.190790899297788]
DocRefineは、インテリジェントな理解、コンテンツの改良、科学的なPDF文書の自動要約のために設計された革新的なフレームワークである。
6つの専門的かつ協調的なエージェントからなる洗練されたマルチエージェントシステムを編成する。
さまざまなタスクにおいて、最先端のベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2025-08-09T15:32:52Z) - Zero-Shot Document Understanding using Pseudo Table of Contents-Guided Retrieval-Augmented Generation [4.875345207589195]
DocsRayは、トレーニング不要の文書理解システムである。
擬似コンテンツテーブル(TOC)生成と階層型検索拡張生成(RAG)を統合する
論文 参考訳(メタデータ) (2025-07-31T03:14:45Z) - Docopilot: Improving Multimodal Models for Document-Level Understanding [87.60020625241178]
マルチモーダル文書の詳細な理解を支援するために,高品質な文書レベルデータセットDoc-750Kを提案する。
このデータセットには、さまざまなドキュメント構造、広範なクロスページ依存関係、および元のドキュメントから派生した実際の質問と回答のペアが含まれている。
データセットに基づいて、RAGに頼ることなく、文書レベルの依存関係を正確に処理できるネイティブなマルチモーダルモデルであるDocopilotを開発する。
論文 参考訳(メタデータ) (2025-07-19T16:03:34Z) - CoIR: A Comprehensive Benchmark for Code Information Retrieval Models [52.61625841028781]
COIR(Code Information Retrieval Benchmark)は、コード検索機能を評価するために設計された、堅牢で包括的なベンチマークである。
COIRは、厳密にキュレートされた10のコードデータセットで構成され、7つの異なるドメインにまたがる8つの特有の検索タスクにまたがる。
我々は,COIRを用いた9つの広く使用されている検索モデルを評価し,最先端システムにおいても,コード検索タスクの実行に重大な困難があることを明らかにする。
論文 参考訳(メタデータ) (2024-07-03T07:58:20Z) - Alibaba LingmaAgent: Improving Automated Issue Resolution via Comprehensive Repository Exploration [64.19431011897515]
本稿では,問題解決のためにソフトウェアリポジトリ全体を包括的に理解し,活用するために設計された,新しいソフトウェアエンジニアリング手法であるAlibaba LingmaAgentを提案する。
提案手法では,重要なリポジトリ情報を知識グラフに凝縮し,複雑さを低減し,モンテカルロ木探索に基づく戦略を採用する。
Alibaba Cloudの製品展開と評価において、LingmaAgentは、開発エンジニアが直面した社内問題の16.9%を自動で解決し、手作業による介入で43.3%の問題を解決した。
論文 参考訳(メタデータ) (2024-06-03T15:20:06Z) - RepoAgent: An LLM-Powered Open-Source Framework for Repository-level
Code Documentation Generation [79.83270415843857]
コードドキュメンテーションを積極的に生成、保守、更新することを目的とした、大規模な言語モデルによるオープンソースフレームワークであるRepoAgentを紹介します。
RepoAgentは高品質なリポジトリレベルのドキュメントを生成するのに優れています。
論文 参考訳(メタデータ) (2024-02-26T15:39:52Z) - Generate rather than Retrieve: Large Language Models are Strong Context
Generators [74.87021992611672]
本稿では,文書検索を大規模言語モデル生成器に置き換えることで,知識集約型タスクを解く新しい視点を提案する。
我々は,提案手法をgenRead (genRead) と呼び,まず大きな言語モデルに対して,与えられた質問に基づいて文脈文書を生成し,次に生成された文書を読み出して最終回答を生成する。
論文 参考訳(メタデータ) (2022-09-21T01:30:59Z) - Topical: Learning Repository Embeddings from Source Code using Attention [3.110769442802435]
本稿では,リポジトリレベルの埋め込みのための新しいディープニューラルネットワークであるTopicalを提案する。
attentionメカニズムはソースコード、フル依存グラフ、スクリプトレベルのテキストデータからリポジトリレベルの表現を生成する。
論文 参考訳(メタデータ) (2022-08-19T18:13:27Z) - Assessing the quality of sources in Wikidata across languages: a hybrid
approach [64.05097584373979]
いくつかの言語でラベルを持つWikidataのトリプルからサンプルした参照コーパスの大規模なコーパスを評価するために,一連のマイクロタスク実験を実施している。
クラウドソースアセスメントの統合されたバージョンを使用して、いくつかの機械学習モデルをトレーニングして、Wikidata全体の分析をスケールアップしています。
この結果はWikidataにおける参照の質の確認に役立ち、ユーザ生成多言語構造化データの品質をWeb上で定義し、取得する際の共通の課題を特定するのに役立ちます。
論文 参考訳(メタデータ) (2021-09-20T10:06:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。