論文の概要: CodeWiki: Automated Repository-Level Documentation at Scale
- arxiv url: http://arxiv.org/abs/2510.24428v1
- Date: Tue, 28 Oct 2025 13:52:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:37.2082
- Title: CodeWiki: Automated Repository-Level Documentation at Scale
- Title(参考訳): CodeWiki: 大規模リポジトリ・レベルドキュメンテーションの自動化
- Authors: Nguyen Hoang Anh, Minh Le-Anh, Bach Le, Nghi D. Q. Bui,
- Abstract要約: CodeWikiは7つのプログラミング言語にまたがる総合的なリポジトリレベルのドキュメンテーションのための、最初のオープンソースフレームワークです。
また、マルチレベル合成とエージェントアセスメントを備えた最初のリポジトリレベルのドキュメンテーションベンチマークであるCodeWikiBenchについても紹介する。
- 参考スコア(独自算出の注目度): 8.201362955302058
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Developers spend nearly 58% of their time understanding codebases, yet maintaining comprehensive documentation remains challenging due to complexity and manual effort. While recent Large Language Models (LLMs) show promise for function-level documentation, they fail at the repository level, where capturing architectural patterns and cross-module interactions is essential. We introduce CodeWiki, the first open-source framework for holistic repository-level documentation across seven programming languages. CodeWiki employs three innovations: (i) hierarchical decomposition that preserves architectural context, (ii) recursive agentic processing with dynamic delegation, and (iii) synthesis of textual and visual artifacts including architecture diagrams and data flows. We also present CodeWikiBench, the first repository-level documentation benchmark with multi-level rubrics and agentic assessment. CodeWiki achieves 68.79% quality score with proprietary models and 64.80% with open-source alternatives, outperforming existing closed-source systems and demonstrating scalable, accurate documentation for real-world repositories.
- Abstract(参考訳): 開発者はコードベースを理解するのに58%近くを費やしている。
最近のLarge Language Models(LLM)は関数レベルのドキュメントを約束しているが、それらはリポジトリレベルで失敗し、アーキテクチャパターンのキャプチャとモジュール間の相互作用が不可欠である。
CodeWikiは7つのプログラミング言語にまたがる総合的なリポジトリレベルのドキュメンテーションのための、最初のオープンソースフレームワークです。
CodeWikiには3つのイノベーションがある。
一 建築の文脈を保存する階層的な分解
二 動的デリゲートによる再帰的エージェント処理及び
三 建築図、データフローを含む、テキスト及び視覚的アーティファクトの合成。
また、CodeWikiBenchは、リポジトリレベルのドキュメントベンチマークであり、マルチレベルのルーリックとエージェントアセスメントを備えている。
CodeWikiは、プロプライエタリなモデルで68.79%、オープンソースの代替品で64.80%、既存のクローズドソースシステムより優れ、現実世界のリポジトリでスケーラブルで正確なドキュメンテーションを実証している。
関連論文リスト
- RepoSummary: Feature-Oriented Summarization and Documentation Generation for Code Repositories [7.744086870383438]
RepoSummaryは機能指向のコードリポジトリ要約アプローチである。
同時にリポジトリドキュメンテーションを自動的に生成する。
機能機能から対応するコード要素へのより正確なトレーサビリティリンクを確立する。
論文 参考訳(メタデータ) (2025-10-13T06:16:44Z) - DocRefine: An Intelligent Framework for Scientific Document Understanding and Content Optimization based on Multimodal Large Model Agents [25.190790899297788]
DocRefineは、インテリジェントな理解、コンテンツの改良、科学的なPDF文書の自動要約のために設計された革新的なフレームワークである。
6つの専門的かつ協調的なエージェントからなる洗練されたマルチエージェントシステムを編成する。
さまざまなタスクにおいて、最先端のベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2025-08-09T15:32:52Z) - Zero-Shot Document Understanding using Pseudo Table of Contents-Guided Retrieval-Augmented Generation [4.875345207589195]
DocsRayは、トレーニング不要の文書理解システムである。
擬似コンテンツテーブル(TOC)生成と階層型検索拡張生成(RAG)を統合する
論文 参考訳(メタデータ) (2025-07-31T03:14:45Z) - Docopilot: Improving Multimodal Models for Document-Level Understanding [87.60020625241178]
マルチモーダル文書の詳細な理解を支援するために,高品質な文書レベルデータセットDoc-750Kを提案する。
このデータセットには、さまざまなドキュメント構造、広範なクロスページ依存関係、および元のドキュメントから派生した実際の質問と回答のペアが含まれている。
データセットに基づいて、RAGに頼ることなく、文書レベルの依存関係を正確に処理できるネイティブなマルチモーダルモデルであるDocopilotを開発する。
論文 参考訳(メタデータ) (2025-07-19T16:03:34Z) - CoIR: A Comprehensive Benchmark for Code Information Retrieval Models [52.61625841028781]
COIR(Code Information Retrieval Benchmark)は、コード検索機能を評価するために設計された、堅牢で包括的なベンチマークである。
COIRは、厳密にキュレートされた10のコードデータセットで構成され、7つの異なるドメインにまたがる8つの特有の検索タスクにまたがる。
我々は,COIRを用いた9つの広く使用されている検索モデルを評価し,最先端システムにおいても,コード検索タスクの実行に重大な困難があることを明らかにする。
論文 参考訳(メタデータ) (2024-07-03T07:58:20Z) - Alibaba LingmaAgent: Improving Automated Issue Resolution via Comprehensive Repository Exploration [64.19431011897515]
本稿では,問題解決のためにソフトウェアリポジトリ全体を包括的に理解し,活用するために設計された,新しいソフトウェアエンジニアリング手法であるAlibaba LingmaAgentを提案する。
提案手法では,重要なリポジトリ情報を知識グラフに凝縮し,複雑さを低減し,モンテカルロ木探索に基づく戦略を採用する。
Alibaba Cloudの製品展開と評価において、LingmaAgentは、開発エンジニアが直面した社内問題の16.9%を自動で解決し、手作業による介入で43.3%の問題を解決した。
論文 参考訳(メタデータ) (2024-06-03T15:20:06Z) - RepoAgent: An LLM-Powered Open-Source Framework for Repository-level
Code Documentation Generation [79.83270415843857]
コードドキュメンテーションを積極的に生成、保守、更新することを目的とした、大規模な言語モデルによるオープンソースフレームワークであるRepoAgentを紹介します。
RepoAgentは高品質なリポジトリレベルのドキュメントを生成するのに優れています。
論文 参考訳(メタデータ) (2024-02-26T15:39:52Z) - Generate rather than Retrieve: Large Language Models are Strong Context
Generators [74.87021992611672]
本稿では,文書検索を大規模言語モデル生成器に置き換えることで,知識集約型タスクを解く新しい視点を提案する。
我々は,提案手法をgenRead (genRead) と呼び,まず大きな言語モデルに対して,与えられた質問に基づいて文脈文書を生成し,次に生成された文書を読み出して最終回答を生成する。
論文 参考訳(メタデータ) (2022-09-21T01:30:59Z) - Topical: Learning Repository Embeddings from Source Code using Attention [3.110769442802435]
本稿では,リポジトリレベルの埋め込みのための新しいディープニューラルネットワークであるTopicalを提案する。
attentionメカニズムはソースコード、フル依存グラフ、スクリプトレベルのテキストデータからリポジトリレベルの表現を生成する。
論文 参考訳(メタデータ) (2022-08-19T18:13:27Z) - Assessing the quality of sources in Wikidata across languages: a hybrid
approach [64.05097584373979]
いくつかの言語でラベルを持つWikidataのトリプルからサンプルした参照コーパスの大規模なコーパスを評価するために,一連のマイクロタスク実験を実施している。
クラウドソースアセスメントの統合されたバージョンを使用して、いくつかの機械学習モデルをトレーニングして、Wikidata全体の分析をスケールアップしています。
この結果はWikidataにおける参照の質の確認に役立ち、ユーザ生成多言語構造化データの品質をWeb上で定義し、取得する際の共通の課題を特定するのに役立ちます。
論文 参考訳(メタデータ) (2021-09-20T10:06:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。