Fugu-MT 論文翻訳(概要): CodeWiki: Evaluating AI's Ability to Generate Holistic Documentation for Large-Scale Codebases

論文の概要: CodeWiki: Evaluating AI's Ability to Generate Holistic Documentation for Large-Scale Codebases

arxiv url: http://arxiv.org/abs/2510.24428v2
Date: Thu, 30 Oct 2025 01:38:03 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-31 13:50:54.733954
Title: CodeWiki: Evaluating AI's Ability to Generate Holistic Documentation for Large-Scale Codebases
Title（参考訳）: CodeWiki: 大規模コードベースのホロスティックドキュメンテーションを生成するAIの能力を評価する
Authors: Anh Nguyen Hoang, Minh Le-Anh, Bach Le, Nghi D. Q. Bui,
Abstract要約: bftextCodeWikiは、7つのプログラミング言語にまたがるリポジトリレベルのドキュメントを自動化する統合フレームワークである。 CodeWikiは、3つの重要なイノベーションを紹介している: (i) 階層的な分解はアーキテクチャのコンテキストを複数のレベルの粒度で保存し、 (ii) スケーラブルな生成のための動的タスクデリゲートによる再帰的マルチエージェント処理、 (iii) アーキテクチャ図やデータフロー表現のようなビジュアルアーティファクトとテキスト記述を統合するマルチモーダル合成である。 CodeWikiは、プロプライエタリなモデルで68.79%の品質スコアを獲得し、クローズドソースのDeepWikiベースライン(64.06%)を4.73%上回った。
参考スコア（独自算出の注目度）: 7.75137961900221
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Given a large and evolving codebase, the ability to automatically generate holistic, architecture-aware documentation that captures not only individual functions but also cross-file, cross-module, and system-level interactions remains an open challenge. Comprehensive documentation is essential for long-term software maintenance and collaboration, yet current automated approaches still fail to model the rich semantic dependencies and architectural structures that define real-world software systems. We present \textbf{CodeWiki}, a unified framework for automated repository-level documentation across seven programming languages. CodeWiki introduces three key innovations: (i) hierarchical decomposition that preserves architectural context across multiple levels of granularity, (ii) recursive multi-agent processing with dynamic task delegation for scalable generation, and (iii) multi-modal synthesis that integrates textual descriptions with visual artifacts such as architecture diagrams and data-flow representations. To enable rigorous evaluation, we introduce \textbf{CodeWikiBench}, a comprehensive benchmark featuring multi-dimensional rubrics and LLM-based assessment protocols. Experimental results show that CodeWiki achieves a 68.79\% quality score with proprietary models, outperforming the closed-source DeepWiki baseline (64.06\%) by 4.73\%, with particularly strong improvements on high-level scripting languages (+10.47\%). We open-source CodeWiki to foster future research and community adoption.
Abstract（参考訳）: 大規模で進化したコードベースを考えると、個々の関数だけでなく、クロスファイル、クロスモジュール、システムレベルのインタラクションをキャプチャする、全体的なアーキテクチャを意識したドキュメントを自動的に生成する能力は、依然としてオープンな課題である。包括的なドキュメントは、長期的なソフトウェア保守とコラボレーションには不可欠ですが、現在の自動化されたアプローチでは、現実世界のソフトウェアシステムを定義するリッチなセマンティックな依存関係とアーキテクチャ構造をモデル化できません。 7つのプログラミング言語にまたがるリポジトリレベルの自動ドキュメンテーションのための統合フレームワークである \textbf{CodeWiki} を提示する。 CodeWikiは3つの重要なイノベーションを紹介している。 (i)多段階の粒度のアーキテクチャ的文脈を保存する階層的な分解 (II)スケーラブルな生成のための動的タスクデリゲートを用いた再帰的マルチエージェント処理 3) テキスト記述をアーキテクチャ図やデータフロー表現などの視覚的アーティファクトと統合するマルチモーダル合成。厳密な評価を可能にするために,多次元ルーブリックとLLMに基づく評価プロトコルを備えた総合ベンチマークである \textbf{CodeWikiBench} を導入する。実験の結果、CodeWikiはプロプライエタリなモデルで68.79.%の品質スコアを獲得し、クローズドソースのDeepWikiベースライン(64.06.%)を4.73.%上回った。我々はCodeWikiをオープンソース化し、将来の研究とコミュニティの採用を促進する。

関連論文リスト

Architecture-Aware Multi-Design Generation for Repository-Level Feature Addition [53.50448142467294]
RAIMは、リポジトリレベルの機能追加のための、多設計およびアーキテクチャ対応のフレームワークである。複数の多様な実装設計を生成することで、線形パッチから切り離される。 NoCode-bench Verifiedデータセットの実験では、RAIMが新しい最先端のパフォーマンスを確立することが示されている。
論文参考訳（メタデータ） (2026-03-02T12:50:40Z)
Integrating Code Metrics into Automated Documentation Generation for Computational Notebooks [0.18665975431697424]
本稿では,自動文書生成のための補助信号として,ソースコードメトリクスが果たす役割について検討する。これは、コード、物語、結果を統合するが、一貫性のないドキュメントに苦しむデータサイエンティストの間で人気の媒体である計算ノートに焦点を当てている。その結果、コードメトリクスを組み込むことで、生成されたドキュメントの正確性と文脈的関連性が向上することがわかった。
論文参考訳（メタデータ） (2026-02-08T21:40:57Z)
SpecMap: Hierarchical LLM Agent for Datasheet-to-Code Traceability Link Recovery in Systems Engineering [8.235446273226277]
組み込みシステムとそれに対応するコード実装の間のトレーサビリティは、システムエンジニアリングにおける根本的な課題である。既存のトレーサビリティリンク回復アプローチは、語彙的類似性と情報検索技術に依存している。本稿では,意味解析に大規模言語モデルを用いる階層型コードマッピング手法を提案する。
論文参考訳（メタデータ） (2026-01-16T11:50:18Z)
Completion by Comprehension: Guiding Code Generation with Multi-Granularity Understanding [37.78627994991325]
CoCoは、大規模なコードリポジトリから複数の粒度コンテキストでコード補完を可能にする新しいフレームワークである。 CrossCodeEvalとRepoEvalベンチマークの実験は、CoCoが最先端のベースラインを一貫して上回っていることを示している。
論文参考訳（メタデータ） (2025-12-04T07:37:59Z)
Scaling Beyond Context: A Survey of Multimodal Retrieval-Augmented Generation for Document Understanding [61.36285696607487]
文書理解は、財務分析から科学的発見への応用に不可欠である。現在のアプローチでは、OCRベースのパイプラインがLarge Language Models(LLM)やネイティブのMultimodal LLMs(MLLM)に制限されている。 Retrieval-Augmented Generation (RAG)は、外部データの基底モデルを支援するが、文書のマルチモーダルな性質は、テキスト、テーブル、チャート、レイアウトを組み合わせることで、より高度なパラダイムを必要とする。
論文参考訳（メタデータ） (2025-10-17T02:33:16Z)
RepoSummary: Feature-Oriented Summarization and Documentation Generation for Code Repositories [7.744086870383438]
RepoSummaryは機能指向のコードリポジトリ要約アプローチである。同時にリポジトリドキュメンテーションを自動的に生成する。機能機能から対応するコード要素へのより正確なトレーサビリティリンクを確立する。
論文参考訳（メタデータ） (2025-10-13T06:16:44Z)
Loong: Synthesize Long Chain-of-Thoughts at Scale through Verifiers [103.4410890572479]
スケーラブルな合成データ生成と検証のためのオープンソースのフレームワークであるLoong Projectを紹介します。 LoongBenchは、12のドメインにまたがる8,729の人為的なサンプルを含む、キュレートされたシードデータセットである。 LoongEnvはモジュラー合成データ生成環境であり、新しい質問応答コードのトリプルを生成する複数のプロンプト戦略をサポートする。
論文参考訳（メタデータ） (2025-09-03T06:42:40Z)
DocRefine: An Intelligent Framework for Scientific Document Understanding and Content Optimization based on Multimodal Large Model Agents [25.190790899297788]
DocRefineは、インテリジェントな理解、コンテンツの改良、科学的なPDF文書の自動要約のために設計された革新的なフレームワークである。 6つの専門的かつ協調的なエージェントからなる洗練されたマルチエージェントシステムを編成する。さまざまなタスクにおいて、最先端のベースラインを一貫して上回る。
論文参考訳（メタデータ） (2025-08-09T15:32:52Z)
Zero-Shot Document Understanding using Pseudo Table of Contents-Guided Retrieval-Augmented Generation [4.875345207589195]
DocsRayは、トレーニング不要の文書理解システムである。擬似コンテンツテーブル(TOC)生成と階層型検索拡張生成(RAG)を統合する
論文参考訳（メタデータ） (2025-07-31T03:14:45Z)
Docopilot: Improving Multimodal Models for Document-Level Understanding [87.60020625241178]
マルチモーダル文書の詳細な理解を支援するために,高品質な文書レベルデータセットDoc-750Kを提案する。このデータセットには、さまざまなドキュメント構造、広範なクロスページ依存関係、および元のドキュメントから派生した実際の質問と回答のペアが含まれている。データセットに基づいて、RAGに頼ることなく、文書レベルの依存関係を正確に処理できるネイティブなマルチモーダルモデルであるDocopilotを開発する。
論文参考訳（メタデータ） (2025-07-19T16:03:34Z)
OmniParser V2: Structured-Points-of-Thought for Unified Visual Text Parsing and Its Generality to Multimodal Large Language Models [58.45517851437422]
VsTP(Visually-situated text parsing)は、自動化された文書理解の需要が高まり、最近顕著な進歩を遂げている。既存のソリューションは、タスク固有のアーキテクチャと個々のタスクの目的に依存していることが多い。本稿では,テキストスポッティング,キー情報抽出,テーブル認識,レイアウト解析など,VsTPの典型的なタスクを統一する汎用モデルであるOmni V2を紹介する。
論文参考訳（メタデータ） (2025-02-22T09:32:01Z)
CoIR: A Comprehensive Benchmark for Code Information Retrieval Models [52.61625841028781]
COIR(Code Information Retrieval Benchmark)は、コード検索機能を評価するために設計された、堅牢で包括的なベンチマークである。 COIRは、厳密にキュレートされた10のコードデータセットで構成され、7つの異なるドメインにまたがる8つの特有の検索タスクにまたがる。我々は,COIRを用いた9つの広く使用されている検索モデルを評価し,最先端システムにおいても,コード検索タスクの実行に重大な困難があることを明らかにする。
論文参考訳（メタデータ） (2024-07-03T07:58:20Z)
Alibaba LingmaAgent: Improving Automated Issue Resolution via Comprehensive Repository Exploration [64.19431011897515]
本稿では,問題解決のためにソフトウェアリポジトリ全体を包括的に理解し,活用するために設計された,新しいソフトウェアエンジニアリング手法であるAlibaba LingmaAgentを提案する。提案手法では,重要なリポジトリ情報を知識グラフに凝縮し,複雑さを低減し,モンテカルロ木探索に基づく戦略を採用する。 Alibaba Cloudの製品展開と評価において、LingmaAgentは、開発エンジニアが直面した社内問題の16.9%を自動で解決し、手作業による介入で43.3%の問題を解決した。
論文参考訳（メタデータ） (2024-06-03T15:20:06Z)
RepoAgent: An LLM-Powered Open-Source Framework for Repository-level Code Documentation Generation [79.83270415843857]
コードドキュメンテーションを積極的に生成、保守、更新することを目的とした、大規模な言語モデルによるオープンソースフレームワークであるRepoAgentを紹介します。 RepoAgentは高品質なリポジトリレベルのドキュメントを生成するのに優れています。
論文参考訳（メタデータ） (2024-02-26T15:39:52Z)
Generate rather than Retrieve: Large Language Models are Strong Context Generators [74.87021992611672]
本稿では,文書検索を大規模言語モデル生成器に置き換えることで,知識集約型タスクを解く新しい視点を提案する。我々は,提案手法をgenRead (genRead) と呼び,まず大きな言語モデルに対して,与えられた質問に基づいて文脈文書を生成し,次に生成された文書を読み出して最終回答を生成する。
論文参考訳（メタデータ） (2022-09-21T01:30:59Z)
Topical: Learning Repository Embeddings from Source Code using Attention [3.110769442802435]
本稿では,リポジトリレベルの埋め込みのための新しいディープニューラルネットワークであるTopicalを提案する。 attentionメカニズムはソースコード、フル依存グラフ、スクリプトレベルのテキストデータからリポジトリレベルの表現を生成する。
論文参考訳（メタデータ） (2022-08-19T18:13:27Z)
Autoregressive Search Engines: Generating Substrings as Document Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文参考訳（メタデータ） (2022-04-22T10:45:01Z)
Assessing the quality of sources in Wikidata across languages: a hybrid approach [64.05097584373979]
いくつかの言語でラベルを持つWikidataのトリプルからサンプルした参照コーパスの大規模なコーパスを評価するために,一連のマイクロタスク実験を実施している。クラウドソースアセスメントの統合されたバージョンを使用して、いくつかの機械学習モデルをトレーニングして、Wikidata全体の分析をスケールアップしています。この結果はWikidataにおける参照の質の確認に役立ち、ユーザ生成多言語構造化データの品質をWeb上で定義し、取得する際の共通の課題を特定するのに役立ちます。
論文参考訳（メタデータ） (2021-09-20T10:06:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。