論文の概要: DocFetch - Towards Generating Software Documentation from Multiple Software Artifacts
- arxiv url: http://arxiv.org/abs/2508.17719v1
- Date: Mon, 25 Aug 2025 06:54:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.666853
- Title: DocFetch - Towards Generating Software Documentation from Multiple Software Artifacts
- Title(参考訳): DocFetch - 複数のソフトウェアアーチファクトからソフトウェアドキュメンテーションを生成する
- Authors: Akhila Sri Manasa Venigalla, Sridhar Chimalakonda,
- Abstract要約: ドキュメントを生成するための既存の自動アプローチは、主にソースコードに焦点を当てている。
複数のソフトウェアアーティファクトからさまざまなタイプのドキュメンテーションを生成するDocFetchを提案する。
我々は,手作業によるグラウンドトルースデータセットを用いたDocFetchの性能評価を行った。
- 参考スコア(独自算出の注目度): 5.780991619197141
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Software Documentation plays a major role in the usage and development of a project. Widespread adoption of open source software projects contributes to larger and faster development of the projects, making it difficult to maintain the associated documentation. Existing automated approaches to generate documentation largely focus on source code. However, information useful for documentation is observed to be scattered across various artifacts that co-evolve with the source code. Leveraging this information across multiple artifacts can reduce the effort involved in maintaining documentation. Hence, we propose DocFetch, to generate different types of documentation from multiple software artifacts. We employ a multi-layer prompt based LLM and generate structured documentation corresponding to different documentation types for the data consolidated in DocMine dataset. We evaluate the performance of DocFetch using a manually curated groundtruth dataset by analysing the artifacts in DocMine. The evaluation yields a highest BLEU-4 score of 43.24% and ROUGE-L score of 0.39 for generation of api-related and file-related information from five documentation sources. The generation of other documentation type related information also reported BLEU-4 scores close to 30% indicating good performance of the approach. Thus,DocFetch can be employed to semi-automatically generate documentation, and helps in comprehending the projects with minimal effort in maintaining the documentation.
- Abstract(参考訳): ソフトウェアドキュメンテーションは、プロジェクトの使用と開発において重要な役割を果たします。
オープンソースソフトウェアプロジェクトの広範な採用は、プロジェクトの大規模化と迅速な開発に寄与し、関連するドキュメントのメンテナンスが困難になる。
ドキュメントを生成するための既存の自動アプローチは、主にソースコードに焦点を当てている。
しかし、ドキュメンテーションに役立つ情報は、ソースコードと共進化する様々なアーティファクトに散らばっているのが観察されている。
この情報を複数のアーティファクトで活用することで、ドキュメントのメンテナンスに関わる労力を削減できます。
そこで我々は,複数のソフトウェアアーティファクトからさまざまなタイプのドキュメンテーションを生成するDocFetchを提案する。
我々は多層プロンプトベースのLCMを使用し、DocMineデータセットに集約されたデータに対して、さまざまなドキュメントタイプに対応する構造化ドキュメントを生成する。
DocMineのアーティファクトを解析し,手作業によるグラウンドトルースデータセットを用いたDocFetchの性能評価を行った。
この評価は、最も高いBLEU-4スコアは43.24%、ROUGE-Lスコアは0.39で、5つのドキュメントソースからapi関連およびファイル関連情報を生成する。
他のドキュメンテーションタイプの関連情報も、BLEU-4のスコアを30%近く報告し、このアプローチの優れたパフォーマンスを示している。
このようにDocFetchは半自動でドキュメンテーションを生成するのに使用することができ、ドキュメントの維持に最小限の労力でプロジェクトを理解するのに役立ちます。
関連論文リスト
- Docopilot: Improving Multimodal Models for Document-Level Understanding [87.60020625241178]
マルチモーダル文書の詳細な理解を支援するために,高品質な文書レベルデータセットDoc-750Kを提案する。
このデータセットには、さまざまなドキュメント構造、広範なクロスページ依存関係、および元のドキュメントから派生した実際の質問と回答のペアが含まれている。
データセットに基づいて、RAGに頼ることなく、文書レベルの依存関係を正確に処理できるネイティブなマルチモーダルモデルであるDocopilotを開発する。
論文 参考訳(メタデータ) (2025-07-19T16:03:34Z) - OmniDocBench: Benchmarking Diverse PDF Document Parsing with Comprehensive Annotations [22.336858733121158]
OmniDocBenchは9つのドキュメントソースにまたがる高品質なアノテーションを特徴とする新しいベンチマークです。
パイプラインベースの手法とエンドツーエンドのビジョン言語モデルの両方を徹底的に評価する。
論文 参考訳(メタデータ) (2024-12-10T16:05:56Z) - BigDocs: An Open Dataset for Training Multimodal Models on Document and Code Tasks [57.589795399265945]
我々は,30タスクにわたる750万のマルチモーダルドキュメントからなる高品質なオープンアクセスデータセットであるBigDocs-7.5Mを紹介した。
BigDocs-Benchも導入しています。
実験の結果,BigDocs-Bench を用いたトレーニングでは,クローズドソース GPT-4o よりも平均性能が 25.8% 向上していることがわかった。
論文 参考訳(メタデータ) (2024-12-05T21:41:20Z) - Supporting Software Maintenance with Dynamically Generated Document Hierarchies [41.407915858583344]
HGENは、ソースコードを6つのステージで変換し、構造化された文書の階層構造に変換する、完全に自動化されたパイプラインである。
我々はHGENを定量的にも質的にも評価した。
その結果,HGENは手作業で構築したドキュメントに類似したアーティファクト階層を生成し,コアコンセプトをベースラインアプローチよりもはるかに高いカバレッジで実現していることがわかった。
論文 参考訳(メタデータ) (2024-08-11T17:11:14Z) - DocGenome: An Open Large-scale Scientific Document Benchmark for Training and Testing Multi-modal Large Language Models [63.466265039007816]
我々は、arXivオープンアクセスコミュニティの153の分野から500Kの科学文書を注釈付けして構築した構造化文書ベンチマークDocGenomeを提案する。
我々はDocGenomeの利点を実証するために広範な実験を行い、我々のベンチマークで大規模モデルの性能を客観的に評価した。
論文 参考訳(メタデータ) (2024-06-17T15:13:52Z) - Understanding Documentation Use Through Log Analysis: An Exploratory
Case Study of Four Cloud Services [14.104545948572836]
クラウドベースの4つの産業サービスから,ドキュメントのページビューログを分析した。
10万人以上のユーザのページビューログを分析することで、さまざまなドキュメントページ訪問パターンが見つかる。
本論文では,文書の監査を行うための有効な手法として,文書のページビューログ分析を提案する。
論文 参考訳(メタデータ) (2023-10-16T20:37:29Z) - DocumentNet: Bridging the Data Gap in Document Pre-Training [78.01647768018485]
本稿では,Webから大規模かつ弱いラベル付きデータを収集し,VDERモデルの学習に役立てる手法を提案する。
収集されたデータセットはDocumentNetと呼ばれ、特定のドキュメントタイプやエンティティセットに依存しない。
広く採用されているVDERタスクの実験は、DocumentNetを事前トレーニングに組み込んだ場合、大幅に改善されている。
論文 参考訳(メタデータ) (2023-06-15T08:21:15Z) - DocBank: A Benchmark Dataset for Document Layout Analysis [114.81155155508083]
文書レイアウト解析のための詳細なトークンレベルのアノテーションを備えた500Kドキュメントページを含むベンチマークデータセットである textbfDocBank を提示する。
実験の結果,DocBankでトレーニングされたモデルは,さまざまなドキュメントのレイアウト情報を正確に認識することがわかった。
論文 参考訳(メタデータ) (2020-06-01T16:04:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。