論文の概要: Evaluating Repository-level Software Documentation via Question Answering and Feature-Driven Development
- arxiv url: http://arxiv.org/abs/2604.06793v1
- Date: Wed, 08 Apr 2026 07:58:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 17:30:51.414639
- Title: Evaluating Repository-level Software Documentation via Question Answering and Feature-Driven Development
- Title(参考訳): 質問応答と機能駆動開発によるリポジトリレベルのソフトウェアドキュメンテーションの評価
- Authors: Xinchen Wang, Ruida Hu, Cuiyun Gao, Pengfei Gao, Chao Peng,
- Abstract要約: SWD-Benchは、リポジトリレベルのソフトウェアドキュメンテーションを評価するための新しいベンチマークである。
ドキュメント駆動開発に触発された私たちの戦略は、LLMの機能を理解し実装する能力を評価することで、ドキュメントの品質を評価します。
高品質なプルリクエストをマイニングし、リポジトリレベルのコンテキストでそれらを強化することで、4,170のエントリを含むベンチマークを構築します。
- 参考スコア(独自算出の注目度): 11.174059895410357
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Software documentation is crucial for repository comprehension. While Large Language Models (LLMs) advance documentation generation from code snippets to entire repositories, existing benchmarks have two key limitations: (1) they lack a holistic, repository-level assessment, and (2) they rely on unreliable evaluation strategies, such as LLM-as-a-judge, which suffers from vague criteria and limited repository-level knowledge. To address these issues, we introduce SWD-Bench, a novel benchmark for evaluating repository-level software documentation. Inspired by documentation-driven development, our strategy evaluates documentation quality by assessing an LLM's ability to understand and implement functionalities using the documentation, rather than by directly scoring it. This is measured through function-driven Question Answering (QA) tasks. SWD-Bench comprises three interconnected QA tasks: (1) Functionality Detection, to determine if a functionality is described; (2) Functionality Localization, to evaluate the accuracy of locating related files; and (3) Functionality Completion, to measure the comprehensiveness of implementation details. We construct the benchmark, containing 4,170 entries, by mining high-quality Pull Requests and enriching them with repository-level context. Experiments reveal limitations in current documentation generation methods and show that source code provides complementary value. Notably, documentation from the best-performing method improves the issue-solving rate of SWE-Agent by 20.00%, which demonstrates the practical value of high-quality documentation in supporting documentation-driven development.
- Abstract(参考訳): ソフトウェアドキュメンテーションはリポジトリの理解に不可欠です。
大きな言語モデル(LLM)がコードスニペットからリポジトリ全体へのドキュメント生成を前進させている一方で、既存のベンチマークには2つの重要な制限がある。
SWD-Benchは,レポジトリレベルのソフトウェアドキュメンテーションを評価するための新しいベンチマークである。
ドキュメンテーション駆動開発にインスパイアされた当社の戦略は、直接スコアリングするのではなく、ドキュメンテーションを使って機能を理解し実装するLLMの能力を評価することで、ドキュメンテーションの品質を評価します。
これは、機能駆動型質問応答(QA)タスクによって測定される。
SWD-Benchは,(1)機能検出,機能記述の判定,(2)機能局在,関連ファイルの配置精度評価,(3)機能補完,実装詳細の包括性評価という3つの相互接続型QAタスクから構成される。
高品質なプルリクエストをマイニングし、リポジトリレベルのコンテキストでそれらを強化することで、4,170のエントリを含むベンチマークを構築します。
実験では、現在のドキュメント生成メソッドの制限を明らかにし、ソースコードが補完的な価値を提供することを示す。
特に、最高のパフォーマンスの手法によるドキュメントは、SWE-Agentの問題解決率を20.00%向上させ、ドキュメント駆動開発をサポートするための高品質なドキュメントの実用的価値を示している。
関連論文リスト
- RAL-Bench: Benchmarking for Application-Level Functional Correctness and Non-Functional Quality Attributes [12.202503919149118]
RAL-Benchはアプリケーションレベルのコード生成のためのベンチマークおよび評価フレームワークである。
各タスクに対して,高品質な参照プロジェクトから簡潔な自然言語要求を抽出する。
Black-boxシステムテストは機能的および非機能的属性をカバーし、参照リポジトリに渡すテストのみを保持する。
論文 参考訳(メタデータ) (2026-02-03T12:35:09Z) - Benchmarking LLMs for Fine-Grained Code Review with Enriched Context in Practice [18.222990693059756]
ContextCRBenchは、コードレビューにおける詳細なLCM評価のためのベンチマークである。
153.7Kのイシューとトップレベルのリポジトリからのプルリクエストを収集する。
レビューワークフローに沿った3つの評価シナリオをサポートする。
論文 参考訳(メタデータ) (2025-11-10T12:06:35Z) - RepoSummary: Feature-Oriented Summarization and Documentation Generation for Code Repositories [7.744086870383438]
RepoSummaryは機能指向のコードリポジトリ要約アプローチである。
同時にリポジトリドキュメンテーションを自動的に生成する。
機能機能から対応するコード要素へのより正確なトレーサビリティリンクを確立する。
論文 参考訳(メタデータ) (2025-10-13T06:16:44Z) - Document Attribution: Examining Citation Relationships using Large Language Models [62.46146670035751]
そこで本研究では,帰属を簡単なテキスト・エンタテインメント・タスクとみなすゼロショット・アプローチを提案する。
また,アトリビューションプロセスの強化におけるアテンションメカニズムの役割についても検討する。
論文 参考訳(メタデータ) (2025-05-09T04:40:11Z) - Benchmarking Large Language Models for Conversational Question Answering in Multi-instructional Documents [61.41316121093604]
対話型質問応答(CQA)の文脈における大規模言語モデル(LLM)を評価するための新しいベンチマークであるInsCoQAを提案する。
InsCoQAは、百科事典スタイルの教育内容から派生したもので、複数の文書から手続き的ガイダンスを抽出し、解釈し、正確に要約する能力のモデルを評価する。
また,LLM支援型評価器であるInsEvalを提案する。
論文 参考訳(メタデータ) (2024-10-01T09:10:00Z) - RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [66.93260816493553]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に焦点をあてて,完全性,幻覚,不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z) - DOCBENCH: A Benchmark for Evaluating LLM-based Document Reading Systems [99.17123445211115]
本稿では,大規模言語モデル(LLM)に基づく文書読解システムを評価するベンチマークであるDocBenchを紹介する。
我々のベンチマークには、人間のアノテーションの募集と、合成質問の生成が含まれる。
実際の文書は229件、質問は1,102件で、5つのドメインにまたがって4種類の質問がある。
論文 参考訳(メタデータ) (2024-07-15T13:17:42Z) - On the Impacts of Contexts on Repository-Level Code Generation [5.641402231731082]
本稿ではレポジトリレベルのコード生成を評価するために設計された新しいベンチマークであるRepoExecを紹介する。
実行可能性、包括的なテストケース生成による機能的正当性、ファイル間のコンテキストの正確な利用という3つの重要な側面に注目します。
論文 参考訳(メタデータ) (2024-06-17T10:45:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。