論文の概要: Code2Doc: A Quality-First Curated Dataset for Code Documentation
- arxiv url: http://arxiv.org/abs/2512.18748v2
- Date: Wed, 24 Dec 2025 06:47:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-25 13:34:31.939243
- Title: Code2Doc: A Quality-First Curated Dataset for Code Documentation
- Title(参考訳): Code2Doc: コードドキュメンテーションのための品質第一のキュレーションデータセット
- Authors: Recep Kaan Karaman, Meftun Akarsu,
- Abstract要約: 機能レベルのコードドキュメンテーション生成のための品質第一のキュレートデータセットであるCode2Docを紹介します。
Code2Docは、オープンソースリポジトリから抽出された13,358の高品質な関数ドキュメントペアで構成されている。
52,069人の候補者から始めて、全ての品質制約を満たすのは25.6%である。
全体として、86.9%のサンプルには明示的な型アノテーションが含まれており、潜在的なAI生成としてフラグ付けされているのはわずか2.9%である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The performance of automatic code documentation generation models depends critically on the quality of the training data used for supervision. However, most existing code documentation datasets are constructed through large scale scraping of public repositories with limited quality control. As a result, they often contain noisy documentation, extensive duplication, and increasing contamination from AI generated content. These issues weaken the supervision signal available to learning-based models and complicate evaluation. We introduce Code2Doc, a quality-first curated dataset for function-level code documentation generation. Code2Doc consists of 13,358 high-quality function-documentation pairs extracted from widely used open-source repositories spanning five programming languages: Python, Java, TypeScript, JavaScript, and C++. The dataset is constructed using a four-stage curation pipeline that enforces documentation completeness and clarity, filters functions based on structural and complexity criteria, removes exact and near-duplicate code, and identifies documentation likely to be AI generated. Starting from 52,069 extracted candidates, only 25.6% satisfy all quality constraints. We provide a detailed analysis of the resulting dataset, which achieves a mean documentation quality score of 6.93 out of 10. Overall, 86.9% of samples contain explicit type annotations, and only 2.9% are flagged as potentially AI generated. Baseline experiments show that fine-tuning a large language model on Code2Doc yields relative improvements of 29.47% in BLEU and 24.04% in ROUGE-L over zero shot performance, despite the modest dataset size. We release both the dataset and the full curation pipeline to support reproducible research on automatic code documentation generation.
- Abstract(参考訳): 自動コードドキュメンテーション生成モデルの性能は、監督に使用されるトレーニングデータの品質に大きく依存する。
しかしながら、既存のコードドキュメンテーションデータセットのほとんどは、品質管理の制限のあるパブリックリポジトリの大規模なスクラップによって構築されている。
結果として、ノイズの多いドキュメント、広範な重複、AI生成コンテンツからの汚染の増加などがしばしば含まれる。
これらの問題は、学習ベースモデルで利用可能な監視シグナルを弱め、評価を複雑にする。
機能レベルのコードドキュメンテーション生成のための品質第一のキュレートデータセットであるCode2Docを紹介します。
Code2Docは、Python、Java、TypeScript、JavaScript、C++という5つのプログラミング言語にまたがる、広く使われているオープンソースリポジトリから抽出された13,358の高品質な関数ドキュメントペアで構成されている。
データセットは、4段階のキュレーションパイプラインを使用して構築され、ドキュメントの完全性と明確さを強制し、構造的および複雑性の基準に基づいて関数をフィルタリングし、正確でほぼ重複したコードを削除し、AIが生成する可能性のあるドキュメントを特定する。
52,069人の候補者から始めて、全ての品質制約を満たすのは25.6%である。
得られたデータセットの詳細な分析を行い、平均文書品質スコアは10点中6.93点である。
全体として、86.9%のサンプルには明示的な型アノテーションが含まれており、潜在的なAI生成としてフラグ付けされているのはわずか2.9%である。
ベースライン実験によると、Code2Docで大規模な言語モデルを微調整すると、データセットのサイズがやや小さいにもかかわらず、BLEUで29.47%、ROUGE-Lで24.04%の相対的な改善が得られる。
自動コードドキュメンテーション生成に関する再現可能な研究をサポートするために、データセットと完全なキュレーションパイプラインの両方をリリースします。
関連論文リスト
- Generating High-Quality Datasets for Code Editing via Open-Source Language Models [49.01026966779838]
我々は,リアルなコード編集三脚を合成するオープンソースのパイプラインであるOpenCodeEditを紹介する。
パイプラインは簡潔な"遅延"命令とより詳細な"記述"命令の両方を生成し、データ品質と多様性を保証するために差分とトピックに基づいたフィルタリングを適用する。
OCEDataFTの細調整された3つのベースモデルは、CanItEditベンチマークで大幅なパフォーマンス向上をもたらし、相対パス@1は4.50%から20.79%まで改善された。
論文 参考訳(メタデータ) (2025-09-19T03:57:39Z) - UnitCoder: Scalable Iterative Code Synthesis with Unit Test Guidance [65.01483640267885]
大きな言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示してきたが、コード生成は依然として大きな課題である。
私たちは、モデル生成ユニットテストを活用してコード生成プロセスのガイドと検証を行う、システマティックパイプラインであるUnitCoderを紹介します。
我々の研究は、モデル生成単体テストを利用して、事前学習コーパスから高品質なコードデータの合成を誘導するスケーラブルなアプローチを提案する。
論文 参考訳(メタデータ) (2025-02-17T05:37:02Z) - BigDocs: An Open Dataset for Training Multimodal Models on Document and Code Tasks [57.589795399265945]
我々は,30タスクにわたる750万のマルチモーダルドキュメントからなる高品質なオープンアクセスデータセットであるBigDocs-7.5Mを紹介した。
BigDocs-Benchも導入しています。
実験の結果,BigDocs-Bench を用いたトレーニングでは,クローズドソース GPT-4o よりも平均性能が 25.8% 向上していることがわかった。
論文 参考訳(メタデータ) (2024-12-05T21:41:20Z) - CodeInsight: A Curated Dataset of Practical Coding Solutions from Stack Overflow [10.19019476978683]
データセットは、明確化インテント、コードスニペットの関連、関連する3つのユニットテストの平均を含む例を提供する。
Pythonの専門家が作成した3,409の例を補完する私たちのデータセットは、モデル微調整とスタンドアロン評価の両方のために設計されています。
論文 参考訳(メタデータ) (2024-09-25T11:18:52Z) - Using Large Language Models to Enrich the Documentation of Datasets for Machine Learning [1.8270184406083445]
大規模言語モデル(LLM)を用いて,文書から次元を自動的に抽出する戦略について検討する。
当社のアプローチは、データパブリッシャや実践者がマシン可読なドキュメントを作成するのに役立ちます。
我々は、我々のアプローチを実装するオープンソースツールと、実験のコードと結果を含むレプリケーションパッケージをリリースした。
論文 参考訳(メタデータ) (2024-04-04T10:09:28Z) - CodeExp: Explanatory Code Document Generation [94.43677536210465]
既存のコード・トゥ・テキスト生成モデルは、コードの高レベルな要約のみを生成する。
我々は、コードのための高品質な説明記述の基準を特定するために、人間の研究を行う。
タスクのための多段階微調整戦略とベースラインモデルを提案する。
論文 参考訳(メタデータ) (2022-11-25T18:05:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。