論文の概要: Integrating Code Metrics into Automated Documentation Generation for Computational Notebooks
- arxiv url: http://arxiv.org/abs/2602.08133v1
- Date: Sun, 08 Feb 2026 21:40:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.995997
- Title: Integrating Code Metrics into Automated Documentation Generation for Computational Notebooks
- Title(参考訳): 計算ノートの自動文書生成へのコードメトリクスの統合
- Authors: Mojtaba Mostafavi Ghahfarokhi, Hamed Jahantigh, Alireza Asadi, Abbas Heydarnoori,
- Abstract要約: 本稿では,自動文書生成のための補助信号として,ソースコードメトリクスが果たす役割について検討する。
これは、コード、物語、結果を統合するが、一貫性のないドキュメントに苦しむデータサイエンティストの間で人気の媒体である計算ノートに焦点を当てている。
その結果、コードメトリクスを組み込むことで、生成されたドキュメントの正確性と文脈的関連性が向上することがわかった。
- 参考スコア(独自算出の注目度): 0.18665975431697424
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Effective code documentation is essential for collaboration, comprehension, and long-term software maintainability, yet developers often neglect it due to its repetitive nature. Automated documentation generation has evolved from heuristic and rule-based methods to neural network-based and large language model (LLM)-based approaches. However, existing methods often overlook structural and quantitative characteristics of code that influence readability and comprehension. Prior research suggests that code metrics capture information relevant to program understanding. Building on these insights, this paper investigates the role of source code metrics as auxiliary signals for automated documentation generation, focusing on computational notebooks, a popular medium among data scientists that integrates code, narrative, and results but suffers from inconsistent documentation. We propose a two-stage approach. First, the CodeSearchNet dataset construction process was refined to create a specialized dataset from over 17 million code and markdown cells. After structural and semantic filtering, approximately 36,734 high-quality (code, markdown) pairs were extracted. Second, two modeling paradigms, a lightweight CNN-RNN architecture and a few-shot GPT-3.5 architecture, were evaluated with and without metric information. Results show that incorporating code metrics improves the accuracy and contextual relevance of generated documentation, yielding gains of 6% in BLEU-1 and 3% in ROUGE-L F1 for CNN-RNN-based architecture, and 9% in BERTScore F1 for LLM-based architecture. These findings demonstrate that integrating code metrics provides valuable structural context, enhancing automated documentation generation across diverse model families.
- Abstract(参考訳): 効果的なコードドキュメンテーションは、コラボレーション、理解、長期のソフトウェア保守性に不可欠だが、開発者は反復的な性質のためにそれを無視することが多い。
自動ドキュメント生成は、ヒューリスティックおよびルールベースのメソッドから、ニューラルネットワークベースの大規模言語モデル(LLM)ベースのアプローチへと進化してきた。
しかし、既存の手法は可読性と理解に影響を与えるコードの構造的および量的特性を見落としていることが多い。
以前の研究では、コードメトリクスがプログラムの理解に関連する情報を取得することが示唆されていた。
これらの知見に基づいて,ソースコードメトリクスが自動文書生成の補助信号としての役割を考察し,コード,ナラティブ,結果を統合するデータサイエンティストの間で人気のメディアである計算ノートに焦点をあてる。
2段階のアプローチを提案する。
まず、CodeSearchNetデータセット構築プロセスが洗練され、1700万以上のコードとマークダウンセルから特別なデータセットを生成する。
構造的および意味的フィルタリングの後、約36,734個の高品質な(コード、マークダウン)ペアが抽出された。
第2に,2つのモデリングパラダイム,軽量CNN-RNNアーキテクチャと数発のGPT-3.5アーキテクチャを計量情報を用いて評価した。
その結果,CNN-RNNアーキテクチャではBLEU-1の6%,ROUGE-L F1の3%,LLMアーキテクチャではBERTScore F1の9%が得られた。
これらの結果から,コードメトリクスの統合は,さまざまなモデルファミリにまたがって,ドキュメントの自動生成を向上する上で,貴重な構造的コンテキストを提供することが明らかになった。
関連論文リスト
- SpecMap: Hierarchical LLM Agent for Datasheet-to-Code Traceability Link Recovery in Systems Engineering [8.235446273226277]
組み込みシステムとそれに対応するコード実装の間のトレーサビリティは、システムエンジニアリングにおける根本的な課題である。
既存のトレーサビリティリンク回復アプローチは、語彙的類似性と情報検索技術に依存している。
本稿では,意味解析に大規模言語モデルを用いる階層型コードマッピング手法を提案する。
論文 参考訳(メタデータ) (2026-01-16T11:50:18Z) - UniRec-0.1B: Unified Text and Formula Recognition with 0.1B Parameters [55.34921520578968]
視覚言語モデル(VLM)は、テキストと公式の統一的な認識を実現している。
パラメータが0.1Bしか持たない統一認識モデルUniRec-0.1Bを提案する。
文字、単語、行、段落、文書など、複数のレベルでテキストや公式の認識を行うことができる。
論文 参考訳(メタデータ) (2025-12-24T10:35:21Z) - CodeWiki: Evaluating AI's Ability to Generate Holistic Documentation for Large-Scale Codebases [7.75137961900221]
bftextCodeWikiは、7つのプログラミング言語にまたがるリポジトリレベルのドキュメントを自動化する統合フレームワークである。
CodeWikiは、3つの重要なイノベーションを紹介している: (i) 階層的な分解はアーキテクチャのコンテキストを複数のレベルの粒度で保存し、 (ii) スケーラブルな生成のための動的タスクデリゲートによる再帰的マルチエージェント処理、 (iii) アーキテクチャ図やデータフロー表現のようなビジュアルアーティファクトとテキスト記述を統合するマルチモーダル合成である。
CodeWikiは、プロプライエタリなモデルで68.79%の品質スコアを獲得し、クローズドソースのDeepWikiベースライン(64.06%)を4.73%上回った。
論文 参考訳(メタデータ) (2025-10-28T13:52:46Z) - Paper2Code: Automating Code Generation from Scientific Papers in Machine Learning [70.04746094652653]
機械学習論文を機能コードリポジトリに変換するフレームワークであるPaperCoderを紹介した。
PaperCoderは3つの段階で動作する。計画、図によるシステムアーキテクチャの設計、ファイル依存の特定、構成ファイルの生成である。
次に、モデルベースおよび人的評価の両方に基づいて、機械学習論文からコード実装を生成するPaperCoderを評価する。
論文 参考訳(メタデータ) (2025-04-24T01:57:01Z) - Contextualized Data-Wrangling Code Generation in Computational Notebooks [131.26365849822932]
我々は、マルチモーダルなコンテキスト依存を明確にしたデータラングリングコード生成例をマイニングするために、CoCoMineという自動アプローチを提案する。
コンテクスト化されたデータラングリングコード生成のための58,221のサンプルを含むデータセットであるCoCoNoteをNotebooksで構築する。
実験結果は、データラングリングコード生成にデータコンテキストを組み込むことの重要性を示す。
論文 参考訳(メタデータ) (2024-09-20T14:49:51Z) - Using Large Language Models to Enrich the Documentation of Datasets for Machine Learning [1.8270184406083445]
大規模言語モデル(LLM)を用いて,文書から次元を自動的に抽出する戦略について検討する。
当社のアプローチは、データパブリッシャや実践者がマシン可読なドキュメントを作成するのに役立ちます。
我々は、我々のアプローチを実装するオープンソースツールと、実験のコードと結果を含むレプリケーションパッケージをリリースした。
論文 参考訳(メタデータ) (2024-04-04T10:09:28Z) - Leveraging Generative AI: Improving Software Metadata Classification
with Generated Code-Comment Pairs [0.0]
ソフトウェア開発では、コードの理解とコラボレーションを強化する上で、コードコメントが重要な役割を果たす。
本研究では,コードコメントを「有用」あるいは「有用でない」と客観的に分類する課題について論じる。
本稿では,この分類プロセスを自動化するために,コンテキスト化された埋め込み,特にBERTを利用する新しいソリューションを提案する。
論文 参考訳(メタデータ) (2023-10-14T12:09:43Z) - Improved Code Summarization via a Graph Neural Network [96.03715569092523]
一般に、ソースコード要約技術はソースコードを入力として使用し、自然言語記述を出力する。
これらの要約を生成するために、ASTのデフォルト構造によくマッチするグラフベースのニューラルアーキテクチャを使用するアプローチを提案する。
論文 参考訳(メタデータ) (2020-04-06T17:36:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。